『姐是老中医,专治吹牛逼』——著名歌唱家花粥
目录结构1、前言2、背景介绍3、书籍介绍4、框架选型分词向量化5、数据处理6、训练模型7、输出相似度8、数据样本9、可视化10、结论前言中国古籍,汗牛充栋,源远流长,即使皓首穷经,人一生能博览的书籍也是少之又少,能深入参悟的就更是稀有。
好在现在是AI时代,通过机器学习可以快速大量处理包括文本在内的各种数字文档,借助AI,我们也可以提高对于知识处理和提炼的效率。
本文将以横跨明清两代的医学家陈士铎的毕生心血《医学全书》为例,用AI研习经典,用人工创作智慧。
励志照亮人生,程序猿改变世界。
背景介绍陈士铎,字敬之,号远公,别号朱华子,又号莲公,自号大雅堂主人,浙江山阴(今浙江绍兴)人。约生于明朝天启年间,卒于清朝康熙年间。据嘉庆八年《山阴县志》记载:“陈士铎,邑诸生,治病多奇中,医药不受人谢,年八十余卒。“
书籍介绍陈士铎是清代初期的著名医学家,一生的著述非常多。
《医学全书》总共3.7M,汉字约万字,全部文言文。一个勤奋的读者,每天阅读字,需要多天完成第一轮学习。
至于归纳整理,就需要更久的时间。所以说,学医需谨慎。
框架选型中文处理文本,第一步分词,第二步向量化。
1、分词
分词我选用了开源项目结巴分词: