机器学习+数据可视化，老中医逆袭的秘密武器！-原创手记-慕课网

『姐是老中医，专治吹牛逼』——著名歌唱家花粥

前言

中国古籍，汗牛充栋，源远流长，即使皓首穷经，人一生能博览的书籍也是少之又少，能深入参悟的就更是稀有。

好在现在是AI时代，通过机器学习可以快速大量处理包括文本在内的各种数字文档，借助AI，我们也可以提高对于知识处理和提炼的效率。

本文将以横跨明清两代的医学家陈士铎的毕生心血《医学全书》为例，用AI研习经典，用人工创作智慧。

励志照亮人生，程序猿改变世界。

背景介绍

陈士铎，字敬之，号远公，别号朱华子，又号莲公，自号大雅堂主人，浙江山阴（今浙江绍兴）人。约生于明朝天启年间，卒于清朝康熙年间。据嘉庆八年《山阴县志》记载：“陈士铎，邑诸生，治病多奇中，医药不受人谢，年八十余卒。“

书籍介绍

陈士铎是清代初期的著名医学家，一生的著述非常多。

《医学全书》总共3.7M，汉字约120万字，全部文言文。一个勤奋的读者，每天阅读2000字，需要600多天完成第一轮学习。

至于归纳整理，就需要更久的时间。所以说，学医需谨慎。

框架选型

中文处理文本，第一步分词，第二步向量化。

1、分词

分词我选用了开源项目结巴分词：https://github.com/fxsjy/jieba

自从github嫁给ms，总感觉心里很失落，怀念啊我们的青春啊。

webp

同时，考虑到结巴分词对文言文医学的不熟悉，需要手动设置用户自定义词，示例如下：

webp

2、向量化

因为这次的主要目的是寻找词语关系，所以选择了word2vec作为工具库。

word2vec也叫word embeddings，中文名“词向量”，作用就是将自然语言中的字词转为计算机可以理解的稠密向量（Dense Vector）。

word2vec模型其实就是简单化的神经网络。

word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练，还可以得到训练结果——词向量（word embedding），可以很好地度量词与词之间的相似性。

word2vec常见应用：

用 Word2vec 寻找相似词

根据上下文预测某个词语出现概率

数据处理

良好的数据是机器学习模型的食材。

经过结巴分词之后的segment还需要手工过滤掉标点符号和很多奇怪的词语，这些词语如果不去掉，在后面的向量相似度上会带来很多困扰。

webp

训练模型

webp

训练模型输出相似度

webp

这里以六经为例，目的是看看与这几条经脉最亲密的是哪些东西。

老中医顺手普及：

少阴：分足少阴肾经和手少阴心经，对应心、肾。

太阴：分足太阴脾经和手太阴肺经，对应脾、肺。

厥阴：分足厥阴肝经和手厥阴心包经，对应肝、心包。

少阳：分足少阳胆经和手少阳三焦经，对应胆、三焦。

太阳：分足太阳膀胱经和手太阳小肠经，对应膀胱、小肠。

阳明：分足阳明胃经和手阳明大肠经，对应胃、大肠。

以上对应的五脏（心肝肾肺脾）和六腑（胆，心包，膀胱，小肠，大肠，三焦）并非西医意义上的器官。

数据样本

webp

以上美观大方的数据表格由DataHunter数据可视化软件生成。

可视化

为了直观和颜值，我们采用DataHunter最新的1.8版数据可视化软件来呈现数据。

新版新增了包括热力图、箱线图、关系图、树状图、玫瑰图、桑基图、仪表盘、象形图，正好可以用来展示多维度量的数据。

webp

结论

少阳经与其他经脉的联系最多，古人称“少阳为枢”，很多病症只需『和解少阳』便可四两拨千斤，达到早治疗早轻松的效果。

与虚火关系紧密的是阳明，即胃经，这个在临床上也有很多验证效果，泻胃火可以治疗包括牙龈肿痛、便秘、口腔溃疡等各种现代上火症状。

与肾虚关系紧密的分别是少阴（心肾）经和太阴（脾肺）经，肾很好理解，脾肺在这里出现则发人深思，所谓土生金、金生水，造化之妙。

厥阴与痉病（四肢抽搐、角弓反张）密切相关，这个有经验的老中医一看就洞悉于心：肝木主风，痉病这些症状正与风症吻合。

有兴趣的朋友，还可以拓尔思之，比如查一下与『人参』关系紧密的老铁是那几位？答案不揭晓了，有心者自得知。

现代科技也可以让古老的典籍重新焕发青春！

作者：DataHunter小数
链接：https://www.jianshu.com/p/079cffbc0905