『姐是老中医,专治吹牛逼』——著名歌唱家花粥
前言
中国古籍,汗牛充栋,源远流长,即使皓首穷经,人一生能博览的书籍也是少之又少,能深入参悟的就更是稀有。
好在现在是AI时代,通过机器学习可以快速大量处理包括文本在内的各种数字文档,借助AI,我们也可以提高对于知识处理和提炼的效率。
本文将以横跨明清两代的医学家陈士铎的毕生心血《医学全书》为例,用AI研习经典,用人工创作智慧。
励志照亮人生,程序猿改变世界。
背景介绍
陈士铎,字敬之,号远公,别号朱华子,又号莲公,自号大雅堂主人,浙江山阴(今浙江绍兴)人。约生于明朝天启年间,卒于清朝康熙年间。据嘉庆八年《山阴县志》记载:“陈士铎,邑诸生,治病多奇中,医药不受人谢,年八十余卒。“
书籍介绍
陈士铎是清代初期的著名医学家,一生的著述非常多。
《医学全书》总共3.7M,汉字约120万字,全部文言文。一个勤奋的读者,每天阅读2000字,需要600多天完成第一轮学习。
至于归纳整理,就需要更久的时间。所以说,学医需谨慎。
框架选型
中文处理文本,第一步分词,第二步向量化。
1、分词
分词我选用了开源项目结巴分词:https://github.com/fxsjy/jieba
自从github嫁给ms,总感觉心里很失落,怀念啊我们的青春啊。
同时,考虑到结巴分词对文言文医学的不熟悉,需要手动设置用户自定义词,示例如下:
2、向量化
因为这次的主要目的是寻找词语关系,所以选择了word2vec作为工具库。
word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。
word2vec模型其实就是简单化的神经网络。
word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。
word2vec常见应用:
用 Word2vec 寻找相似词
根据上下文预测某个词语出现概率
数据处理
良好的数据是机器学习模型的食材。
经过结巴分词之后的segment还需要手工过滤掉标点符号和很多奇怪的词语,这些词语如果不去掉,在后面的向量相似度上会带来很多困扰。
训练模型
训练模型输出相似度
这里以六经为例,目的是看看与这几条经脉最亲密的是哪些东西。
老中医顺手普及:
少阴:分足少阴肾经和手少阴心经,对应心、肾。
太阴:分足太阴脾经和手太阴肺经,对应脾、肺。
厥阴:分足厥阴肝经和手厥阴心包经,对应肝、心包。
少阳:分足少阳胆经和手少阳三焦经,对应胆、三焦。
太阳:分足太阳膀胱经和手太阳小肠经,对应膀胱、小肠。
阳明:分足阳明胃经和手阳明大肠经,对应胃、大肠。
以上对应的五脏(心肝肾肺脾)和六腑(胆,心包,膀胱,小肠,大肠,三焦)并非西医意义上的器官。
数据样本
以上美观大方的数据表格由DataHunter数据可视化软件生成。
可视化
为了直观和颜值,我们采用DataHunter最新的1.8版数据可视化软件来呈现数据。
新版新增了包括热力图、箱线图、关系图、树状图、玫瑰图、桑基图、仪表盘、象形图,正好可以用来展示多维度量的数据。
结论
少阳经与其他经脉的联系最多,古人称“少阳为枢”,很多病症只需『和解少阳』便可四两拨千斤,达到早治疗早轻松的效果。
与虚火关系紧密的是阳明,即胃经,这个在临床上也有很多验证效果,泻胃火可以治疗包括牙龈肿痛、便秘、口腔溃疡等各种现代上火症状。
与肾虚关系紧密的分别是少阴(心肾)经和太阴(脾肺)经,肾很好理解,脾肺在这里出现则发人深思,所谓土生金、金生水,造化之妙。
厥阴与痉病(四肢抽搐、角弓反张)密切相关,这个有经验的老中医一看就洞悉于心:肝木主风,痉病这些症状正与风症吻合。
有兴趣的朋友,还可以拓尔思之,比如查一下与『人参』关系紧密的老铁是那几位?答案不揭晓了,有心者自得知。
现代科技也可以让古老的典籍重新焕发青春!
作者:DataHunter小数
链接:https://www.jianshu.com/p/079cffbc0905