继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

机器学习+数据可视化,老中医逆袭的秘密武器!

青春有我
关注TA
已关注
手记 1199
粉丝 205
获赞 1008

『姐是老中医,专治吹牛逼』——著名歌唱家花粥

前言

中国古籍,汗牛充栋,源远流长,即使皓首穷经,人一生能博览的书籍也是少之又少,能深入参悟的就更是稀有。

好在现在是AI时代,通过机器学习可以快速大量处理包括文本在内的各种数字文档,借助AI,我们也可以提高对于知识处理和提炼的效率。

本文将以横跨明清两代的医学家陈士铎的毕生心血《医学全书》为例,用AI研习经典,用人工创作智慧。

励志照亮人生,程序猿改变世界。

背景介绍

陈士铎,字敬之,号远公,别号朱华子,又号莲公,自号大雅堂主人,浙江山阴(今浙江绍兴)人。约生于明朝天启年间,卒于清朝康熙年间。据嘉庆八年《山阴县志》记载:“陈士铎,邑诸生,治病多奇中,医药不受人谢,年八十余卒。“

书籍介绍

陈士铎是清代初期的著名医学家,一生的著述非常多。

《医学全书》总共3.7M,汉字约120万字,全部文言文。一个勤奋的读者,每天阅读2000字,需要600多天完成第一轮学习。

至于归纳整理,就需要更久的时间。所以说,学医需谨慎。

框架选型

中文处理文本,第一步分词,第二步向量化。

1、分词

分词我选用了开源项目结巴分词:https://github.com/fxsjy/jieba

自从github嫁给ms,总感觉心里很失落,怀念啊我们的青春啊。

webp

同时,考虑到结巴分词对文言文医学的不熟悉,需要手动设置用户自定义词,示例如下:

webp

2、向量化

因为这次的主要目的是寻找词语关系,所以选择了word2vec作为工具库。

word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。

word2vec模型其实就是简单化的神经网络。

word2vec不仅可以在百万数量级的词典和上亿的数据集上进行高效地训练,还可以得到训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。

word2vec常见应用:

用 Word2vec 寻找相似词

根据上下文预测某个词语出现概率

数据处理

良好的数据是机器学习模型的食材。

经过结巴分词之后的segment还需要手工过滤掉标点符号和很多奇怪的词语,这些词语如果不去掉,在后面的向量相似度上会带来很多困扰。


webp

训练模型

webp

训练模型输出相似度

webp

这里以六经为例,目的是看看与这几条经脉最亲密的是哪些东西。

老中医顺手普及:

少阴:分足少阴肾经和手少阴心经,对应心、肾。

太阴:分足太阴脾经和手太阴肺经,对应脾、肺。

厥阴:分足厥阴肝经和手厥阴心包经,对应肝、心包。

少阳:分足少阳胆经和手少阳三焦经,对应胆、三焦。

太阳:分足太阳膀胱经和手太阳小肠经,对应膀胱、小肠。

阳明:分足阳明胃经和手阳明大肠经,对应胃、大肠。

以上对应的五脏(心肝肾肺脾)和六腑(胆,心包,膀胱,小肠,大肠,三焦)并非西医意义上的器官。

数据样本

webp

以上美观大方的数据表格由DataHunter数据可视化软件生成。

可视化

为了直观和颜值,我们采用DataHunter最新的1.8版数据可视化软件来呈现数据。

新版新增了包括热力图、箱线图、关系图、树状图、玫瑰图、桑基图、仪表盘、象形图,正好可以用来展示多维度量的数据。

webp

webp

结论

少阳经与其他经脉的联系最多,古人称“少阳为枢”,很多病症只需『和解少阳』便可四两拨千斤,达到早治疗早轻松的效果。

与虚火关系紧密的是阳明,即胃经,这个在临床上也有很多验证效果,泻胃火可以治疗包括牙龈肿痛、便秘、口腔溃疡等各种现代上火症状。

与肾虚关系紧密的分别是少阴(心肾)经和太阴(脾肺)经,肾很好理解,脾肺在这里出现则发人深思,所谓土生金、金生水,造化之妙。

厥阴与痉病(四肢抽搐、角弓反张)密切相关,这个有经验的老中医一看就洞悉于心:肝木主风,痉病这些症状正与风症吻合。

有兴趣的朋友,还可以拓尔思之,比如查一下与『人参』关系紧密的老铁是那几位?答案不揭晓了,有心者自得知。

现代科技也可以让古老的典籍重新焕发青春!



作者:DataHunter小数
链接:https://www.jianshu.com/p/079cffbc0905


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP