继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

【九月打卡】第九天 NLP基础和聊天机器人简介

zengxing358
关注TA
已关注
手记 46
粉丝 2
获赞 0

学习课程:基于Pytorch热门深度学习框架 从零开发NLP聊天机器人

章节名称:第2章 聊天机器人综合介绍  && 第3章 NLP基础

讲师:胖虎

课程内容:


NLP

什么是NLP?

Natural Language Processing 自然语言处理

AI重要分支之一


主要范畴

http://img4.sycdn.imooc.com/6321ad6800012ef313830779.jpg

http://img4.sycdn.imooc.com/6321ad990001f3bb13810775.jpg


发展历程

http://img1.sycdn.imooc.com/6321ade2000112b713820775.jpg


研究难点

http://img3.sycdn.imooc.com/6321ae220001858013860782.jpg


涉及知识

词处理

分词、词性标注、实体识别、词义消除

语句处理

句法分析(Syntactic Analysis)、语义分析(Senmantic Analysis)、机器翻译、语音合成

篇章处理

自动文摘


统计语言模型

N-Gram统计模型

马尔科夫模型


NLTK(Natural Language Toolkit)库

诞生于20世纪80年代

网站:https://www.nltk.org/

NLTK能干什么

python上著名的自然语言处理库

自带语料库,词性分类库

自带分类,分词等等功能

强大的社区支持


词性标注的分类方法

基于规则的词性标注

基于隐马尔可夫模型HMM的词性标注

基于转移的词性标注

基于转移与隐马尔可夫模型相结合的词性标注


分词

什么是分词?

把句子变成词

难点

http://img2.sycdn.imooc.com/6321b3b9000155cc13810773.jpg

http://img4.sycdn.imooc.com/6321b40b000119a013800781.jpg


分词的算法

基于词典的分词算法

http://img4.sycdn.imooc.com/6321b46b00013fa213850775.jpg

基于统计的分词算法


jieba

Python 中文分词组件


TF-IDF

http://img1.sycdn.imooc.com/6321b5580001055513830769.jpg

TF:Term Frequency,衡量一个term在文档中出现得有多频繁。

TF(t)=(t出现在文档中的次数)/(文档中的term总数)

IDF:InverseDocument Frequency,衡量一个term有多重要。

IDF(t)=log_e(文档总数/含有t的文档总数).

TF-IDF=TF*IDF

scikit-learn可以用TF-IDF

NLTK和jieba也可以用TF-IDF


智能问答

http://img2.sycdn.imooc.com/6321b7470001ded913780776.jpg

聊天机器人原理

http://img3.sycdn.imooc.com/6321b76c0001e7fc13830777.jpg

http://img2.sycdn.imooc.com/6321b7b1000107bb13710776.jpg

文本处理方法

http://img1.sycdn.imooc.com/6321b8470001869213780776.jpg

http://img3.sycdn.imooc.com/6321b861000109e313800776.jpg

http://img3.sycdn.imooc.com/6321b8a30001e30c13790773.jpg

http://img1.sycdn.imooc.com/6321b8b0000198c513840775.jpg



Stopwords

自动过滤掉某些无意义的常用停顿词

常用stopwords网址:https://www.ranks.nl/stopwords


Word2Vec

2013年 Mikolov 提出,就是用神经网络把词转成向量的模型

http://img1.sycdn.imooc.com/6321b9dd00011fd013750773.jpg

http://img3.sycdn.imooc.com/6321ba25000118c013110725.jpg

http://img1.sycdn.imooc.com/6321ba42000172ed12900735.jpg

http://img4.sycdn.imooc.com/6321ba610001256113500758.jpg

转换后的king和man后2个是一致的,说明他们是有关联关系的,而king与woman则离得比较远

http://img3.sycdn.imooc.com/6321bb570001312313870773.jpg

http://img1.sycdn.imooc.com/6321bb6900019dd613510773.jpg

http://img4.sycdn.imooc.com/6321bbad0001c31d13750774.jpg

http://img4.sycdn.imooc.com/6321bbdb00012dd613430774.jpg


学习收获:

对整个NLP发展及其目的有了一个全局的概览

了解分词、分词处理方法以及文本处理方法


打卡截图:

http://img2.sycdn.imooc.com/6321b14a000142ae13860779.jpg

http://img3.sycdn.imooc.com/6321b15d0001cab513860783.jpg

http://img3.sycdn.imooc.com/6321b17a0001216113820773.jpg


打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP