【九月打卡】第九天 NLP基础和聊天机器人简介-原创手记-慕课网

首页课程实战体系课手记专栏慕课教程

【九月打卡】第九天 NLP基础和聊天机器人简介

zengxing358 2022-09-14 19:33:18 浏览 4282

zengxing358

关注TA

手记 46

粉丝 2

获赞 0

学习课程：基于Pytorch热门深度学习框架从零开发NLP聊天机器人

章节名称：第2章聊天机器人综合介绍 && 第3章 NLP基础

讲师：胖虎

课程内容：

NLP

什么是NLP？

Natural Language Processing 自然语言处理

AI重要分支之一

主要范畴

发展历程

研究难点

涉及知识

词处理

分词、词性标注、实体识别、词义消除

语句处理

句法分析（Syntactic Analysis）、语义分析（Senmantic Analysis）、机器翻译、语音合成

篇章处理

自动文摘

统计语言模型

N-Gram统计模型

马尔科夫模型

NLTK（Natural Language Toolkit）库

诞生于20世纪80年代

网站：https://www.nltk.org/

NLTK能干什么

python上著名的自然语言处理库

自带语料库，词性分类库

自带分类，分词等等功能

强大的社区支持

词性标注的分类方法

基于规则的词性标注

基于隐马尔可夫模型HMM的词性标注

基于转移的词性标注

基于转移与隐马尔可夫模型相结合的词性标注

分词

什么是分词？

把句子变成词

难点

分词的算法

基于词典的分词算法

基于统计的分词算法

jieba

Python 中文分词组件

TF-IDF

TF:Term Frequency,衡量一个term在文档中出现得有多频繁。

TF(t)=(t出现在文档中的次数）/（文档中的term总数）

IDF：InverseDocument Frequency,衡量一个term有多重要。

IDF(t)=log_e(文档总数/含有t的文档总数).

TF-IDF=TF*IDF

scikit-learn可以用TF-IDF

NLTK和jieba也可以用TF-IDF

智能问答

聊天机器人原理

文本处理方法

Stopwords

自动过滤掉某些无意义的常用停顿词

常用stopwords网址：https://www.ranks.nl/stopwords

Word2Vec

2013年 Mikolov 提出，就是用神经网络把词转成向量的模型

转换后的king和man后2个是一致的，说明他们是有关联关系的，而king与woman则离得比较远

学习收获：

对整个NLP发展及其目的有了一个全局的概览

了解分词、分词处理方法以及文本处理方法

打卡截图：

相关标签: 人工智能; 自然语言处理

0人推荐

随时随地看视频慕课网APP

相关课程

BAT大牛亲授个性化推荐算法实战

¥399 初级 844

AI Agent从0到1定制开发全栈+全流程+企业级落地实战

¥699 初级 834

Python 量化交易工程师养成实战-金融高薪领域

¥399 初级 805

神经网络简介

免费初级 37080

走进Python量化交易--入门篇

免费初级 29759

AI人工智能算法工程师

¥3999 648