webinar register page

Webinar banner
6/5 数据科学读书会 Book 12 - NLP 自然语言处理 第九讲
伴随人工智能技术的推广,使用Natural Language Processing (NLP)的技术越来越普遍, 例如,电话和掌上电脑支持文本预测和手写识别, 网络搜索引擎让我们可以访问非结构化文本中的信息,机器翻译让我们可以检索各种语言编写的文本,并以另一种语言阅读它们。语言处理在多语种信息社会中发挥着核心作用,它可以提供更自然的人机交互界面并且可以访问更复杂的存储信息。

在本系列讲座中,我们将以O‘Reilly的Natural Language Processing with Python(Steven Bird, Ewan Klein & Edward Loper)一书为参考展开讲述。你将学习到什么是NLP,什么是非结构化数据。你将可以在Python中对文本数据执行各种操作,有许多RegEx方法可以帮你更好地理解文本数据。你将学习到NLTK库的基础知识,NLTK库是构建Python程序用以使用人类语言数据的领先平台。你还将了解不同的概念和注解器,比如标记、POS标记和命名实体识别。

数据科学读书会的第12本书《NLP 自然语言处理》 已经接近尾声。在过去接近两个月的时间里,同学们一起学习了Regex函数、用Python进行NLP、文本数据、情感分析和深度学习等等,围绕着英文的自然语言处理的相关知识。

现在,我们应广大同学的反馈和建议,将在6月5日增加本书的最后一讲,这一讲会以中文的自然语言处理为中心展开话题。由于中英文在词性标注、句法分析等任务上的差异,这两种语言在NLP上也不尽相同。本期中文NLP会带大家了解,中文NLP用到的工具包和神经网络模型,中文分词的特点,中文词性标注,句法分析等知识,让大家对自然语言处理的理解更近一步,帮助大家在更广阔的领域灵活运用NLP。

第1讲: NLP
NLP简介
NLP用例
NLP面临的挑战
Python基础知识

第2讲: 使用Python的Regex函数
为什么用Python
探索Regex函数
Regex函数的应用
Regex函数的标记

第3讲:了解数据和预处理
什么是文本数据
预处理文本数据
词干和词元化
词袋和TF-IDF

第4讲: NLTK
NLTK简介
句子和字标记
词类标记
命名实体识别

第5讲:NLP情感分析
什么是情感分析
情感分析的范围
情感分析的方法
如何使用Python进行情感分析

第6讲:端到端文本分类
获取数据
数据预处理
为模型做数据准备
文本分类模型

第7讲:使用深度学习的NLP
为什么将深度学习用于NLP
单词嵌入
序列建模的简介
序列建模的应用

第8讲:NLP中的序列模型
循环神经网络
LSTM(长短期记忆网络)
门控循环单元

第9讲:中文的自然语言处理
中文NLP用到的工具包和神经网络模型
中文分词的特点
中文词性标注,句法分析

【所有成功注册并全程出席的同学将获得特别礼品】
获得资格加入北美求职互助群
获得数据应用学院奖学金积分50美金
可以领取数据应用学院的数据科学家课程优惠券

2021年6月19日 “商业分析师求职训练营” 开营啦!
https://www.dataapplab.com/ba/

数据应用学院 -- 北美留学生求职的最佳路径
www.dataapplab.com

Jun 5, 2021 04:00 PM in Pacific Time (US and Canada)

Webinar is over, you cannot register now. If you have any questions, please contact Webinar host: 数据应用学院小姐姐.