Python自然语言处理入门与实战 戴程 2022年版
资料介绍
Python自然语言处理入门与实战
作者:戴程
出版时间: 2022年版
内容简介
本书以自然语言处理常用技术与真实案例相结合的方式,深入浅出地介绍自然语言处理中的关键内容。全书共8章,内容包括导论、文本数据爬取、文本基础处理、文本进阶处理、天问一号事件中的网民评论情感分析、新闻文本分类、基于浏览记录的个性化新闻推荐,以及基于TipDM大数据挖掘建模平台实现新闻文本分类。本书各章均包含课后习题,其中前4章为选择题,后4章为操作题,可帮助读者通过练习和操作实践,巩固所学的内容。本书可作为高校数据科学、人工智能和新闻传播相关专业的教材,也可作为自然语言处理爱好者的自学用书。
目 录
第1章 导论
1.1 自然语言处理概述
1.1.1 发展历程
1.1.2 研究任务
1.1.3 自然语言处理与新闻传媒
1.2 自然语言处理工具
1.2.1 常见的自然语言处理工具
1.2.2 Python与自然语言处理
1.3 NLP的开发环境
1.3.1 Anaconda安装
1.3.2 Anaconda应用介绍
小结
课后习题
第2章 文本数据爬取
2.1 HTTP通信基础
2.1.1 熟悉HTTP请求方法与过程
2.1.2 熟悉常见HTTP状态码
2.1.3 熟悉HTTP头部信息
2.1.4 熟悉Cookie
2.2 静态网页爬取
2.2.1 实现HTTP请求
2.2.2 网页解析
2.2.3 数据存储
2.3 动态网页爬取
2.3.1 逆向分析爬取
2.3.2 使用Selenium库爬取
小结
课后习题
第3章 文本基础处理
3.1 语料库
3.1.1 语料库概述
3.1.2 语料库种类与原则
3.1.3 NLTK库
3.1.4 语料库的获取
3.1.5 语料库的构建与应用
3.2 分词与词性标注
3.2.1 中文分词简介
3.2.2 基于规则的分词
3.2.3 基于统计的分词
3.2.4 中文分词工具jieba库
3.2.5 词性标注简介
3.2.6 词性标注规范
3.2.7 jieba词性标注
3.3 命名实体识别
3.3.1 命名实体识别简介
3.3.2 CRF模型
3.3.3 命名实体识别流程
3.4 关键词提取
3.4.1 关键词提取技术简介
3.4.2 关键词提取算法
3.4.3 自动提取文本关键词
小结
课后习题
第4章 文本进阶处理
4.1 文本向量化
4.1.1 文本向量化简介
4.1.2 文本离散表示
4.1.3 分布式表示
4.1.4 Word2Vec词向量的训练
4.2 文本相似度计算
4.2.1 文本相似度的定义
4.2.2 文本的表示
4.2.3 常用文本相似度算法
4.3 文本分类与聚类
4.3.1 文本挖掘简介
4.3.2 文本分类常用算法
4.3.3 文本聚类常用算法
4.3.4 文本分类与聚类的步骤
4.3.5 新闻文本分类
4.3.6 新闻文本聚类
小结
课后习题
第5章 天问一号事件中的网民评论情感分析
5.1 业务背景与项目目标
5.1.1 业务背景
5.1.2 数据说明
5.1.3 分析目标
5.2 分析方法与过程
5.2.1 数据探索
5.2.2 文本预处理
5.2.3 绘制词云图
5.2.4 使用朴素贝叶斯构建情感分类模型
5.2.5 模型评估
5.2.6 模型优化
小结
课后习题
第6章 新闻文本分类
6.1 业务背景与项目目标
6.1.1 业务背景
6.1.2 数据说明
6.1.3 分析目标
6.2 分析方法与过程
6.2.1 数据采集
6.2.2 数据探索
6.2.3 文本预处理
6.2.4 SVM模型构建
6.2.5 模型评价
小结
课后习题
第7章 基于浏览记录的个性化新闻推荐
7.1 业务背景与项目目标
7.1.1 业务背景
7.1.2 数据说明
7.1.3 分析目标
……
作者:戴程
出版时间: 2022年版
内容简介
本书以自然语言处理常用技术与真实案例相结合的方式,深入浅出地介绍自然语言处理中的关键内容。全书共8章,内容包括导论、文本数据爬取、文本基础处理、文本进阶处理、天问一号事件中的网民评论情感分析、新闻文本分类、基于浏览记录的个性化新闻推荐,以及基于TipDM大数据挖掘建模平台实现新闻文本分类。本书各章均包含课后习题,其中前4章为选择题,后4章为操作题,可帮助读者通过练习和操作实践,巩固所学的内容。本书可作为高校数据科学、人工智能和新闻传播相关专业的教材,也可作为自然语言处理爱好者的自学用书。
目 录
第1章 导论
1.1 自然语言处理概述
1.1.1 发展历程
1.1.2 研究任务
1.1.3 自然语言处理与新闻传媒
1.2 自然语言处理工具
1.2.1 常见的自然语言处理工具
1.2.2 Python与自然语言处理
1.3 NLP的开发环境
1.3.1 Anaconda安装
1.3.2 Anaconda应用介绍
小结
课后习题
第2章 文本数据爬取
2.1 HTTP通信基础
2.1.1 熟悉HTTP请求方法与过程
2.1.2 熟悉常见HTTP状态码
2.1.3 熟悉HTTP头部信息
2.1.4 熟悉Cookie
2.2 静态网页爬取
2.2.1 实现HTTP请求
2.2.2 网页解析
2.2.3 数据存储
2.3 动态网页爬取
2.3.1 逆向分析爬取
2.3.2 使用Selenium库爬取
小结
课后习题
第3章 文本基础处理
3.1 语料库
3.1.1 语料库概述
3.1.2 语料库种类与原则
3.1.3 NLTK库
3.1.4 语料库的获取
3.1.5 语料库的构建与应用
3.2 分词与词性标注
3.2.1 中文分词简介
3.2.2 基于规则的分词
3.2.3 基于统计的分词
3.2.4 中文分词工具jieba库
3.2.5 词性标注简介
3.2.6 词性标注规范
3.2.7 jieba词性标注
3.3 命名实体识别
3.3.1 命名实体识别简介
3.3.2 CRF模型
3.3.3 命名实体识别流程
3.4 关键词提取
3.4.1 关键词提取技术简介
3.4.2 关键词提取算法
3.4.3 自动提取文本关键词
小结
课后习题
第4章 文本进阶处理
4.1 文本向量化
4.1.1 文本向量化简介
4.1.2 文本离散表示
4.1.3 分布式表示
4.1.4 Word2Vec词向量的训练
4.2 文本相似度计算
4.2.1 文本相似度的定义
4.2.2 文本的表示
4.2.3 常用文本相似度算法
4.3 文本分类与聚类
4.3.1 文本挖掘简介
4.3.2 文本分类常用算法
4.3.3 文本聚类常用算法
4.3.4 文本分类与聚类的步骤
4.3.5 新闻文本分类
4.3.6 新闻文本聚类
小结
课后习题
第5章 天问一号事件中的网民评论情感分析
5.1 业务背景与项目目标
5.1.1 业务背景
5.1.2 数据说明
5.1.3 分析目标
5.2 分析方法与过程
5.2.1 数据探索
5.2.2 文本预处理
5.2.3 绘制词云图
5.2.4 使用朴素贝叶斯构建情感分类模型
5.2.5 模型评估
5.2.6 模型优化
小结
课后习题
第6章 新闻文本分类
6.1 业务背景与项目目标
6.1.1 业务背景
6.1.2 数据说明
6.1.3 分析目标
6.2 分析方法与过程
6.2.1 数据采集
6.2.2 数据探索
6.2.3 文本预处理
6.2.4 SVM模型构建
6.2.5 模型评价
小结
课后习题
第7章 基于浏览记录的个性化新闻推荐
7.1 业务背景与项目目标
7.1.1 业务背景
7.1.2 数据说明
7.1.3 分析目标
……
相关资料
- 基于工业互联网的SSM项目实战 物料订单管理系统 天津滨海迅腾科技集团有限公司 主编 2018年版
- 数据产品经理高效学习手册 产品设计、技术常识与机器学习 张威 2020年版
- 智慧中国 中国IT产业投资路线图 [尹沿技 著] 2012年版
- 最新数字媒体技术丛书 手机游戏产业与产品 [吴起 著] 2010年版
- 源码中国 全球IT外包新原点 [(瑞)埃尔钦汗 著] 2011年版
- 疯狂的站长 从穷站长到富站长 [温世豪 著] 2011年版
- 电竞简史 徐丽 2020年版
- 码链 大变局中遇见未来 徐蔚 2021年版
- 认识编程:以Python语言讲透编程的本质 郭屹 2021年版
- ChatGPT:读懂AI爆发背后的技术和产业逻辑 项立刚 2023年版
下载说明
本站资源使用网盘存储,可以一键转存和下载,下载速度一流;本站资源均为RAR/ZIP 格式压缩,为确保资源能够正常使用,需使用【WinRAR】等进行解压;
本站资源解压后格式为PDF的,为保证正常使用,推荐【Adobe Reader 8.0】以上版本进行阅读;
如果您发现文件无法下载,请稍后再次尝试;若依然如此,请到 报错页面 告诉我们。
本站提供的标准文件一般为PDF格式,如果您需要Word版本,可搜索【PDF转换成Word软件】进行转换;
本站资料均为网上收集,若无意中侵犯了您的版权,请与我们联系;
本站资料仅供学习交流之用,请下载后24小时内删除。正式场合使用,请购买正版;