封面
版权信息
内容简介
作者简介
前言
第1章 深度学习与自然语言处理概述
1.1 自然语言处理简史
1.1.1 自然语言处理能做什么
1.1.2 自然语言处理的发展史
1.2 深度学习的兴起
1.2.1 从机器学习到深度学习
1.2.2 深度学习框架
1.2.3 TensorFlow 2程序样例
第2章 词向量的前世今生
2.1 文本预处理的流程
2.2 前深度学习时代的词向量
2.2.1 独热向量
2.2.2 分布式表示
2.3 深度学习时代的词向量
2.3.1 词向量的分类
2.3.2 可视化词向量
2.3.3 词向量在下游任务中的使用
2.4 Word2vec数学原理
2.4.1 语言模型及其评价
2.4.2 神经网络概率语言模型
2.4.3 Word2vec原理
2.5 用TensorFlow实现Word2vec
2.5.1 数据准备
2.5.2 模型构建及训练
2.5.3 词向量评估与Gensim实践
第3章 循环神经网络之一:输入和输出
3.1 循环神经网络的输入和输出
3.1.1 循环神经网络的状态与输出
3.1.2 输入和输出一一对应
3.1.3 一对多和多对一
3.1.4 任意长度的输入和输出
3.2 区分RNN和RNNCell
3.2.1 基类Layer
3.2.2 RNNCell接口
3.2.3 RNN接口
3.3 简单循环神经网络实例
3.4 三种常见的RNN
3.4.1 SimpleRNN
3.4.2 LSTM
3.4.3 GRU
3.5 双向和多层RNN
3.5.1 双向RNN
3.5.2 单向多层RNN
3.5.3 双向多层RNN
第4章 循环神经网络之二:高级
4.1 在RNN中使用Dropout
4.1.1 全连接层中的Dropout
4.1.2 RNN中的Dropout
4.2 RNN中的梯度流动
4.2.1 时序反向传播算法
4.2.2 LSTM的梯度流
4.3 RNN中的归一化方法
4.3.1 批归一化
4.3.2 层归一化
第5章 循环神经网络之三:实战技巧
5.1 序列分类
5.1.1 MNIST数字图像分类
5.1.2 变长序列处理与情感分析
5.2 超长序列的处理
5.2.1 状态传递与数据准备
5.2.2 字符级语言模型
5.3 序列标注和条件随机场
5.3.1 IOB格式
5.3.2 CONLL2003命名实体识别
5.3.3 条件随机场
5.4 中间层输出的提取
第6章 序列到序列问题
6.1 序列到序列问题概述
6.1.1 序列到序列问题的两个代表
6.1.2 三种序列到序列模型
6.2 CTC
6.2.1 CTC模型结构
6.2.2 长短序列的转换
6.2.3 计算标签序列的概率
6.2.4 CTC的推断算法
6.2.5 CTC的缺陷
6.2.6 TensorFlow中的CTC
6.3 Transducer
6.3.1 Transducer模型结构
6.3.2 Transducer的对齐网格
6.3.3 Transducer的训练算法
6.3.4 Transducer模型的推断
6.3.5 Transducer的贪心解码算法
6.3.6 Transducer的集束搜索解码算法
6.4 编码器-解码器架构
6.4.1 编码器-解码器架构简介
6.4.2 编码器-解码器架构代码示例
6.4.3 编码器-解码器架构的其他应用
6.5 文本生成问题的数据处理流程
第7章 注意力机制
7.1 编码器-解码器-注意力架构概述
7.2 两种注意力机制的具体实现
7.2.1 加性注意力
7.2.2 乘性注意力
7.2.3 对注意力机制的理解
7.3 TensorFlow中的注意力机制
7.3.1 熟悉tfa.seq2seq
7.3.2 注意力模块的引入
7.4 注意力机制的其他应用
第8章 超越序列表示:树和图
8.1 自然语言中的树结构
8.2 递归神经网络:TreeLSTM
8.2.1 递归神经网络简介
8.2.2 TreeLSTM两例
8.2.3 N元树形LSTM的TensorFlow实现
8.3 树形LSTM的其他问题
8.3.1 树形递归
8.3.2 动态批处理
8.3.3 结构反向传播算法
8.3.4 树形LSTM的必要性
8.4 图与自然语言处理
8.4.1 LSTM的其他拓展
8.4.2 图神经网络的应用
第9章 卷积神经网络
9.1 离散卷积的定义
9.1.1 卷积的维度
9.1.2 卷积的参数
9.2 卷积神经网络的两个实例
9.2.1 文本分类与TextCNN
9.2.2 语音合成与WaveNet
第10章 Transformer
10.1 Transformer模型结构介绍
10.1.1 注意力层
10.1.2 前馈神经网络层
10.1.3 残差连接与层归一化
10.1.4 位置信息的引入
10.1.5 Transformer整体结构
10.2 Transformer:实现与思考
10.2.1 从零实现Transformer
10.2.2 训练和推断
10.2.3 关于Transformer模块的反思
10.3 Transformer模型的拓展
10.3.1 平方复杂度与显存优化
10.3.2 图灵完备性与归纳偏置
10.3.3 非自回归模型
10.4 Transformer与其他模型的联系
第11章 预训练语言模型
11.1 预训练语言模型发展简史
11.2 GPT
11.2.1 语言模型+精调解决一切问题
11.2.2 GPT-2和GPT-3:大力出奇迹
11.2.3 GPT系列全回顾
11.3 BERT
11.3.1 为什么GPT和ELMo还不够好
11.3.2 无监督语料知识提取方案
11.3.3 在下游任务上精调BERT
11.3.4 BERT改进方案
11.4 后预训练时代
第12章 其他复杂模型
12.1 生成对抗网络
12.1.1 生成对抗网络简介
12.1.2 生成对抗网络与无监督机器翻译
12.2 强化学习
12.2.1 强化学习基本概念
12.2.2 策略梯度和REINFORCE算法
12.2.3 强化学习与文本生成
12.3 流模型
12.3.1 归一化流简介
12.3.2 逆自回归流与并行WaveNet
参考文献
附录一 插图
附录二 算法
附录三 术语表
更新时间:2024-12-27 22:35:40