《深度学习:基础与概念》封面

内容简介

本书全面且深入地呈现了深度学习领域的知识体系,系统梳理了该领域的核心知识,阐述了深度学习的关键概念、基础理论及核心思想,剖析了当代深度学习架构与技术。全书共 20 章。本书首先介绍深度学习的发展历程、基本概念及其在诸多领域(如医疗诊断、图像合成等)产生的深远影响;继而深入探讨支撑深度学习的数学原理,包括概率、标准分布等;在网络模型方面,从单层网络逐步深入到多层网络、深度神经网络,详细讲解其结构、功能、优化方法及其在分类、回归等任务中的应用,同时涵盖卷积网络、Transformer 等前沿架构及其在计算机视觉、自然语言处理等领域的独特作用。本书还对正则化、采样、潜变量、生成对抗网络、自编码器、扩散模型等关键技术展开深入分析,阐释其原理、算法流程及实际应用场景。对于机器学习领域的新手,本书是全面且系统的入门教材,可引领其踏入深度学习的知识殿堂;对于机器学习领域从业者,本书是深化专业知识、紧跟技术前沿的有力工具;对于相关专业学生,本书是学习深度学习课程、开展学术研究的优质参考资料。无论是理论学习、实践应用还是学术研究,本书都是读者在深度学习领域探索与前行的重要指引。

作者简介

克里斯托弗·M. 毕晓普(Christopher M. Bishop)

微软公司技术研究员、微软研究 院 科 学 智 能 中 心(Microsoft Research AI4Science)负责人。剑桥达尔文学院院士、英国皇家工程院院士、爱丁堡皇家学会院士和伦敦皇家学会院士。曾出版经典著作《模式识别与机器学习》(Pattern Recognition and Machine Learning)。

休·毕晓普(Hugh Bishop)

Wayve 公司(伦敦一家基于端到端深度学习的自动驾驶公司)应用科学家,负责设计和训练深度神经网络。拥有剑桥大学工程系机器学习和机器智能专业硕士

学位、杜伦大学计算机科学工程学硕士学位。

目录

第1章深度学习革命1
11深度学习的影响2
111医疗诊断2
112蛋白质结构预测3
113图像合成4
114大语言模型5
12一个教学示例6
121合成数据7
122线性模型7
123误差函数8
124模型复杂度8
125正则化11
126模型选择12
13机器学习简史14
131单层网络15
132反向传播16
133深度网络17
第2章概率21
21概率法则23
211医学筛查示例23
212加和法则和乘积法则24
213贝叶斯定理26
214再看医学筛查示例27
215先验概率和后验概率28
216独立变量28
22概率密度28
221分布的示例30
222期望和协方差31
23高斯分布32
231均值和方差32
232似然函数33
233最大似然的偏差35
234线性回归36
24密度变换37
多元分布39
25信息论40
251熵40
252物理学视角42
253微分熵43
254最大熵44
255Kullback-Leibler散度45
256条件熵47
257互信息47
26贝叶斯概率47
261模型参数48
262正则化49
263贝叶斯机器学习50
习题50
第3章标准分布55
31离散变量56
311伯努利分布56
312二项分布57
313多项分布58
32多元高斯分布59
321高斯几何60
322矩62
323局限性64
324条件分布64
325边缘分布67
326贝叶斯定理70
327最大似然72
328序贯估计73
329高斯混合74
33周期变量76
冯·米塞斯分布76
34指数族分布80
充分统计量84
35非参数化方法85
351直方图85
352核密度86
353最近邻88
习题90
第4章单层网络:回归97
41线性回归97
411基函数98
412似然函数100
413最大似然101
414最小二乘的几何表示102
415序贯学习102
416正则化最小二乘法103
417多重输出104
42决策理论105
43偏差-方差权衡108
习题112
第5章单层网络:分类115
51判别函数116
511二分类116
512多分类117
5131-of-K编码方案119
514最小二乘分类119
52决策理论121
521误分类率122
522预期损失124
523拒绝选项125
524推理和决策125
525分类器精度128
526ROC曲线129
53生成分类器131
531连续输入132
532最大似然解134
533离散特征136
534指数族分布136
54判别分类器137
541激活函数137
542固定基函数138
543逻辑斯谛回归139
544多类逻辑斯谛回归140
545probit回归141
546规范连接函数143
习题144
第6章深度神经网络149
61固定基函数的局限性150
611维度诅咒150
612高维空间152
613数据流形153
614数据依赖的基函数155
62多层网络156
621参数矩阵157
622通用近似158
623隐藏单元激活函数159
624权重空间的对称性161
63深度网络162
631层次化表示162
632分布式表示163
633表示学习163
634迁移学习164
635对比学习165
636通用网络结构168
637张量168
64误差函数169
641回归169
642二分类170
643多分类171
65混合密度网络172
651机器人运动学示例172
652条件混合分布173
653梯度优化175
654预测分布176
习题177
第7章梯度下降181
71错误平面182
局部二次近似183
72梯度下降优化184
721梯度信息的使用185
722批量梯度下降185
723随机梯度下降186
724小批量方法187
725参数初始化188
73收敛189
731动量190
732学习率调度192
733AdaGrad、RMSProp与Adam算法193
74正则化195
741数据归一化195
742批量归一化196
743层归一化197
习题198
第8章反向传播201
81梯度计算202
811单层网络202
812一般前馈网络202
813简单示例205
814数值微分法206
815雅可比矩阵207
816黑塞矩阵209
82自动微分法211
821前向模式自动微分213
822逆模式自动微分215
习题217
第9章正则化219
91归纳偏置220
911逆问题220
912无免费午餐定理221
913对称性和不变性222
914等变性224
92权重衰减225
921一致性正则化项226
922广义权重衰减228
93学习曲线230
931早停法230
932双重下降231
94参数共享234
软权重共享234
95残差连接236
96模型平均239
dropout241
习题243
第10章卷积网络247
101计算机视觉248
图像数据248
102卷积滤波器249
1021特征检测器250
1022平移等变性251
1023填充252
1024跨步卷积253
1025多维卷积253
1026池化255
1027多层卷积256
1028网络架构示例257
103可视化训练好的CNN259
1031视觉皮层259
1032可视化训练好的滤波器260
1033显著性图262
1034对抗攻击263
1035合成图像264
104目标检测265
1041边界框265
1042交并比266
1043滑动窗口267
1044跨尺度检测268
1045非最大抑制269
1046快速区域卷积神经网络270
105图像分割270
1051卷积分割270
1052上采样271
1053全卷积网络272
1054U-Net架构273
106风格迁移274
习题275
第11章结构化分布279
111概率图模型280
1111有向图280
1112分解280
1113离散变量282
1114高斯变量284
1115二元分类器286
1116参数和观测值287
1117贝叶斯定理288
112条件独立性289
11213个示例图289
1122相消解释292
1123d分离293
1124朴素贝叶斯294
1125生成式模型296
1126马尔可夫毯297
1127作为过滤器的图298
113序列模型299
潜变量301
习题302
第12章Transformer305
121注意力306
1211Transformer处理308
1212注意力系数308
1213自注意力309
1214网络参数310
1215缩放自注意力312
1216多头注意力313
1217Transformer层315
1218计算复杂性316
1219位置编码317
122自然语言319
1221词嵌入320
1222分词321
1223词袋模型322
1224自回归模型323
1225递归神经网络324
1226通过时间的反向传播325
123Transformer语言模型326
1231解码器型Transformer326
1232抽样策略329
1233编码器型Transformer330
1234序列到序列Transformer332
1235大语言模型333
124多模态Transformer336
1241视觉Transformer336
1242图像生成Transformer337
1243音频数据339
1244文本语音转换340
1245视觉和语言Transformer342
习题343
第13章图神经网络347
131基于图的机器学习348
1311图的属性349
1312邻接矩阵349
1313排列等变性350
132神经信息传递351
1321卷积滤波器352
1322图卷积网络353
1323聚合算子354
1324更新算子356
1325节点分类357
1326边分类358
1327图分类358
133通用图网络359
1331图注意力网络359
1332边嵌入360
1333图嵌入360
1334过度平滑361
1335正则化362
1336几何深度学习362
习题363
第14章采样365
141基本采样366
1411期望366
1412标准分布367
1413拒绝采样369
1414适应性拒绝采样370
1415重要性采样371
1416采样-重要性-重采样373
142马尔可夫链蒙特卡洛采样374
1421Metropolis算法375
1422马尔可夫链376
1423Metropolis-Hastings算法378
1424吉布斯采样380
1425祖先采样382
143郎之万采样383
1431基于能量的模型384
1432最大化似然385
1433朗之万动力学386
习题388
第15章离散潜变量391
151K均值聚类392
图像分割395
152高斯混合分布397
1521似然函数399
1522最大似然400
153EM算法404
1531高斯混合模型406
1532EM算法与K均值算法的关系408
1533混合伯努利分布409
154证据下界412
1541EM算法回顾413
1542独立同分布数据415
1543参数先验415
1544广义EM算法416
1545顺序EM算法416
习题417
第16章连续潜变量421
161主成分分析422
1611最大方差表述423
1612最小误差表述424
1613数据压缩427
1614数据白化428
1615高维数据429
162概率潜变量430
1621生成式模型431
1622似然函数432
1623最大似然法433
1624因子分析436
1625独立成分分析437
1626卡尔曼滤波器439
163证据下界439
1631EM算法441
1632PCA的EM算法442
1633因子分析的EM算法444
164非线性潜变量模型444
1641非线性流形445
1642似然函数447
1643离散数据448
1644构建生成式模型的4种方法448
习题449
第17章生成对抗网络453
171对抗训练454
1711损失函数455
1712实战中的GAN训练456
172图像的生成对抗网络458
CycleGAN459
习题462
第18章标准化流465
181耦合流467
182自回归流470
183连续流472
1831神经ODE472
1832神经ODE的反向传播473
1833神经ODE流474
习题476
第19章自编码器479
191确定性的自编码器480
1911线性自编码器480
1912深度自编码器481
1913稀疏自编码器482
1914去噪自编码器482
1915掩蔽自编码器483
192变分自编码器484
1921摊销推理487
1922重参数化技巧488
习题491
第20章扩散模型493
201前向编码器494
2011扩散核495
2012条件分布496
202反向解码器497
2021训练解码器499
2022证据下界499
2023重写ELBO501
2024预测噪声502
2025生成新的样本504
203得分匹配505
2031得分损失函数506
2032修改得分损失506
2033噪声方差508
2034随机微分方程508
204有引导的扩散509
2041有分类器的引导510
2042无分类器的引导510
习题513
附录517
附录A线性代数517
A1矩阵恒等式517
A2迹和行列式518
A3矩阵导数519
A4特征向量521
附录B变分法524
附录C拉格朗日乘子526
参考资料529
索引549
······

最后修改:2026 年 01 月 05 日