
百面大模型 内容简介
本书收录了约百道大模型工程师常见的面试题目和解答,系统、全面地介绍了与大模型相关的技术,涵盖语义表达、数据预处理、预训练、对齐、垂类微调、组件、评估、架构、检索增强生成(RAG)、智能体、PEFT(参数高效微调),以及训练与推理等内容。书中通过丰富的实例、图表及代码讲解,将复杂概念阐释得通俗易懂,是大模型领域的一本不可多得的实用指南。本书适合对大模型和Transformer等技术感兴趣的学生、研究者和工程师阅读和参考。
编辑推荐
覆盖95%大模型面试高频考点
涵盖MoE、预训练、后训练、SFT、PEFT、RLHF、PPO、GRPO、DPO、FlashAttention、RAG、智能体以及DeepSeek MLA等
百面大模型 作者简介
包梦蛟,北京航空航天大学硕士,美团北斗计划高级算法专家,负责大众点评大模型应用落地开发,曾获得Kaggle Grandmaster称号、KDD CUP 2024冠军,业余时间撰写知乎专栏和公众号“包包算法笔记”,全网关注数5万+。
刘如日,北京航空航天大学硕士,研究兴趣为机器学习与自然语言处理。曾以第一作者身份发表顶会论文并多次在顶会竞赛中取得冠军等优异成绩。现于美团从事大模型相关技术研究与产业应用。
朱俊达,北京航空航天大学硕士,研究兴趣为大模型架构优化方向,有多家大厂实习经历,发表了多篇大模型相关论文。
百面大模型 目录
第1章语义表达11.1词向量与语义信息1
1.1.1稀疏词向量2
1.1.2分布式语义假设2
1.1.3稠密词向量3
1.2溢出词表词的处理方法6
1.3分词方法的区别与影响11
1.3.1词(word)11
1.3.2子词(subword)12
1.3.3字符(char)16
1.4词向量与语义相似度17
1.5构建句子向量19
1.6预训练的位置编码22
1.7BERT的不同嵌入类型25
1.8大模型语义建模的典型架构27
第2章大模型的数据31
2.1大模型训练开源数据集31
2.2大模型不同训练环节与数据量35
2.3大模型数据预处理39
2.3.1数据的质量39
2.3.2数据的多样性40
2.4大模型扩展法则43
2.5持续预训练与灾难性遗忘47
2.6大模型指令微调的数据筛选49
第3章大模型的预训练53
3.1预训练与监督微调辨析53
3.2大模型的涌现能力56
3.3大模型预训练阶段的实验提效方法58
3.4大模型开发流程三阶段:预训练、监督微调和强化学习61
3.4.1大模型预训练61
3.4.2大模型的监督微调61
3.4.3大模型的强化学习62
3.5大模型训练显存计算与优化63
3.6大模型训练通信开销计算75
3.6.1集合通信原语76
3.6.2数据并行的工作原理和通信开销计算80
3.6.3张量并行的工作原理和通信开销计算81
3.6.4 流水线并行的工作原理和通信开销计算84
3.6.5 使用ZeRO优化技术时的通信开销计算85
第4章大模型的对齐87
4.1 对齐数据构造87
4.2 PPO算法88
4.3 奖励模型训练96
4.4 PPO稳定训练的方法99
4.4.1 设计合理的评估指标对PPO训练过程进行监控100
4.4.2 对损失和梯度进行标准化和裁剪101
4.4.3 改进损失函数102
4.4.4 优化评论家模型和演员模型的初始化方式102
4.5 DPO算法103
4.6 DPO与PPO辨析105
4.6.1 计算资源方面:DPO所需计算资源比PPO少106
4.6.2 训练稳定性方面:DPO的训练稳定性高于PPO106
4.6.3 效果方面:PPO的泛化能力优于DPO106
4.7 其他偏好对齐方法综述108
4.7.1PPO类108
4.7.2 DPO类113
4.7.3 非强化学习类117
4.7.4 数据类119
4.8 对齐训练稳定性监测119
4.8.1 监督微调阶段119
4.8.2 强化学习对齐训练阶段121
4.9 大模型后训练环节辨析122
第5章大模型的垂类微调124
5.1 (垂类)监督微调124
5.2 后训练的词表扩充128
5.3 有效的长度外推方法130
5.4 大模型微调的损失函数140
5.4.1 CrossEntropyLoss(交叉熵损失)140
5.4.2 z-loss141
5.4.3 EMOloss142
5.5 大模型知识注入方法144
5.5.1 模型的继续预训练与监督微调144
5.5.2 检索增强生成145
第6章大模型的组件147
6.1 Transformer的架构147
6.2 注意力分数计算细节153
6.3 词元化算法的区别与特点156
6.3.1 基于单词的词元化157
6.3.2 基于字符的词元化157
6.3.3 基于子词的词元化158
6.4 RoPE160
6.5 ALiBi165
6.5.1 ALiBi的工作原理166
6.5.2 ALiBi的外推能力实验167
6.5.3 ALiBi的训练推理效率实验168
6.5.4 ALiBi的代码实现169
6.6 SparseAttention169
6.7 LinearAttention173
6.8 多头注意力机制及其优化(MHA、MQA和GQA)175
6.8.1 多头注意力机制的代码实现175
6.8.2 Transformer解码器在解码过程中的性能瓶颈178
6.8.3 多查询注意力和分组查询注意力的工作原理179
6.9 各种归一化方法181
6.9.1 归一化方法的作用181
6.9.2 BatchNorm的工作原理182
6.9.3 LayerNorm的工作原理183
6.9.4 RMSNorm的工作原理184
6.10 归一化模块位置的影响——PostNorm和PreNorm184
6.10.1 PostNorm和PreNorm的工作原理185
6.10.2 PostNorm和PreNorm的差异185
6.11 Dropout机制187
6.11.1 Dropout的实现流程和原理188
6.11.2 避免训练和推理时的期望偏移188
6.11.3 避免训练和推理时的方差偏移189
6.12 模型训练参数初始化方法概述190
6.12.1 固定值初始化191
6.12.2 预训练初始化191
6.12.3 基于固定方差的初始化191
6.12.4 基于方差缩放的初始化191
第7章大模型的评估194
7.1 大模型的评测榜单与内容194
7.2 大模型评测的原则199
7.3 大模型的修复方法200
7.3.1 badcase定义201
7.3.2 badcase修复思路201
7.3.3 实践解法202
7.4 生成式模型的评测指标203
7.5 大模型的自动化评估209
7.6 大模型的对抗性测试211
7.7 大模型的备案流程212
第8章大模型的架构217
8.1 因果解码器架构成为主流的原因217
8.2 大模型的集成融合方法220
8.3 MoE226
第9章检索增强生成233
9.1 RAG的组成与评估233
9.2 RAG中的召回方法237
9.3 RAG与重排241
9.4 RAG的工程化问题244
第10章大模型智能体248
10.1 智能体的组成248
10.2 智能体的规划能力251
10.3 智能体的记忆模块255
10.4 智能体的工具调用257
10.5 XAgent框架263
10.6 AutoGen框架266
10.7 智能体框架实践269
第11章大模型PEFT273
11.1 LoRA273
11.1.1 LoRA的设计思路273
11.1.2 LoRA的具体实现流程274
11.2 PEFT方法概述279
11.3 PEFT与全参数微调286
第12章大模型的训练与推理288
12.1 大模型解码与采样方法综述288
12.2 大模型生成参数及其含义292
12.3 大模型训练与推理预填充阶段的加速方法——FlashAttention297
12.4大模型专家并行训练317
12.5 大模型推理加速——PagedAttention321
12.5.1 为什么对KV缓存的内存管理效率是影响推理系统吞吐量的关键因素322
12.5.2 PagedAttention如何提高对KV缓存的内存管理效率325
12.6 大模型量化的细节327
12.7 大模型多维并行化训练策略328
第13章DeepSeek335
13.1 DeepSeek系列模型架构创新335
13.1.1 大数量小尺寸的混合专家设计337
13.1.2 MLA343
13.1.3 多词元预测351
13.2 DeepSeek-R1训练流程353
参考文献357
······
最后修改:2026 年 04 月 21 日
© 允许规范转载
