2026/2/8 20:08:34
网站建设
项目流程
清苑网站建设,一般网站建设步骤,关键字是什么意思,wordpress站点统计代码在人工智能浪潮中#xff0c;大语言模型#xff08;LLM#xff09;已成为核心基础设施。但你是否真正理解#xff1a;一个模型是如何从一段普通文本#xff0c;一步步“学会说话”的#xff1f;本文将带你深入大模型的训练全流程——从初始化、前向传播、损失计算#x…在人工智能浪潮中大语言模型LLM已成为核心基础设施。但你是否真正理解一个模型是如何从一段普通文本一步步“学会说话”的本文将带你深入大模型的训练全流程——从初始化、前向传播、损失计算到反向传播、微调与对齐——用清晰的逻辑链条和专业术语还原 GPT、Llama、DeepSeek 等主流模型背后的工程真相。一、输入阶段从文本到向量一切始于一段原始文本比如“今天天气真好”。1. Tokenization分词首先模型通过Tokenizer将文本切分为离散的 token。例如今天天气真好 → [tok_今, tok_天, tok_气, tok_真, tok_好]2. Embedding嵌入每个 token 被映射为一个d_model 维的向量如 4096 维这个过程由可学习的Embedding 矩阵完成形状(vocab_size, d_model)每个 token 对应一行向量3. Positional Encoding位置编码由于 Transformer 本身不具备顺序感知能力需加入位置信息。现代主流采用RoPERotary Position EmbeddingRoPE 使用旋转矩阵 $ R_m $基于cos\coscos和sin\sinsin函数构建仅作用于 Query (Q) 和 Key (K) 向量Value (V) 不加相比传统绝对位置编码RoPE 更擅长处理 长序列外推 和 相对位置关系超参数base10000可动态调整如 Llama 3 支持动态缩放最终每个 token 的表示变为x embedding(token) positional_encoding(position)二、Decoder 层内部多头自注意力 前馈网络Transformer 的核心是堆叠多个Decoder 层GPT 系列无 Encoder。每层结构如下以Pre-LN 架构为主流x → LayerNorm → MultiHeadAttention → Residual Add (x attn_output) → LayerNorm → FeedForward Network (FFN) → Residual Add → output1. 多头自注意力机制Multi-Head Self-Attention1线性投影生成 Q, K, V对输入向量 $ x \in \mathbb{R}^{d_{\text{model}}} $通过三个可学习权重矩阵$ W_Q, W_K, W_V \in \mathbb{R}^{d_{\text{model}} \times d_k} $实际实现中PyTorch 的nn.Linear包含 Weight 和 Bias 两个独立张量weight: (out_features, in_features)bias: (out_features,)注意不是(in, out)⚠️ 注在 Pre-LN 架构中LayerNorm 后常省略 Bias便于优化。2计算注意力分数对每个 head $ \text{Attention}(Q, K, V) \text{softmax}\left( \frac{QK^T}{\sqrt{d_k}} \right) V $$ QK^T $ 衡量 token 之间的相关性每个 token 作为“中心主题”对其他 token 的 V 进行加权求和3多头聚合假设有 $ h $ 个 head如 32每个 head 输出维度为 $ d_k d_{\text{model}} / h $。将所有 head 拼接后通过输出投影矩阵 $ W_O $聚合$ W_O \in \mathbb{R}^{(h \cdot d_k) \times d_{\text{model}}} \mathbb{R}^{d_{\text{model}} \times d_{\text{model}}} $本质仍是nn.Linear作用包括维度对齐确保输出与输入同维增强表达能力通过升维非线性解耦特征空间不同任务可用不同投影2. 前馈网络Feed-Forward Network, FFNFFN 是两层线性变换 激活函数通常为 SwiGLU 或 ReLU第一层$ W_1 \in \mathbb{R}^{d_{\text{model}} \times (4 \cdot d_{\text{model}})} $升维放大特征第二层$ W_2 \in \mathbb{R}^{(4 \cdot d_{\text{model}}) \times d_{\text{model}}} $降维回原空间 为何是 4 倍这是经验设定如原始 Transformer现代模型可能调整如 Mixtral 用 MoE。三、输出预测与训练目标经过 N 层 Decoder 后得到每个位置的上下文向量。仅取最后一个 token 的输出因果语言建模通过 共享权重的 Embedding 矩阵 投影到词表空间 $ \text{logits} h_{\text{last}} \cdot W_{\text{embed}}^T $再经 Softmax 得到下一个 token 的概率分布✅ 共享 Embedding 与输出层权重可减少参数、提升泛化Press Wolf, 2017训练方式Teacher Forcing输入序列[x1, x2, ..., xn]目标预测[x2, x3, ..., x_{n1}]一次性计算整个序列的交叉熵损失而非逐 token四、反向传播让模型“自省”计算总 loss 后启动反向传播从最后一层的 $ W_2 $ 开始逐层更新所有可学习参数$ W_Q, W_K, W_V, W_O, W_1, W_2, \text{Embedding} $ 等每次迭代模型更“聪明”一点完成全部训练数据的一轮遍历 1 epoch此时模型已掌握语言统计规律但尚不能可靠完成任务——它只是“会接话茬”。五、对齐人类意图后训练三阶段阶段 1监督微调SFT, Supervised Fine-Tuning使用高质量 指令-回答对如 Alpaca、ShareGPT学习格式、思维链Chain-of-Thought、代码等模型开始具备“任务意识”阶段 2奖励建模Reward Modeling, RM收集人类对同一问题多个回答的 偏好排序Pairwise Ranking训练一个 Reward Model 来模拟人类打分输入回答 → 输出标量奖励值阶段 3强化学习PPO RLHF使用 PPOProximal Policy Optimization 优化策略Loss 包含两项奖励最大化鼓励高 RM 分数的回答KL 散度惩罚防止偏离 SFT 模型太远避免胡说八道这就是 RLHFReinforcement Learning from Human Feedback OpenAI 的核心绝招SFT (RM PPO) 循环迭代六、替代方案DPO直接偏好优化并非所有公司都能跑通复杂的 RLHF。于是DPODirect Preference Optimization应运而生无需训练 Reward Model直接利用偏好数据一个 prompt 两个回答chosen vs rejected通过优化策略拉高 chosen 回答的概率压低 rejected 的概率数学上等价于隐式优化奖励函数但训练更稳定、高效 Llama 3.1 就进行了6 轮 DPO 循环持续提升对齐效果。七、工程细节补充模块关键点RoPE仅用于 Q/K支持长文本外推Llama 3 动态调整 baseLayerNorm 位置原始论文Post-LN现代主流Pre-LN更稳定参数存储PyTorch 中 weight 与 bias 独立存储便于优化模型差异DeepSeek 优化计算效率牺牲精度Llama/GPT 训练流程一致后训练策略不同结语大模型的训练是一场从语言建模到人类对齐的长征。预训练赋予它“知识”SFT 赋予它“能力”RLHF/DPO 赋予它“价值观”。理解这一流程不仅能看懂技术报告更能洞察 AI 发展的本质逻辑——不是魔法而是工程、数据与算法的精密交响。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事02适学人群应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】