2026/2/15 15:37:08
网站建设
项目流程
怎么向搜索引擎提交网站,模板网站如何建站,wordpress 如何布局,网站建设公司如何约客户引言
2022 年 11 月#xff0c;ChatGPT 横空出世#xff0c;瞬间引爆了全球对 AI 的关注。很多人第一次发现#xff0c;原来 AI 可以写诗、写代码、写论文#xff0c;甚至可以陪你聊天解闷。
但当你问ChatGPT 是怎么工作的#xff0c;得到的回答往往是一堆让…引言2022 年 11 月ChatGPT 横空出世瞬间引爆了全球对 AI 的关注。很多人第一次发现原来 AI 可以写诗、写代码、写论文甚至可以陪你聊天解闷。但当你问ChatGPT 是怎么工作的得到的回答往往是一堆让人头大的术语Transformer、Self-Attention、RLHF……今天这篇文章我们用最通俗的语言把 GPT 的技术原理讲清楚。读完之后你不仅知道 GPT 是什么还能理解它为什么能做到像人一样说话。GPT 是什么三个字母的秘密GPT 的全称是Generative Pre-trained Transformer翻译过来就是生成式预训练转换器。听起来很复杂别急我们把这三个词拆开来看。G - Generative生成式一句话解释给定一些字预测人类接下来会写什么字。这就像顺口溜——当你听到锄禾日当____“你会自然而然地接上午”。不是因为你脑子里想象了一幅农民在烈日下劳作的画面而是因为你读过太多遍这首诗形成了语言记忆。GPT 的工作原理类似。它读了海量的文本数据后发现某些语言模式是反复出现的。当你输入一段话它会基于语感预测下一个最可能的词。**重要提醒**GPT 不是在思考而是在押韵。比如你问它3457 * 43216 ?它可能回答149575912错误正确答案是 149397712。为什么最后一位 2 是对的因为它隐约感觉到 7 结尾的数乘以 6 结尾的数结果应该是 2 结尾——这是从语料中学到的押韵感而不是真正的计算。P - Pre-trained预训练一句话解释先训练一个通用的模型用的时候再微调。以前的 AI 模型大多是专用的——给 1000 张猫的图片训练出一个识别猫的模型给 1000 条垃圾邮件训练出一个过滤垃圾邮件的模型。每个任务都要从头训练。而预训练的思路是先训练一个什么都懂一点的通用模型需要做具体任务时再在这个基础上微调Fine-tuning。打个比方这就像家里请了个阿姨。她已经被劳务公司预训练了整理家务的知识被小学老师预训练了中文对话能力。到了你家你只需要稍微微调一下她对你家特定要求的理解就行了而不需要从教汉语开始把她彻底教一遍。GPT 的预训练给了所有人一个现成的语言基础。这个模型的语言能力无可挑剔——无论内容多么离谱至少行文通顺。这就是预训练的价值。T - Transformer转换器一句话解释把输入的文字转换成数字处理后再转换回文字。Transformer 是整个自然语言处理的核心架构它的工作流程是输入文字 → Encoder编码器→ 数字表示 → 处理转换 → Decoder解码器→ 输出文字具体来说编码Encode把文字变成数字向量。比如 GPT 用 1536 个浮点数1536 维向量来表示任意一个词、一个句子、甚至一整段文章。转换Transform在数字空间里进行运算和处理。解码Decode把处理后的数字重新变回文字。举个例子如果你输入Apple这个词GPT 会把它变成这样一串数字[0.0077999732,-0.02301609,-0.007416143,-0.027813964,-0.0045648348,0.012954261,...,0.006107009]这 1536 个数字就是Apple的数字化表示。其中某些维度的组合代表了甜的含义另一些代表了圆的含义还有一些代表了红的属性……至于具体哪些数字代表哪些含义连设计者也不完全清楚。然后这堆数字交给 Decoder如果限定输出中文就解码成苹果如果限定输出西班牙语就解码成manzana如果限定输出 emoji就输出这就是 Transformer 的魔力通过编码、转换、解码完成从一种语言序列到另一种语言序列的转化。三合一GPT 的完整定义把上面三部分组合起来GPT 就是一个预先训练好的用生成的方式把输入文字转化成输出文字的模型。它做的事情远不止翻译但核心就是把一个语言序列转换成另一个语言序列。这个任务完成得如此之好以至于让人产生了它有思想的错觉。从 GPT 到 ChatGPT人类反馈的力量理解了 GPT 的基本原理后你可能会问GPT 这么厉害为什么还需要 ChatGPT答案是GPT 太野了需要驯服。问题模型与用户没有对齐GPT 的预训练数据是海量的互联网文本里面什么内容都有。这导致几个问题问题类型具体表现精细度不够训练数据有几十上百亿词具体有什么我们根本看不过来可控性低模型的行为取决于它碰巧学到了什么有效性问题如果某个任务在训练数据里没出现过模型就不会安全性问题模型可能输出不当、敏感、甚至有害的内容从学术角度看模型只要能在 benchmark 上刷高分就算成功。但在实际商业场景中用户体验才是核心——如果模型输出让用户感到冒犯的内容后果会很严重。这就引出了一个关键概念对齐Alignment。就像公司里各个团队之间需要对齐目标一样AI 模型也需要和人类的期望对齐。解决方案RLHF基于人类反馈的强化学习ChatGPT 背后的核心技术叫做InstructGPT它通过 RLHFReinforcement Learning from Human Feedback让模型学会听人话。整个训练过程分为三步第一步监督微调SFT收集一批问题-答案对问题示例“给 6 岁的小朋友解释什么是登月”答案示例“一些人坐着很大很大的火箭飞到了天上那个亮亮的月亮上面……”把问题和答案拼接成一段话在这些数据上微调 GPT-3微调出来的模型叫做SFTSupervised Fine-tuned模型在 GPT 眼里这个过程和预训练没有本质区别——都是给定一些词预测后面的词。但通过精心设计的问答数据我们可以教会它什么样的回答是好的。问题人工标注问题-答案对成本极高。如果每个问题都要人来写答案根本标不过来。于是有了第二步。第二步训练奖励模型RM这一步的思路是让标注变简单——从写答案变成给答案打分。用第一步训练好的 SFT 模型对每个问题生成多个答案比如 A、B、C、D 四个让人来给这些答案排序比如D 比 C 好C 比 A 好A 和 B 差不多用这些排序数据训练一个奖励模型Reward ModelRM奖励模型的任务很简单给定一个问题和一个答案输出一个分数分数要符合人类标注的排序关系D C A B。为什么这样做因为给答案排序比写答案容易太多了。同样的标注成本可以得到更多的训练数据。第三步强化学习优化PPO继续微调第一步的 SFT 模型模型生成答案后用第二步的 RM 模型打分根据分数更新模型参数让它学会生成高分答案使用 PPOProximal Policy Optimization算法进行优化这一步完成后得到的模型就是InstructGPT也就是 ChatGPT 的前身。RLHF 三步流程图为什么 GPT 能说人话现在我们可以回答这个问题了语言流畅来自海量文本的预训练学会了语言的押韵和顺口理解意图Generative 部分不仅学习文字还学习上下文和意图符合期望RLHF 让模型学会了什么样的回答人类会喜欢安全可控奖励模型会给不当内容打低分引导模型避开危险区域GPT 的局限性虽然 GPT 很强大但它有一些本质性的局限局限原因不会真正计算它是在押韵不是在思考可能胡说八道生成的内容来自统计规律不保证事实正确知识有截止日期只知道训练数据中的内容缺乏常识推理有时会犯人类不会犯的低级错误理解这些局限才能更好地使用 GPT 类工具。总结让我们用一段话总结 GPT 的核心原理GPT 是一个预训练好的模型通过Transformer架构把输入文字编码成数字、处理后再解码成输出文字。它的核心能力是生成式的——给定上文预测下文最可能是什么。而 ChatGPT 在此基础上通过RLHF人类反馈强化学习学会了什么样的回答人类会喜欢从而实现了更加自然、安全、有帮助的对话能力。记住三个关键词GGenerative顺口溜接下文PPre-trained先通用再微调TTransformer编码 → 转换 → 解码下次当有人问你ChatGPT 是怎么工作的你就可以用这三个词给他讲清楚了。对 GPT 技术原理还有什么疑问欢迎在评论区讨论参考资料Training language models to follow instructions with human feedback (InstructGPT 论文)Attention Is All You Need (Transformer 原始论文)