台州网站建设开发帮别人备案网站
2026/2/9 9:42:30 网站建设 项目流程
台州网站建设开发,帮别人备案网站,咸阳公司网站建设,模板网站建设哪家专业简介 本文系统介绍了AI大模型家族的核心知识#xff0c;包括AIGC的两种类型和三个发展阶段#xff0c;详细解释了机器学习、深度学习和生成式AI的关系#xff0c;重点阐述了大语言模型(LLM)的定义、特点和技术基础。文章深入剖析了Transformer架构的革命性意义#xff0c;…简介本文系统介绍了AI大模型家族的核心知识包括AIGC的两种类型和三个发展阶段详细解释了机器学习、深度学习和生成式AI的关系重点阐述了大语言模型(LLM)的定义、特点和技术基础。文章深入剖析了Transformer架构的革命性意义包括其自注意力机制、编码器-解码器结构、位置编码等关键技术为读者提供了一条从AI基础到大模型核心技术的学习路径。AIGC主要有两种类型一种是基于模板的自动化生成另一种是基于深度学习技术的自动化生成。首先基于模板的自动化生成是一种较为简单的AIGC方法。其基本原理是先设计一个模板然后填充模板中的空白部分以生成内容。这种方法的优点是生成的内容结构清晰、逻辑严谨但缺点是生成的内容形式单一、难以与其他文章区分开来。其次基于深度学习技术的自动化生成则更加灵活可以根据需求自由生成不同风格、不同主题的内容。与基于模板的自动化生成相比基于深度学习技术的自动化生成能够更好地满足用户的需求但也存在着一些问题例如生成的内容质量和可信度难以保证需要经过人工编辑和审核。AIGC将走过三个发展阶段第一个阶段是“助手阶段”AIGC用来辅助人类进行内容生产第二个阶段是“协作阶段”AIGC以虚实并存的虚拟人形态出现形成人机共生的局面第三个阶段是“原创阶段”AIGC将独立完成内容创作。01认识AI大模型家族生成式AI、监督学习、无监督学习、强化学习、深度学习、大语言模型、Transformer等这些算法之间又是什么关系呢其实这些AI知识点如何了解原理可以一言以蔽之先通过一张图感性认识它们之间的关系。02AI是什么人工智能Artificial Intelligence英文缩写为AI。是计算机科学的一个分支学科旨在让计算机系统去模拟人类的智能从而解决问题和完成任务。早在1956年AI就被确立为了一个学科领域在此后数十年间经历过多轮低谷与繁荣。AI是新一轮科技革命和产业变革的重要驱动力量是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是智能学科重要的组成部分它企图了解智能的实质并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能是十分广泛的科学包括机器人、语言识别、图像识别、自然语言处理、专家系统、机器学习计算机视觉等。 AI发展经历了很多举足轻重的关键里程碑例如从1943年的神经网络诞生到2024年的Sora风靡全球经历了81年的心路历程。03机器学习是什么机器学习是AI的一个子集它的核心在于不需要人类做显示编程而是让计算机通过算法自行学习和改进去识别模式做出预测和决策。比如如果我们通过代码告诉电脑图片里有红色说明是玫瑰图片里有橙色说明是向日葵程序对花种类的判断就是通过人类直接明确编写逻辑达成的不属于机器学习。举例如果我的电脑有大量玫瑰和向日葵的图片让电脑自行识别模式总结规律从而能对没见过的图片进行预测和判断这种就是机器学习。01机器学习有哪些分支机器学习有多个分支包括监督学习、无监督学习、强化学习。在监督学习里机器学习算法会接受有标签的训练数据标签就是期望的输出值所以每个训练数据点都既包括输入特征也包括期望的输出值。算法的目标是学习输入和输出之间的映射关系从而在给定新的输入特征后能够准确预测出相应的输出值。监督学习任务包括分类和回归分类数据划分为不同的类别。举例拿一堆猫和狗的照片和照片对应的猫狗标签进行训练然后让模型根据没见过的照片预测是猫还是狗这就属于分类。举例拿一些房子特征的数据比如面积、卧室数、是否带阳台等和相应的房价作为标签进行训练。回归是让模型根据没见过的房子的特征预测房价是什么数值这就属于回归。无监督学习和监督学习不同主要是学习的数据是没有标签的所以算法的任务是自主发现数据里的规律。无监督学习任务包括聚类就是把数据进行分组举例拿一堆新闻文章让模型根据主题或内容的特征自动把相似文章进行组织。04什么是强化学习强化学习是让模型在环境里采取行动获得结果反馈从反馈里学习从而能在给力情况下采取最佳行动来最大化奖励或是最小化损失。举例和训练小狗类似刚开始的时候小狗会随心所欲做出很多动作但随着和训犬师的互动小伙会发现某些动作能够获得零食某些动作没有流失某些动作甚至会遭受惩罚。通过观察动作和奖惩之间的联系小狗的行为会逐渐接近训犬师的期望。强化学习可以应用在很多任务上举例让模型下围棋时获得不同行动导致的奖励或损失反馈从而在一局游戏里优化策略学习如何采取行动达到高分。05深度学习属于哪一类学习深度学习属于机器学习中的特殊类深度学习是机器学习的一个分支核心在于使用人工神经网络模仿人脑处理信息的方式通过层次化的方法提取和表示数据的特征专注于非结构化数据处理。神经网络是有许多基本的计算和储存单元组成这些单元被称为神经元。这些神经元通过层层连接来处理数据并且深度学习模型通常有很多层因此称为深度。神经网络可以用于监督学习、无监督学习、强化学习所以深度学习不属于他们的子集。总之深度学习是机器学习的一个特定领域它利用人工神经网络模型进行学习和训练。深度学习模型由多个层次称为神经网络的层组成每一层都会对输入数据进行变换和表示。这些网络层通过一系列的非线性转换将输入数据映射到输出结果。深度学习模型的核心是深度神经网络Deep Neural NetworkDNN它可以通过大量的标记数据进行训练从而实现高度准确的预测和分类任务。这里必须提一下卷积神经网络CNN是深度学习的杰出代表作革命性提升了AI模型在江湖上的多年霸主地位卷积神经网络作为深度学习中的一种重要网络结构具有自动提取特征和高效分类的能力。随着深度学习技术的发展CNN在计算机视觉、自然语言处理、语音识别等领域取得了显著的成果。06生成式AI和深度学习是什么关系其是深度学习的一种应用它利用神经网络来识别现有的模式和结构学习生成新的内容内容形式可以是文本、图片、音频。而大语言模型也叫LLM large language model,也是深度学习的一种应用专门用于进行自然语言处理任务。生成式AI的原理主要基于深度学习技术和神经网络。其基本原理是通过训练模型来学习从输入到输出的映射关系。这种映射关系通常由一组权重和偏置参数来定义这些参数是通过优化损失函数来获得的。通过调整这些参数模型可以逐渐改进其预测和生成结果的能力。生成式AI的优点在于它可以高效地生成大量有意义的内容比如文章、图像、音频等。此外它还可以根据用户的个性化需求生成符合用户兴趣和需求的内容。但是生成式AI也存在一些缺点比如它可能会出现语法错误、语义错误等问题而且它生成的内容可能缺乏创新性和独特性。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】07大语言模型是什么公式大模型 海量数据 深度学习算法 超强算力数据是训练原材料深度学习算法是计算法则算力是硬件计算力大模型是预测模型。大语言模型里面的“大”字说明模型的参数量非常大可能有数十亿甚至到万亿个而且训练过程中也需要海量文本数据集所以能更好的理解自然语言以及生成高质量的文本。大语言模型的例子有非常多比如国外的GPT、LLaMA国内的ERNIE、ChatGLM等可以进行文本的理解和生成。补充Token是个标记是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。一般情况下对于英文单词四个字符表示一个标记Token。对于ChatGPT3.5来说它最开始支持的Token最大值是4096。01所有大语言模型都是生成式AI不是所有的生成式AI都是大语言模型而所有的大语言模型是否都是生成式AI这也存在些许争议。生成图像的扩散模型如Sora就不是大语言模型它并不输出文本。因为有些大元模型由于其架构特点不适合进行文本生成。举例谷歌的BERT就是一个例子它的参数量和训练数据很大属于大语言模型。应用方面BERT理解上下文的能力很强因此被谷歌用在搜索上用来提高搜索排名和信息摘录的准确性。它也被用于情感分析、文本分类等任务。但同时其不擅长文本生成。特别是连贯的常文本生成所以普遍认为此类模型不属于生成式AI的范畴。02大语言模型LLM到底是个啥2022年10月30日OpenAI发布ChatGPT一跃成为当下最快达到100万用户的线上产品也带动大语言模型成为了当下热点更多AI聊天助手如雨后春笋一般出现在大家的视野里。那大语言模型干什么了大语言模型也叫LLM 是用于做自然语言相关任务的深度学习模型可以模型一些文本内容输入它能返回相应的输出完成的具体任务可以是生成、分类、总结、改写等。大语言模型首先需要通过大量文本进行无监督学习。03大模型LLM的“大”是什么含义大模型的大指的不仅仅是训练数据巨大而是参数数量巨大。参数是模型内部的变量可以理解为是模型在训练过程中学到的知识。参数决定了模型如何对输入数据做出反应从而决定模型的行为。在过去的语言模型研究中发现用更多的数据和算力来训练具有更多参数的模型很多时候能带来更好的模型表现。这就需要AI学习。如今语言模型的参数数量可能是曾经的数万倍甚至数百万倍。以Open AI的第一个大模型GPT1为例它有1.17亿个参数到了GPT2参数有15亿个参数而这GPT3参数又增长到了1750亿个。这样大模型不像小模型那样局限于单项或某几项任务而是具有更加广泛的能力。比如在这之前我们可能要训练单独的模型分别去做总结、分类、提取等等任务但现在一个大模型就可以搞定这一切。像GPT Cloud、文心一言、通义千问等AI聊天助手都是基于大语言模型的应用。08LLM核心技术到底是什么大语言模型公众认知其技术发展里程碑其实要回溯到2017年6月谷歌团队发表论文《Attention is all you need》提出了transformer架构至此自然语言处理的发展方向被革命性的颠覆了。随后出现了一系列基于transformer架构的模型2018年OpenAI发布GPT1.0谷歌发布BERT2019年OpenAI发布了GPT2.0百度发布ERNIE1.0等。所以大语言模型的发展早就如火如荼了。09为什么Transformer模型能一统江湖GPT直接向公众开放而且能让用户在网页上用对话的方式进行交互体验很流畅丝滑大众的目光才被GPT吸引过去全称是Generative Pre-trained Transformer生成式预训练Transformer是其中的关键。所以要了解大语言模型必须搞懂Transformer。在Transformer架构被提出之前语言模型的主流架构主要是循环神经网络RNN其按照顺序逐字处理每一步输出取决于先前的隐藏状态和当前的输入要等上一个步骤完成后才能进行当前的计算。因此无法完成并行计算训练效率低而且RNN不擅长处理长序列因为难以捕捉到长距离依赖性的语义关系。接下来为了捕捉到长距离依赖性也出现了RNN的改良版本就是LSTM长短期记忆网络但是这也并没有解决传统并行计算的问题而且在处理非常长的序列时也依然受到限制。最后Transformer腾空出世了他有能力学习输入序列里所有词的相关性和上下文不会受到短时记忆的影响。能做到这一点的关键在于Transformer的自注意力机制。也正如论文标题所说Attention is all you need,注意力就是你所需要的一切。Transformer的自注意力机制是干什么的简单来说Transformer在处理每个词的时候不仅会注意这个词本身以及它附近的词还会去注意输入序列里所有其他的词然后其余每个词不一样的注意力权重。权重是模型在训练过程中通过大量文本逐渐学习到因此Transformer有能力知道当前这个词和其他词之间的相关性有多强然后去专注于输入里真正重要的部分。即使两个词的位置隔得很远Transform依然可以捕获他们之间的依赖关系举例给出一个句子使用一些关键词animal和street来描述it到底指代什么题目写出了一些关键词如animalstreet作为提示其中这些给出的关键词就可以看作是key 而整个的文本信息就相当于是query脑子里浮现的答案信息是value默认是street。第一次看到这段文本后脑子里基本上浮现的信息就只有提示这些信息此时key与value street基本是相同的。第二次进行深入理解后脑子里想起来的东西原来越多对query这一个句子提取关键信息tired进行关联这就是注意力作用的过程 通过这个过程我们最终脑子里的value发生了变化变成了animal。总结一下 使用一般注意力机制是使用不同于给定文本的关键词表示它。 而自注意力机制需要用给定文本自身来表达自己也就是说你需要从给定文本中抽取关键词来表述它相当于对文本自身的一次特征提取。10Transformer背后的黑科技是什么Transformer目标是是通过预测出现概率最高的下一个词来实现文本生成的这种效果有点像搜索引擎的自动补全。每当我们输入一个新的字或词输入框就开始预测后面的文本概率越高的排在越上面。但模型具体到底是如何得到各个词出现的概率呢有两个核心部分组成**编码器Encoder和解码器Decoder**。举例做中文翻英语的任务给编码器输入一句英语解码器返回对应的法语。“我是一个学生”的翻译如何工作的第一步转换为计算机可以计算的向量Token。中文的每个字被理解为是文本的一个基本单位翻译成不同的token。是指将输入文本分解为更小的单位例如单词、字母或字符。在自然语言处理中将文本分解为标记有助于模型理解语义和语法结构。当一个Prompt被发送给GPT时它会被分解成多个Token这个过程被称为Tokenier。短单词可能每个词是一个token长单词可能被拆成多个token。每个token会被用一个整数数字表示这个数字被叫做token ID。这是因为计算机内部是无法储存文字的任何字符最终都得用数字来表示。有了数字表示的输入文本后再把它传入嵌入层。如下是官网提供的Tokenization示意图。第二步Embedding嵌入层。其作用是让每个token都用向量表示向量可以被简单的看为一串数字举例假设把向量长度简化为1-521实际中向量长度可以非常长。**为什么要用一串数字表示token**重要原因是一串数字能表达的含义是大于一个数字的能包含更多语法、语义信息等等。这就好比对人的画像如果只有男人和女人这两个属性太少维度的描述需要增加籍贯身高爱好和专业等维度才能更好的刻画人的特征。多个数字就是多个特征我们就可以进行更多维度的表示特征。嵌入层的向量里面包含了词汇之间语法、语义等关系。向量长度到底可以多长呢在transformer 论文里向量长度是512GPT3里设置为12288可以想象能包含多少信息。第三步位置编码。Transformer的一项关键机制是位置编码。在语言里顺序很重要即使句子里包含的字都是一样的但顺序不一样也能导致意思大相迳庭。这是为什么自然语言处理领域会用序列这个词因为它表示一系列按照特定顺序排序的元素。前面提到RNN和人类阅读文本一样对输入序列同样是按顺序依次处理这就造成了训练速度的瓶颈因为只能串行没办法并行也就是没法同时去学习所有信息。Transformer把词输入给神经网络前除了会先对词进行嵌入转换成向量也就是把词用一串数字表示它会把每个词在句子中的位置也各用一串数字表示添加到输入序列的表示中然后把这个结果给神经网络模型既可以理解每个词的意义又能够捕获词在句子中的位置。从而理解不同词之间的顺序关系。借助位置编码可以不按顺序输入给Transformer模型可以同时处理输入序列里的所有位置而不需要像RNN那样依次处理。那么在计算时每个输出都可以独立的计算不需要等待其他位置的计算结果这大大提高了训练速度。训练速度一快训练出巨大的模型也不是这么难了。位置编码就是把表示各个词在文本里顺序的向量和上一步得到词向量相加然后把得到的结果传给编码器。这样做的意义是模型既可以理解每个词的意义又能够捕捉词在句子中的位置从而理解不同词之间的顺序关系。第四步编码器。它的主要任务是把输入转换成一种更抽象的表示形式这个表示形式也是向量表示的一串数字里面既保留了输入文本的词汇信息和顺序关系也捕捉了语法语义上的关键特征。捕捉关键特征的核心是编码器的自注意力机制。模型在处理每个词的时候不仅会关注这个词本身和它附近的词还会关注序列中所有其他词。正如transformer论文标题所说自注意力机制通过计算每对词之间的相关性来决定注意力权重。实际上执行中Transformer使用了多头注意力机制也就是编码器不只有一个注意力机制模块每个头都有他自己的注意力权重用来关注文本里不同特征或方面比如有的关注动词有的关注修饰词有的关注情感有的关注病理实体等等。而且他们之间可以做并行运算也就是计算进展上互不影响。第五步解码器。它是大语言模型生成一个个词的关键。通过前面的编码器我们有了输入序列里各个token的抽象表示可以把它传给解码器。解码器还会先接收一个特殊值这个值表示输出序列的开头。这样做的原因是解码器不仅会把来自编码器的输入序列的抽象表示作为输入还会把之前已经生成的来保持输出的连贯性和上下文相关性。刚开始还没有任何已生成的文本所以把表示开头的特殊值先作为输入。具体的生成过程仍然是要经过多个步骤。首先和编码器一样文本要经过我们已经了解过的嵌入层和位置编码然后被输入进多头自注意力层但它和编码器里的多头自注意力层却不一样。当编码器在处理各个词的时候他会关注输入序列里所有其他词但解码器中自注意力机制只会关注这个词和它前面的其他词后面的词要被遮住而不去关注。这样做是为了确保解码器生成文本时遵循正确的时间顺序不能先让他偷看后面的词在预测下一个词时只是用前面的词作为上下文。这种类型的多头注意力机制被叫做带掩码的多头注意力机制。另外的一个注意力机制会捕捉编码器的输出和解码器即将生成的输出之间的对应关系从而将原始输入序列的信息融合到输出序列的生成过程中。解码器里的前馈神经网络作用和编码器里的类似也是通过额外的计算来增强模型的表达能力。最后和编码器一样解码器同样是多个堆叠到一起的这可以增加模型的性能有助于处理复杂的输入输出关系。解码器的最后阶段包含了一个线性和一个softmax层他们加一块的作用是把解码器输出的表示转化为词汇表的概率分布这个词汇表的概率分布代表下一个次被生成token的概率一般来说模型会选择概率最高的token作为下一个输出。因此解码器就是预测下一个输出的token就像GPT的功能类似。Transformer演变了哪些成功的模型第一个是仅编码器模型也叫自编码器模型比如BERT让模型猜文本里被遮出的词是什么情感分析让模型判断文本情感是积极还是消极。目标是理解语言的任务。第二个是仅解码器模型也叫自回归模型如GPT2GPT3,通过预测下一个词来预测文本生成。目标文本生成。第三个是编码器和解码器模型也叫序列到序列模型比如T5BART一个序列转换为另外一个序列目标翻译总结。总之各个模块总结如下注意力层使用多头注意力Multi-Head Attention机制整合上下文语义它使得序列中任意两个单词之间的依赖关系可以直接被建模而不基于传统的循环结构从而更好地解决文本的长程依赖。位置感知前馈层Position-wise FFN通过全连接层对输入文本序列中的每个单词表示进行更复杂的变换。残差连接对应图中的Add 部分。它是一条分别作用在上述两个子层当中的直连通路被用于连接它们的输入与输出。从而使得信息流动更加高效有利于模型的优化。层归一化对应图中的Norm 部分。作用于上述两个子层的输出表示序列中对表示序列进行层归一化操作同样起到稳定优化的作用。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询