2026/2/21 14:30:06
网站建设
项目流程
12306网站建设超30亿,东莞网页制作费用大概多少,建筑方案ppt模板,供别人采集的网站怎么做来源#xff1a;机器之心编辑#xff1a;Panda生物智能与人工智能的演化路径截然不同#xff0c;但它们是否遵循某些共同的计算原理#xff1f;最近#xff0c;来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出#xff0c;大型语言模型…来源机器之心编辑Panda生物智能与人工智能的演化路径截然不同但它们是否遵循某些共同的计算原理最近来自帝国理工学院、华为诺亚方舟实验室等机构的研究人员发表了一篇新论文。该研究指出大型语言模型LLM在学习过程中会自发演化出一种协同核心Synergistic Core结构有些类似于生物的大脑。论文标题A Brain-like Synergistic Core in LLMs Drives Behaviour and Learning论文地址https://arxiv.org/abs/2601.06851研究团队利用部分信息分解Partial Information Decomposition, PID框架对 Gemma、Llama、Qwen 和 DeepSeek 等模型进行了深度剖析。他们发现这些模型的中层表现出极强的协同处理能力而底层和顶层则更偏向于冗余处理。协同与冗余LLM 的内部架构研究团队将大型语言模型视为分布式信息处理系统其核心实验设计旨在量化模型内部组件之间交互的本质。为了实现这一目标研究者选取了 Gemma 3、Llama 3、Qwen 3 8B 以及 DeepSeek V2 Lite Chat 等多种具有代表性的模型系列进行对比分析。实验方法与量化指标在实验过程中研究者向模型输入了涵盖语法纠错、逻辑推理、常识问答等 6 个类别的认知任务提示词。针对每一个提示词模型会生成一段 100 个 Token 的回答实验设备则同步记录下每一层中所有注意力头或专家模块的激活值。具体而言研究人员计算了这些输出向量的 L2 范数以此作为该单元在特定时间步的激活强度数据。基于这些时间序列数据研究团队应用了整合信息分解Integrated Information Decomposition, ID框架。这一框架能够将注意力头对之间的交互分解为「持续性协同」和「持续性冗余」等不同原子项。通过对所有注意力头对的协同值和冗余值进行排名并求差研究者得到了一个关键指标协同-冗余秩Synergy-Redundancy Rank。该指标能够清晰地标示出模型组件在处理信息时究竟是倾向于进行独立的信号聚合还是在进行跨单元的深度集成。跨模型的空间分布规律实验数据揭示了一个在不同架构模型中高度一致的空间组织规律。在归一化后的模型层深图中协同分布呈现出显著的「倒 U 型」曲线 冗余外周Redundant Periphery模型的早期层靠近输入端和末期层靠近输出端表现出极低的协同秩信息处理以冗余模式为主。在早期层这反映了模型在进行基本的解词元化Detokenization和局部特征提取而在末期层则对应着 Token 预测和输出格式化的过程。协同核心Synergistic Core模型的中层则展现出极高的协同秩形成了核心处理区。例如在对 Gemma 3 4B 的热图分析中中间层的注意力头之间表现出密集且强烈的协同交互这正是模型进行高级语义集成和抽象推理的区域。架构差异与一致性值得注意的是这种「协同核心」的涌现并不依赖于特定的技术实现。在 DeepSeek V2 Lite 模型中研究者即使是以「专家模块」而非「注意力头」作为分析单位依然观察到了相同的空间分布特征。这种跨架构的收敛性表明协同处理可能是实现高级智能的一种计算必然而非单纯的工程巧合。这种组织模式与人脑的生理结构形成了精确的映射人脑的感官和运动区域同样表现出高冗余性而负责复杂认知功能的联合皮层则处于高协同的「全局工作空间」中心。智能的涌现学习驱动而非架构使然一个关键的问题在于这种结构是 Transformer 架构自带的还是通过学习习得的研究人员通过分析 Pythia 1B 模型的训练过程发现在随机初始化的网络中这种「倒 U 型」的协同分布并不存在。随着训练步数的增加这种组织架构才逐渐稳定形成。这意味着协同核心是大模型获得能力的标志性产物。在拓扑性质上协同核心具有极高的「全局效率」有利于信息的快速集成而冗余外周则表现出更强的「模块化」适用于专门化处理。这种特征再次与人类大脑的网络架构形成了精确的平行关系。协同核心的功能验证为了验证协同核心是否真的驱动了模型行为研究团队进行了两类干预实验消融实验和微调实验。消融实验研究发现消融那些高协同性的节点会导致模型出现灾难性的性能下降和行为背离其影响远超随机消融或消融冗余节点。这证明协同核心是模型智能的核心驱动力。微调实验在强化学习微调RL FT场景下仅针对协同核心进行训练获得的性能提升显著优于针对冗余核心或随机子集的训练。有趣的是在监督微调SFT中这种差异并不明显。研究者认为这反映了 RL 促进通用化而 SFT 更多倾向于记忆的特性。结语这项研究为大模型的可解释性开辟了新路径。它表明我们可以从「自上而下」的信息论视角来理解模型而不仅仅是「自下而上」地寻找特定的电路。对于 AI 领域识别协同核心有助于设计更高效的压缩算法或者通过更有针对性的参数更新来加速训练。对于神经科学这提供了一种计算上的验证预示着协同回路在强化学习和知识迁移中可能扮演着至关重要的角色。大模型虽然基于硅基芯片和反向传播算法但在追求智能的过程中它们似乎不约而同地走向了与生物大脑相似的组织模式。这种智能演化的趋同性或许正是我们揭开通用智能奥秘的关键线索。阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。