通过AI训练效率中的瓶颈崩溃:Treepo创建了“增长大脑”增强学习

如果您正在学习新技能,例如驾驶学习,它肯定会每次从头开始,但会根据您现有的经验继续改善。但令人惊讶的是,最先进的AI语言模型在学习推理时会失忆,并且每次他们都需要重新考虑同一问题中的步骤。这项研究由Bytedonce种子团队,M-A-P研究所和曼彻斯特大学共同完成,并于2025年8月出版,为这一问题提供了智能解决方案。对详细理解感兴趣的读者可以通过ARXIV访问完整文档:2508.1745V1。要了解这个问题,可以将AI的学习推断与数学问题的学生进行比较。传统的培训方法就像让16名学生独立解决相同的几何问题。即使Pprevious ASO完全相同,每个人都必须再次绘制,重新分析并重新计算。这显然是时间和精力的损失。什么时候IA模型解决了复杂的推理问题,研究人员经常产生许多“思想前缀”,以及学生编写相同的“集合”,“这样”以及解决问题的其他步骤。研究团队建议对Treepo(基于Treet的策略优化)就像安装了用于AI培训的“智能复制”系统。如果在前部中多个推理路线相同,则系统会自动识别这些常见的作品,共享计算机资源并仅在需要分支时启动独立的计算机科学。这种方法不仅可以极大地提高计算机效率,而且还使学习过程更加稳定和可靠。 1。“ gobispace erno”“协调的操作”:核心和创新的传统学习,以加强treepic推断的创新性包括对问题的理解,不同的环境,不同的初步,伯科堡垒是原始的问题,是原始的问题,这是一个常见的一步,这是一个普遍的一步Erence路线通过,而分支表示不同的推理方向。这样,AI就无需重复计算相同的部分,从而大大提高了效率。更重要的是,这种树结构使学习更加精确。传统方法就像用大刷子画整个墙壁,而没有对每个部分进行精确控制。特里普(Treepo)就像使用笔上的精美图纸可以为推理过程中的不同链接提供不同程度的“奖励”或“惩罚”,这使您可以更清楚地知道哪些思想步骤有价值以及需要哪些改进。结果表明,这种方法在维持或提高AI推理的精度的同时将计算机时间降低了22%和43%。这意味着最初需要10次重培养的AI模型可以在6-8小时内实现相同甚至更好的结果。 2。“智能细分”允许计算机资源充分利用Treepo的第二重要创新。这对AI的传统培训就像让学生同时完成一篇完整的论文,而不会停在中间。 Treepo允许AI在几个“段落”中划分长时间的推论。撰写段落后,您可以“停止”并“思考”是否继续进行这个想法还是改变方向。这种分割机制的优点是多方面的。首先,让AI具有更大的灵活性来控制推理深度。 AI可以在每个“段落”结束时重新评估当前推理路线的生存能力,以便在攀登期间可以在几个休息区重新评估路线。如果您发现该路线显然偏离,请尝试及时“更改”以避免浪费更多资源信息。你可以做到。其次,这种分割方法大大减少了计算机内存要求。传统方法需要同时将所有可能的推理路线存储在内存中,并记住16种不同的问题解决方法同一时间,但“大脑中非常密集”。该分割方法允许计算机以批量处理此信息并大大减轻内存压力。研究团队还设计了“早期停止机制”。 GPS导航将在错误的方式上迅速提醒您“转”。当AI检测到特定推理路线上存在明显的错误(例如,反复启动相同的内容或创建逻辑上的不一致)时,该路由的附加计算立即停止,并且计算资源以更有希望的方向分配。给予他们的经验咳嗽表明,这种智能分割机制使AI在复杂的数学推理任务方面平均可以将非视频计算减少40%,同时将推理准确性提高了3-8个百分点。这最初等同于允许需要思考十分钟的学生解决问题,现在他们可以得到一个六分钟内更准确的响应。 3。“团体智慧”允许AI学习更精确的自我评估。 Treepo的第三个进步是重新设计AI的“自我评估”系统。传统的强化学习就像一个学生,他只是看最终答案,而忽略了理解问题的过程中的步骤。这使得AI知道它们在推理过程中很好地工作的链接以及哪些链接需要改进。 Treepo提出了“群体智能”机制。当他们将推理率分支到特定节点时,系统会比较同一“家族”中不同途径的性能,并提供了更精致的评估。这是几个具有相似资格的学生在班上学习的方式,因此很容易找到细微的差异和改善范围。具体而言,假设AI通过使用相同推理路线解决几何问题来生成8,EPO将这些路径分为不同“亚组”取决于这些路径在树结构中的位置。例如,使用“可调线”方法的路由分为组,使用“直接测试”方法的路由分为另一组。该系统比较了每个子组中不同路线的利弊,而不是简单地将它们混合在一起并将它们进行比较。该小组比较的优势很明显。像重量级人物是Dividedin体育比赛一样,相似推断方法的比较更公平,可以更好地反映技能的细微差异。这样,AI可以在正确维护基本推理框架的同时,可以学习不断优化推理的细节和效率。研究人员通过许多实验证实了该评估机制的有效性。在数学推断的任务中,使用新的评估机制的AI精度率从72.89%T增加了O 85.34%,AIME竞争问题的精度从17.13%增加到27.83%。这相当于一个中等规模的数学学生,他直接跳到了杰出学生的水平。 4。从理论到实践:特雷普(Treepo)的实际任务中的绩效来检查特雷普(Treepo)的实际效果,研究小组在多个具有挑战性的数学推理任务中进行了测试表演。他们选择QWEN2.5-7B作为基本模型。这是一种大型语言模型,其参数为70亿个参数,等于大学教育中的“ AI学生”。该实验涵盖了五种不同的困难和类型的数学测试。 AIME2024(美国数学邀请函),AMC 2023(美国数学竞赛),MATH500(包括500个学校中学的数学问题),密涅瓦(包括Google开发的一组数学考试),Olympiad中的数学竞赛问题。这些测试就像AI的积分“最终考试”,从高学校数学到大学数学,从基本计算到复杂的测试。结果令人兴奋。在最基本的GRPO基线(传统的增强学习方法)中,AI的INTG精度仅为46.63%,这相当于仅通过考试的水平。但是,已经引入了Treepo采样机制。因此,如果精确度直接增加到54.61%,将几乎增加了点。使用Treepo采样机制和新的评估系统,精度提高到58.21%,达到良好的水平。更令人惊讶的是提高效率。传统方法需要6.4小时的GPU(相当于在高性能计算机上工作的6.4小时),但Treepo仅需要3.65-5.09小时的GPU。这将效率提高了22%至43%。这意味着最初需要一天训练的AI模型可以在中午完成,效果甚至更好。 rese弓箭手还发现了一个有趣的现象。 Treepo训练的模型在推理过程中显示出更强的稳定性。经过传统训练,AI看起来像一个伟大的幽默学生,有时效果很好。有时还有另一个重要的回归。由特雷波(Treepo)训练的AI似乎是具有稳定个性的优秀学生,较柔和且罕见的学习曲线突然降低了表现。 5。详细的研究:为什么Treepo在更深入地了解Treepico的工作原则的原因是研究团队进行了一系列精心设计的受控实验。正如科学家研究了新药物的机制一样,分析了每种成分在Treepo中的作用。首先,他们检查了“独立抽样”对“树木采样”的优势。实验结果表明,在相同的计算预算下,树木采样可以获得40%的平均轨道水平加速度和30%的令牌加速度。这是一种通过合理的工作划分的方式,最初必须独立并完成16人的工作仅转变为10人,质量更大。其次,他们研究了不同“段长度”对性能的影响。切成蛋糕时切片的厚度会影响味道,AI推理的长度也会影响推理效果。这项研究将推理过程划分为14个段,其中段占512个令牌(大约段落的长度)是最佳结构。太薄的分割会导致“频繁”思考中断和分割太厚会失去灵活调整的好处。研究人员还根据“概率”调查了智能差异策略。这就是如何根据学生的历史表现分配个性化的辅导资源。该系统根据“success” of different inference routes. It turns out that an equal simple distribution strategy is more effective than a complex probability weighting strategy. This reminds us that the “simplest method” is really true. Another important finding is compensation between “computer budgets” and “deep reasoning.” Research shows that optimal inference strategies differ for different types of mathematical problems. For basic calculation problems, surface but wide searches are more effective. The deep but precise reasoning is more important for issues of complex evidence. The flexibility Treepo允许AI根据问题的类型自动调整推理策略。“这种算法保持“推理”。“这是按顺序进行的不同推理任务,类似于银行的范围系统。对于每个输入数学问题,算法首先生成一个固定长度的“推理段”,然后决定是否继续在此途径中延长此途径,或者在此途中延长此途径,还是在此途中进行新的选择,或者在此途中进行新的选择,或者在此范围内进行划分,或者在此途中添加了一个新的选择,或者将其定为新的选择。算法的“分叉策略”特别智能 机制。当系统发现某些推理路线结束时过早(AI相信响应已经得到解决),并且当发现一般推理途径不足时,备份机制不足以从前中间节点开始推断,从而确保了足够数量的完整推理途径,确保了评估机制的产生的方法,即“估计a估计a”。您必须查看他们使用相同问题方法的学生之间的分类及其分类。 7。实际应用:Treepo的实际重要性。 Treepo的重要性不仅仅是提高AI的数学推理能力。这项技术代表了一个全新的AI培训想法,在多个领域中可能会产生广泛的影响。在教育领域,Treepo的想法可用于开发更智能的个性化学习系统。该系统可以分析的“推理树”解决问题过程中的学生,确定学生为什么犯错误并提供具体指导。这就像为每个学生提供一个可以准确诊断其思维过程的AI导师。在科学研究中,Treepo Toanduda向研究人员致力于更有效地探索解决复杂问题的解决方案。例如,在毒品的开发中,研究人员应考虑成千上万种化合物的组合。 Treepo的想法有助于系统识别具有相似化学特性的化合物的组合,避免重复实验,并显着提高R&D的效率。在软件开发领域,Treepo的原理可用于优化代码生成的AI的训练。随着AI学会编写程序,许多程序的第一部分(导入库,定义变量等)相似。 Treepo帮助AI更好地利用这些常见作品并提高C的效率和质量ode生成。 Yu普通人在imer的情况下,Treepo的最直接影响可以反映在AI助手的响应速度和准确性中。就像基于Treepo培训的Likestents一样,在复杂的问题方面更快,更精确,但是减少计算机资源会降低AI服务的成本并进一步提高流行度。 8.挑战和观点:Treepo Treepo的未来发展取得了显着的结果,但研究团队坦率地表明了当前方法的某些局限性。首先是“对齐问题”。如果AI的不同推理段落在长度或内容上有显着差异,则降低了Treepo效应。这就像一个拼图游戏,如果拼图的形状不同,很难找到正确的剪接方法。第二个是“复杂性控制问题”。在大多数情况下,特雷波可以提高效率,但是当推论问题变得非常重要时,树的结构本身就会成为ES管理该树结构的庞大而慷慨的降人计算可以补偿一部分最大的效率。研究人员表明,未来的改进包括开发“更智能的”树木,允许更精确的识别和消除不值得的推理​​分支。同时,我们还在寻找方法来扩展特雷普(Treepo)的AI任务到其他类型的AI任务,例如文本生成,例如对图像的理解和其他有趣的研究,可以使用“跨度范围”。该任务是“跨度的”。从更大的角度来看,多个信息,例如文本,图像,声音等。。随着AI应用程序的普及,如何获得有限的计算机资源的更好性能成为该领域最重要的挑战之一。我认为Treepo提供了出色的解决方案并刺激了更多类似的创新。研究小组表示,整个AI社区都在这一方向上移动更多。他说,他已经发布了Treepo守则和实验数据,以期促进研究。对于对技术详细信息感兴趣的人,请访问项目的主页https://m-a-p.ai/treepo,以获取更多信息。毕竟,Treepo不仅是技术改进,而且是思维方式的变化。您会发现最好的解决方案不是“更大,更快,更快的速度”,而是“聪明,更高效,更优雅”。正如这项研究所表明的那样,熟练地重组CO -ProcessMuputations可以用更少的资源提供更好的结果。该原则不仅适用于AI研究,而且适用于我们日常生活的许多方面。也许下次他面临一个复杂的问题时,他也可以尝试使用Treepo的想法。首先,找到问题的一般部分,然后单独解决各个方面。 P AQ1:与传统的AI培训方法相比,Treepo的具体好处是什么?答:Treepo的最大优势是他极大地提高了训练效率。传统方法允许AI反复计算相同的推理步骤,以便AI独立解决同一问题的前半部分。 Treepo允许AI通过树结构共享相同的推理前缀,并且只能在需要分支时独立计算。这样可以将时间降低为22%-43%,甚至保持或提高准确性。这可以在6-8小时内完成,可与最初花费10个小时的培训相当。 P2:普通用户能否感受到Treepo技术引起的变化?答:您可以感到明确的改变。基于Treepo的AI参与者更快,更精确母鸡回答复杂的问题,但减少了计算机资源。这意味着降低AI服务的成本和最快的响应速度。例如,当我问一个复杂的数学问题时,如果一个复杂的数学问题是一个复杂的数学问题,它不仅会给出更精确的响应,而且还会大大减少响应时间,以将常规学生更新为卓越的学生。 P3:除了理论之外,数学推断还可以使用哪些方案?答:Treepo具有广泛的前景应用。在教育方面,可以开发智能和个性化的学习系统,以准确诊断学生的思维过程。科学研究可以提高探索复杂问题(例如药物开发)的效率。在软件开发领域,可以优化代码生成培训。本质上,需要复杂推理并具有类似思维步骤的AI任务可以受益于特雷普。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台的NetEase Hao的用户收取和发布,并且仅是Proporcione信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部