TGSO.PRO-专业的TG搜索引擎

黑洞资源笔记 02-15 17:05:33

DeepSeek发布了一项新的成果，CodeI/O 通过代码输入-输出预测提炼推理模式 | 详文这项研究提出了一种名为CoDEI/O的新方法，用来提升大型语言模型（如ChatGPT等）的推理能力。传统方法通常专注于训练模型解决数学题或生成代码，但其他类型的推理任务（如逻辑推理、科学推理）由于缺乏高质量的训练数据，效果往往不佳。这项研究的核心思路是：用代码教模型“解题思维” 代码中其实隐藏着丰富的“解题套路”。例如，一段计算阶乘的代码，本质上包含了“从1连乘到n”的数学推理步骤。CoDEI/O的巧妙之处在于： 1. 把代码变成“输入-输出”练习题：给定一个代码函数和输入，让模型预测输出；或者给定代码和输出，让模型反推输入。 2. 用自然语言描述推理过程：模型需要像学生写解题步骤一样，用文字说明“为什么输入A会得到输出B”，而不是直接生成代码。这种“思维链”训练让模型学会通用的推理方法，比如如何拆解问题、如何验证条件等。如何实现？ ⭐️收集代码：从算法题库、数学问题等来源筛选45万多个代码函数。 ⭐️生成练习题：为每个代码函数自动生成多组输入输出对，例如测试阶乘函数时，输入5对应输出120。 ⭐️让模型“写解题步骤”：使用一个强大的开源模型（DeepSeek-V2.5）为每个练习题生成自然语言的推理过程。 ⭐️纠错升级（CoDEI/O++）：如果模型预测错误，系统会通过执行代码得到正确答案，并让模型根据反馈重新生成推理步骤。类似老师批改作业后让学生订正。效果如何？ ⭐️在14个不同类型的推理测试中（涵盖数学、逻辑、常识等），经过CoDEI/O训练的模型表现更全面： ⭐️不偏科：传统方法可能在数学题上得分高，但逻辑题得分低，而CoDEI/O在所有任务中均有提升。 ⭐️验证可靠：模型的推理步骤可以通过代码执行直接验证，确保正确性。 ⭐️开源共享：所有训练数据和模型已公开（GitHub），方便后续研究。总结一下，CodeI/O 就像是一种新的“思考训练营”，它利用代码这种结构化的信息，让AI学习更通用、更可靠的推理能力。（以上内容是deepseek根据论文生成的）

附件：[图片]