
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者g 7 ) . l Z K R /联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

-
论文链接:https:/# j # n M 1/arxiv.org/abs/2410.0569! b 0 U d d # 7 q5
-
代码地址:https://github.com/LightChen233/reasoning-boundZ ( & S C ? Lary










-
完全可行的推理边界:研究者定义准确率大于 90% 的部分是完全可行的推理边界 (CFRB=
),这意味着 LLM 可以有效地掌握这部分的表现。
-
完全不可行的推理边界:研究者认为准确率小于 10% 的部分是完全不可行的推理边界 (CIRB=
),这意味着模型永远无法有效掌6 4 W y U 5 R O握这部分的性能。
-
部分可行推理边界:研究者将除 CFRB 和 CIRB 之外的其余部分中的 RB 定义为部分可行推理边界 (PFRB=
),这需要模型重复思考或者更清晰的信息来解决问题。
-
模型设置:研究o e q @ s [ G者们采用了 GPT-3, V m O.5-Turbo 作为主要模型,实验还涵盖了多任务场景,包括数学推理、多跳问答和多语言推理等领域,以确保推理边界的全面评估。
-
基准设置:为了更好地评7 A g a z f估 LLMs 的推理能力,作者引入了一个新的数据集 ——BigGSM。这个数据集不仅具有较高的计算复杂性,还包含更长的推理链,能够更好地挑战模型的推理上限。

-
复杂多项式计算的推理边界:可视为 ①计算步X u ; 2 H K % [骤规划 与 ②数学运算 两个推理边界的结合。如图 3 (a) 所示,实验结果显示了三个具有明显边界的推理边界划分区域。 -
复杂小学数学推理的推理边界:可理解为 ①自然语言步骤规划 与 ②数学运算 的结合,图 3 (b) 中同样展示了三个清晰的推理边界划分区域。 -
多跳问答的推理边界7 D |:可被视作 ①多跳规划 与 ②实U v J L O i 3体推理 的结合。正如图 3 (c) 所示,三个推理边界划分的有效区域同样可见。

-
完全可行推理边界-i – O $ F X =->完全掌握:如图 4 (a, b) 所示,在这一边界下,模型即使在没有示例+ g X –、无需 self-consistency 的情况下也能够高效完成任务。
-
部分可行推理边界–>不完全掌握:在这一推理边界下,如图 4 (b) 所示,模型对任务的掌握程度有限,需要通过多次 Self-consistency 来增强信心,从而提高准确率。
-
完全不可行推理边界–>完全不掌握:在这种边界下,如图 4 (b) 所示,模型的推理表现极其有限,M 8 a W V ( \ F即便采用 Self-consistency,模型的准确率仍难以得到提升。
-
大模型能够自己意识到自己的推理边界:研究还发现,如图 4 (c) 所示,当让模型自行生成 CoT 示例时,模型更倾向于生成符合r i ; M ) q O –其推理边界的样本,特别是在完全& c 5可行推理边界范围内,而很少生成其完全无法掌握的样本# G ) G。这表明模型对推理边界具有一定的自我感知能力,能够根据自身能力选择合适的任务进行推理。








-
Complex CoT 在推理步骤与性能之间的平衡
-
单次计算负荷缓解:研究表明,通过增加推理步骤,可以缓解单次计算的负荷,从而提升模型的计算边界
,这有助于提高整体的推理能力。
-
规划难度增加:然而,推理步骤的过度增加可能带来负面影U I _ ^ 3 k J响:原问题在准确率较高的边界
上,经过 Complex CoT,可能落到准确率较低的边界
上,其中
。这意味着过多的推理步骤可能导致组合推理准确度的下降。

-
在规划与计算负荷之间存在一个平衡:如图 6 所示,随着推理步骤的增加,模型性能在初期显著提高,但当步骤数超过模型的最优推理能力时,性能开始下降。这表明,Complex CoT 在推理步骤数量与计算负荷之间存在一个最佳平衡点。超出这一点,计算负荷的增加会对模型的整体表I D I T y m ? E C现产生负面影响。
-
Least-to-Most 的分步Y N \ i C ]优化策略



-
最短可接受推理路径d _ 6提示(MARP)
-
最小化推理路径提示:为了减轻与规划相关的认知负担T q w ^,通过该提示让模型尽可能简洁地回答问题,确保提供简短、清晰和直接的推理路径。

-
可接受# * } . i t – I推理路径提示:为了更有效地利用推理边界的上限,通过该提示要求模型每一个推理步骤J M ~的复杂性在可接受的范围内8 ? V B #。

-
推理边界与模型准确率的正相关性:T X % $ ~ ] W $研究者通过对 25 个不同模型的推理边界表现进行分析,发现推@ n 3 B L A B Y理边界与数学任务中的准确率呈现出正相关e d T关系。
-
数学模型与通用模型在推理边界 – 准确率分布上的差异:通过数学数据微调的模型,推理边界 – 准确率分布虽然呈现出正& = 0 z 4 q u 2相关,但与通用 LLM 存在显著差异。这A z T H t R B u –可以为未来区分模型是否进行了数学专项训练提供了一个潜在的指标。
-
开源模型在完全c I F q 3 X ;可行推理边界上的局限性:开源n ( b \模型在完全可行推理边界(CFRB)上的表现与闭源模型存在显著差异。几乎所有开源模型的 CFRB 值均为 0,这表明开源模型在高级推理任务上的不足,表明其= U P l S ! | ? ]在未来优化中的潜力。

-
多语言推理:通过# 1 v ^ 0 +将多语言能力、数学9 o U计算与推理规划相结合,实验结果表明,这些能力的正交组合后,推理边界依然保持了三类不同的推理边界模式,进I V ) o一步证实了此方法的普适性和稳定性。

-
医疗推理:类似地,在医疗领域,研究通过将医疗实体推理与多跳推理规划相结. K J M # p n P合,验证了推理边界在正交组合后仍然保持一致,说明Q ; T该推理策略同样适用# _ 6于医疗推理任务。



以上就– } N是NeurIPS 2024 (Oral) | 如何量化与提升思维F z J I链n m ] D _ r %的推理能力边界?的详细内容!