上海交通大学与阿里巴巴通义实验室合作,在neurips 2024上发表了一篇关于数学推理场景下分布外检测的论文,提出了名为“tv score”的全新算法。该算法利用动态嵌入轨迹,有效解决了传统静态嵌入方法在数学推理场景中失效的问题。
传统的分布外(OOD)检测方法主要针对翻译、摘要等任务,通过计算样本嵌入与训w & P \ _ ~ ; 0 y练数据分布的马氏距离来3 \ 6 Y ; \ 5 d识别异常。然而,数学推理的输出空间y q r存在“模式坍缩”现象:不同输入可能产生相同结果,且分词化. F k 0表示导致不同表达式共享大量token。这使得静态嵌入难以捕捉数学问题的复杂性。
为了克服这一挑战,TV Score 算法引入了动. ! # ! ?态嵌入轨迹的概念。它追踪语言模型各层对输入的嵌入变化,v / u F D 4 `并将这些变化序列作为检测依据。研究发现,正确推理的样本(ID)嵌入轨迹变化平滑且“过早稳定”,而错误推理的样本(OOD)轨迹变化剧烈。
TV Score 算法具体步骤如下:首先,对每一层ID样本的嵌入进行高斯分布拟合;然j j 9 \ _后,计算新样本每一4 y y q w = ~ X层嵌入与对应高斯分布的马) 8 3 v氏距离;R & Y Y ~ : k t 9最后,将所有层马氏距离的平均值作为TV Score得分。为3 & f了提高鲁棒性,算法还加入了差分平滑技术,进m } ] J一步抑制异常值的影响。
实验结果表K ) v明,TV Score 在多个数据集和不同规模的语言模型上均取1 A v L r s得了显著优于基线方法的性能,尤其是在难以区分的Neaq ^ 2 f ) e 0 nr-shift OOD场景中。此外,TV SQ F V v v r H =core 在生成质量估计和不同任务场景下也展现了良好的泛化能力。
这w 6 S ; )项研究为数学推理场景下的O\ D t y qOD检测提供了新的思路和方法,也为其他具有“模式坍缩”特征的d * . : c i x任务提供了借鉴。 它突显了在复杂应用场景下,开发0 Z V % 2 c Q 9 U更精细的安全性算法的重要性,以保障大模型的可靠性和安全性。
以上就是NeurIPS 2024 | 数学推理场景下,首个分布外检测研究成果来了的详细内容!W e = : x I . Q 5