「这相当于在理论上,两层神经网络在理论上可以拟合任何数据,我们就盲目相信并应用在所有场景中。」

-
论文链接:hta 2 % J 3 k * ( vtps://arxiv.org/abs/2402.12875

-
AC⁰:仅使用 AND、OR、NOT 门,深度为常数,通常适用于比较简单的并] + q行计算问题。 -
TC⁰:扩7 ; I展了 AC⁰类问题,增加了多数决定门(MAJORITY gates),能处理更复杂的并行计算问题。

-
Base 模式:模型直接生成结果,目标是最小化预测结果与真实值) I g ] V + F T T之间的差距。 -
CoT 模式:在每个问题上为模型手动设计R | H u i O e x C了思维链,评估模型是否能够正确预测整个思维链中的每个 tokenZ d – K O G ~。 -
Hint 模式:为模型提供部分提示信息,帮助其更好地生成中间步骤。对于 Base 模式和 Hint 模式,直接评估最终答案的准确性。




















尽管 CoT 非常有用,但我并不完全同意仅靠盲目扩展它就能解决所有问题。论文中提\ ! G = I | \ 5出了一种通用理论K U , \ d j ~ —— 我们可以显式地构建 Transformer 的权重,使其更好地适应特定任务。虽然模型的深2 ? % o s v j . q度可以保持常数,但 CoT 的长度可能会非常长,而这种权重能否通过梯度下降算法学到,仍是未知数。



我U v N还记得你曾说过,LLM(GPT)不是 AI,也永远无法达到 AGI,因为它无法进行推( , g O q理。
然而,现在通过 CoT+RL,它可以推理了。这篇论文只是证明了其他人一直以来所做的是正确的,一如既往。
为什么 Meta 反对通往 AGI 的主流路径?难道只是因为你个人不喜欢 Google 和 OpenAI 吗?

以上就是CoT能让模型推理能力无上限?田渊栋、LeCun下场反对:两+ 3 q 2 i Q I \ @层MLP还能模拟全世界呢的详细内容!