math
-
陶哲轩:通义千问QwQ奥数真厉害,开源大模型顶流
阿里云通义千问团队最新发布的开源ai推理模型qwq-32b,在ai数学奥林匹克竞赛aimo中表现惊艳,展现出强大的数学和编程能力,甚至在部分测试中超越了openai的o1模型。 Q…
-
阿里通义千问 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1 模型
原文: 本站 11 月 28 日消息,阿里通义千问今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程…
-
Scaling Law 撞墙?复旦团队大模型推理新思路:Two-Player架构打破自我反思瓶颈
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
开源模型阵营又迎来一员猛将:Tlu 3。它来自艾伦人工智能研究所(Ai2),目前包含 8B 和 70B 两个版本(未来还会有 405B 版本),并且其性能超过了 Llama 3.1…
-
上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
月之暗面发布k0-math推理模型,对标OpenAI o1
11 月 16 日,月之暗面 Kimi Chat 宣布推出新一代数学推理模型 k0-math。 新京报报道,基准测试显示,Kimi k0-math 的数学能力可与全球领先的 Ope…
-
腾讯混元又来开源,一出手就是最大MoE大模型
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交d O E ^ w h 7…
-
理所当然也能错,数学界震动:「上下铺猜想」被证伪
现代数学,开始对你的直觉开刀了。 数学的很大一部分是由直觉驱动的,但有时想当然会让人误入歧途。早期的证据可能并不代表大局,一个陈述可能看起来很明显,但一些隐– o q …
-
补齐Transformer规划短板又不放弃快速思考,田渊栋团队的Dualformer融合System 1和2双重优势
一个 token 就能控制模型快些解答或慢点思考。 OpenAI 1 模型的发布掀起了人们对 AI 推理过程的关注,甚至让现在的 AI 行业开始放弃卷越来越大的模型,而是开始针对推…
-
小滑块上个斜面,难倒多少高中生?现在,AI让它动起来了
原来物理还能这么学。 学习物理,不同的人自然有不同的经历。一些人觉得物理课简单直观,但另一些人却认为它抽象又反直觉,根本就无法理解。为此,许多教师和教学研n } . \究者探索了各…
-
给小学数学题加句「废话」,OpenAI o1就翻车了,苹果新论文质疑AI推理能力
苹果新论文:ai 大模型可能不会推理。 AI 大模型(LLM)真的像我们理解的那样能「思考」或「推理」吗?最近,苹果的一篇论文探讨了这个问题,并且给出了一个倾向于「否」的答案。相关…
-
上交大发布首个OpenAI o1复现项目进展报告,满满的经验洞察
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进* t M k了学术交流与传H L…
-
用大模型优化大模型预训练数据,节省20倍计算量,实现显著性能提升!
aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
o1带火的CoT到底行不行?新论文引发了论战
To CoT or not to CoT? openai 1 的诞生极大地提升了人们对 llm 推理能力和思维链(cot)的兴趣。一时之间,似乎思维链很快就会成为所有 llm 的标…
-
刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错
快速更迭的开源大模型领域,又出现了新王:Reflection 70B。 横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405…
-
第一个100%开源的MoE大模型,7B的参数,1B的推理成本
训练代码、中间 checkpoint、训练日志和训练数据都已经开源。 尽管大语言模型 (LM) 在各种任务上取得了重大进展,但在训练和推理方面,性能和成本之间仍然需要权衡G P $…