transformer
-
揭示Transformer重要缺陷!北大提出傅里叶分析神经网络FAN,填补周期性特征建模缺陷
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如z V % e…
-
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接…
-
调研180多篇论文,这篇综述终于把大模型做算法设计理清了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果d Y A …
-
腾讯混元又来开源,一出手就是最大MoE大模型
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交d O E ^ w h 7…
-
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
NeurIPS 2024 | 机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
新视角设计下一代时序基础模型,Salesforce推出Moirai-MoE
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交\ P = V 5 2 *…
-
导航、采矿、建造,北大这个新智能体把《我的世界》玩透了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了
牛顿没解决的问题,AI给你解决了? AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一,能否解决高级的数学问题,无疑是衡量语言模型推理水平的一把尺。 虽然我们已经见…
-
还是原装Transformer好!北大清华团队同时揭示Mamba等推理短板
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术7 I + R } R…
-
又快又准,即插即用!清华8比特量化Attention,两倍加速于FlashAttention2,各端到端任务均不掉点!
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果+ o .您…
-
补齐Transformer规划短板又不放弃快速思考,田渊栋团队的Dualformer融合System 1和2双重优势
一个 token 就能控制模型快些解答或慢点思考。 OpenAI 1 模型的发布掀起了人们对 AI 推理过程的关注,甚至让现在的 AI 行业开始放弃卷越来越大的模型,而是开始针对推…
-
北大林宙辰团队全新混合序列建模架构MixCon:性能远超Mamba
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工…
-
图灵奖得主Yoshua Bengio新作:Were RNNs All We Needed?
自从 transformer 模型问世以来,试图挑战其在自然语言处理地位的挑战者层出不穷。 这次登场的选手,不仅要挑战 Transformer 的地位,还致敬了经典论文的名字。 再…
-
NeurIPS 2024 | Transformer长度外推,全新位置编码DAPE大幅提升模型性能
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有; 3 …
-
NeurIPS 2024 | 大模型的词表大小,同样适用于Scaling Law
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有w ( …
-
从预测风暴到设计分子,微软的 AI 基础模型如何加速科学发现
编辑 | ScienceAI 人们总是在寻找规律来解释宇宙,并预测未来。俗话说,「朝霞不出门,晚霞行千里」,人们常常用它来预测天气。 AI 非常擅长发现模式并进行预测。现在,微软研…
-
陈丹琦等人组织的COLM奖项公布:被ICLR拒稿的Mamba入选杰出论文
会议组织者都是 nlp 头部科学家,在语言建模方面有着相当的成果。 随着 AI 领域的快速发展,大模型逐渐成为研究的核心,为了更好地探索这一领域,2023 年,一批知名的青年学者组…
-
中国科学院团队发布GeneCompass:解析基因调控密码,打造干湿融合新范式
作者 | 中国科学院多学科交叉研究团队 编辑| ScienceAI 近年来,大语言模型(LLMs)已在自然语言、计算机视觉等通用领域引发了新一轮技术革命,通过大规模语料和模型参数进…
-
号称击败Claude 3.5 Sonnet,媲美GPT-4o,开源多模态模型Molmo挑战Scaling law
Molmo,开源多模态模型正在发力! 它也可以从虚拟世界帮你解决现实世界的问题,说一句:「molmo,帮我买杯星巴克的南瓜拿铁。」剩下的就不用动手了,打开外卖网页、点餐、付款,mo…
-
终于拿到内测!豆包-PixelDance真是字节视频生成大杀器
「火山爆发,震撼天地。」这八个字会在你的头脑中触发怎样的影像?是否与下面的视频类似? 提示词:火山喷发,升起巨大蘑菇云,岩浆顺着山体往下流,镜头拉近,岩浆正在火山口跳动冒出。 这段…