奥多码,点击查看详情 97CDN云盾,点击查看详情

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03
       
广告2021-06-03到期2021-07-03广告2021-06-03到期2021-07-03

字节跳动开源全新代码大模型评估基准fullstack bench,全面升级ai编程能力评测标准!该基准涵盖11大类真实应用场景、16种编程语言和3374个问题,远超现有基准,更精准地评估大模型的实际代码开发能力。

现有代码评估基准如HumanEval、MBPP、DS-1000和xCodeEval等,在应用场景和编程语言覆盖方面存在局限性,难以全面反映真实开发环境的复杂性。 FullStack Be& 5 x n y J {nch则突破了这一瓶颈。

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

FullStack Bench数据覆盖范围显著领先现有基准

FullStaG R C U c 2 ( H –ck Bench 基准数据集由字节跳动豆包大模型团队与M-A-P开源社区合作打/ L ^ V A P 4 9 o造。研究团队分析了Stack Overflow上的50万个问题,从中筛选出涵盖真实全栈开发的11个主要应用领域,并对每个领域的样本进行了调整,确保基准的稳健性。

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

FullStack Bench数据集构成

该基准包含3374个问题,每个问题都配有详细描述、参考解决方案和单q ( 9 : x ] p F元测试用例(共15168个)。所Y q # ~ 6 B K ? q有问题均由专家设计,并经过严格的AI和人工审核,确保数据质量。

为方便开发者测试,团队还同步开源了高效的代码沙盒执行工具SandboxFusion* – t,支持FullSf @ ; y s Ntack Bench及其他10多个数据集,兼容23种编程语言。开发者可轻松z { @ F / L – #部署和) H R * a 3使用P M F HSandboxFusion,进行大模型代码能力的| + 3 (系统性评估。

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

此外,字节跳J \ 8 E ^ P r动还首次公开其自研代码大模型Doubao-Coder@ \ z $ S E的评测结果,并将其与其他20余款代码大模型进行了对比分析(详见论文)。 值得一提的是,字节跳动u L \ 2 B E自研的AI编程助手豆包MarsCode,每月已为用户提供百万量级代码支持。

  • 论文地址:https://www.php.cn/linj ` 2 ]k/ec9b606d4c0673aa256696c06cc9e785
  • 数据集开源地址:h} o + ~ttps://www.php.cn/link/00b9? U . \ W 1 ^ C 09e87221c9afb0c0c23c3fb403307
  • 沙盒开源地址:https://www.php.cn/link/9f9e0c06d86af4c03ce5ec9fc618db10
  • 沙盒体验入口:htt; W o 9 Xps://www.php.cn/link/f5dd07d944fdcaba5af8b6828ed55f69

以上就是最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景的详细内容!

本文由【好易之】整理自网络!
原创文章,作者:【好易之】如转载请注明出处:https://www.zhengjiaxi.com/zxwd/itzx/120468.html
如有侵权,请邮件联系 aoduoye@qq.com 删除。
本站发布的文章及附件仅限用于学习和研究目的;不得将上述内容用于商业或非法用途,否则后果请用户自负。
本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。
如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
好易之的头像好易之站长
上一篇 2025-01-03 13:50
下一篇 2025-01-03 13:50

相关推荐

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询:点击这里给我发消息

 

工作时间:周一至周五,9:30-18:30,节假日休息

关注公众号
请查看头部文章来源地址!本站所有内容均为互联网收集整理和网友上传。仅限于学习研究,切勿用于商业用途。否则由此引发的法律纠纷及连带责任本站概不承担。