提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

4月10日消息,今日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集——Multi-SWE-bench,可用于评估和提升大模型自动修 Bug能力。

在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言(Java、Go、Rust、C、C++、TypeScript、JavaScript),是真正面向全栈工程的评测基准。

Multi-SWE-bench包含1632个实例,均来自GitHub issue,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

豆包大模型团队希望,Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准,推动自动编程能力向更实用、更工程化的方向发展。

团队表示,相比于以往聚焦Python的单语言任务,Multi-SWE-bench更贴近现实中的多语言开发场景,也更能反映当前模型在自动化软件工程方向上的实际能力边界。

提升大模型自动修Bug能力 豆包正式开源首个多语言类SWE数据集

文章来源于网络。发布者:每日电讯网,转转请注明出处:https://www.jnlts.cn/6794.html

(0)
每日电讯网的头像每日电讯网
上一篇 2025年4月10日 下午3:39
下一篇 2025年4月10日 下午3:40

相关推荐

  • 曝主板将迎来新一轮涨价潮 华硕技嘉微星或先出手

    据爆料平台Board Channels消息,主板市场可能迎来新一轮涨价潮,华硕、技嘉、微星三大头部品牌被曝正在酝酿调价计划。虽然厂商尚未发布正式公告,但结合现在的背景,这波价格波动显得合情合理。 作为AMD和英特尔处理器主板的主力供应商,这三家企业的定价策略向来是行业风向标。若调价成真,其他品牌跟进也不意外,不过小众厂商或许会借机以稳定价格争夺市场,引发新一…

    2025年4月24日
    700
  • 特斯拉水深火热 马斯克无奈服软:但不会放弃从政

    特斯拉业绩水深火热,马斯克还管不管了! 从下个月开始,我留给政府效率部(DOGE)的时间将大幅减少。面对着特斯拉的惨淡业绩,马斯克终于无奈服软,承诺自己会减少在白宫的时间,将更多的精力留给上市公司特斯拉。 这是他不得不面临的选择。在特斯拉股价腰斩之后,长期看好特斯拉的Wedbush分析师丹艾夫斯(Dan Ives)警告称,若马斯克不释放退出DOGE的信号,特…

    2025年4月24日
    900
  • 蔚来回应牛屋用300元/瓶的洗手液:我们是集采价 说这事的人不懂行

    3月25日消息,日前,蔚来汽车在北京举办了一场小范围的沟通会,期间围绕蔚来近期的组织变革和盈利目标等透露出不少信息。并且,针对外界关心的话题,蔚来李斌及高管也做出了相关回应解释。 此前,蔚来为车主打造的专属空间NIO House(牛屋),因为内部较为高档和豪华,引起网友的吐槽。有网友发现,牛屋里面使用的伊索洗手液市场价格高达300元/瓶,一把椅子售价6万元,…

    2025年3月25日
    3000
  • 卖越多亏越多!长安汽车被亲儿子拖累:董事长年薪缩水

    2024年,长安汽车交出了一份不让人满意的成绩单。 虽然在销量方面创下了近7年新高,营业收入也实现同比增长5.58%,但营收增幅创下多年来新低,净利润更是同比下滑35.37%。 增收不增利背后,是长安汽车重点打造的新能源品牌深蓝和阿维塔持续亏损,其中深蓝亏损15.72亿元,阿维塔亏损40.18亿元;合资品牌长安福特依然是现金奶牛,净利润为20.9亿元,但今年…

    2025年4月18日
    1600
  • 网友点赞!刘亦菲发布会发言未直接提及智驾:将智驾称为辅助功能

    4月18日消息,据媒体报道,在4月17日举行的智界发布会上,刘亦菲作为品牌大使登台。 网友发现,刘亦菲在介绍智驾功能相关体验时,使用辅助功能形容,并未直接提及智驾。 她表示,大家在拥有一个很好的科技辅助的同时也要注意驾驶安全,这个辅助功能帮助现代人节省很多精力,是一个好助手或者好的搭档。对于刘亦菲的发言,网友纷纷点赞,称其有颜值有头脑有责任感。 此前工信部召…

    2025年4月18日
    1200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信