宝运宝运莱官方游戏网

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

2025-06-21 06:11:40
来源:

猫眼电影

作者:

杨敏养

手机查看

  猫眼电影记者 许立 报道P6F3X2M7T9QJ8L1B4WZR

智东西编译 ZeR0编辑 漠影

智东西6月17日报道,今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。

该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平,以仅72B的参数量,成绩超过了刚于5月28日发布、参数量多达671B的新版DeepSeek-R1。

Kimi-Dev-72B在AI软件工程能力基准测试SWE-bench Verified上取得了60.4%的高分,创下开源模型的SOTA成绩。

▲开源模型在SWE-bench上的性能已得到验证

▲闭源模型在SWE-bench上的性能已得到验证

通过大规模强化学习进行了优化。它能够自主修补Docker中的真实存储库,并且只有当整个测试套件通过时才会获得奖励。这确保了解决方案的正确性和稳健性,并符合现实世界的开发标准。

Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和部署。其发布给社区的关键资源包括模型权重、源代码,技术报告也即将推出。

Hugging Face地址:huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地址:github.com/MoonshotAI/Kimi-Dev

月之暗面介绍了Kimi-Dev-72B的设计理念和技术细节,包括BugFixer和 TestWriter的组合、中期训练、强化学习和测试时自我博弈。

1、BugFixer和TestWriter的组合

成功修复错误的补。╬atch)应能通过准确反映该错误的单元测试。同时,复现错误的成功测试应引发断言错误,并在将正确的错误修复补丁应用到代码库后通过。这致使BugFixer和TestWriter互补,一个足够强大的编程大语言模型应该在这两个方面都表现出色。

BugFixer和TestWriter的工作流程类似:它们都会先找到正确的文件进行编辑,然后编辑正确的代码更新,无论是修复脆弱的实现还是插入unittest函数。因此,对于这两种角色,Kimi-Dev-72B都采用了相同的极简框架,该框架仅包含两个阶段:文件本地化和代码编辑。BugFixer和TestWriter的双重设计奠定了Kimi-Dev-72B的基础。

2、训练中期

为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识,月之暗面使用约1500亿个高质量的真实数据进行中期训练。

以Qwen 2.5-72B基础模型为起点,月之暗面收集了数百万个GitHub问题和 PR提交作为其中期训练数据集。数据配方经过??精心构建,使Kimi-Dev-72B 能够学习人类开发者如何推理GitHub问题、编写代码修复和单元测试。

月之暗面还进行了严格的数据净化,将所有存储库从SWE-bench Verified中剔除。

中期训练充分增强了基础模型对实际Bug修复和单元测试的了解,使该模型成为后续强化学习训练的更佳起点。

3、强化学习

通过适当的中期训练和SFT,Kimi-Dev-72B在文件本地化方面表现出色。因此,其强化学习阶段专注于提升其代码编辑能力。

月之暗面使用了Kimi k1.5中描述的策略优化方法,该方法在推理任务中表现出色。对于SWE-bench Verified,月之暗面重点关注以下三个关键设计:

仅基于结果的奖励。仅使用Docker的最终执行结果(0或1)作为奖励,训练期间不采用任何基于格式或过程的奖励。高效的提示集。过滤掉模型在多样本评估下成功率为零的提示,从而更有效地利用大批量。采用课程学习(curriculum learning)法,引入新的提示,逐步提高任务难度。正例强化。在训练的最后阶段,将之前迭代中最近成功的样本纳入当前批次。这有助于模型增强成功模式并提升性能。

Kimi-Dev-72B通过使用高度并行、强大且高效的内部agent基础设施,从可扩展数量的问题解决任务的训练中受益。

4、测试时自我博弈

经过强化学习后,Kimi-Dev-72B能同时掌握BugFixer和TestWriter的角色。在测试过程中,它会采用自我博弈机制,协调自身Bug修复和测试编写的能力。

▲BugFixer和TestWriter之间的测试时自博弈

每个问题最多可生成40个补丁候选和40个测试候。ò凑毡曜嘉轪gent设置),可观察到测试时自博弈的扩展效应。

结语:未来迭代侧重深度集成,更无缝地融入工作流程

月之暗面正在积极研究和开发扩展Kimi-Dev-72B功能的方法,并探索更复杂的软件工程任务。

其未来的迭代将侧重于与流行的集成开发环境(IDE)、版本控制系统和CI/CD流水线进行更深入的集成,使Kimi-Dev-72B更加无缝地融入开发者的工作流程。

该公司承诺将持续改进Kimi-Dev-72B,进行严谨的红队测试,并向社区发布更强大的模型。

来源:月之暗面GitHub项目

??时事1:50%高糖怎么配胰岛素

??06月21日,住房交易税收新政!购买家庭唯一及第二套住房 不超140㎡按1%缴纳契税,

?无偿提供劳务的帮工人致人损害,应该由谁负责,动漫男男裸体啪啪漫画原神。

??06月21日,山西今年将新建150座智能煤矿,

保护环境我们在行动国旗下讲话(精选30篇)

,美女拉屎裸体㊙️视频,成人做爰黄✌片视频动漫入口,中国人体祼交❌乂ⅹ。

??时事2:温迪被扒开双腿疯狂输入小说

??06月21日,第七届进博会全球推介路演首站在越南举办,

  这不是一头两头,而是足足四五十头,一群凶残的巨兽围了上来,远比狈村的人威胁大。

,国产➕无码➕又爽又刺激网站老师,韩漫嗟嗟嗟漫画,男朋友脱我内裤揉我下面小说。

??06月21日,山西运城向“新”出发 擘画高质量发展蓝图,

  不远处,兽潮出现了,迅速将这里淹没,一个二三十万人的部落成为了过去,满地血迹,所有人都葬身兽腹中。

,日韩成人紧身丝袜,女明星裸乳被爆❌白浆的视,t66y技术讨论区2024。

??时事3:动漫的裸体㊙️免费看

??06月21日,2019年来新疆兵团药品和医用耗材集采已节约医疗费用逾15亿元,

  一般的孩子别说独自一人前行三十万里,就是三百里、三千里就可能会遇险,被猛兽吃掉。

,乖~慢慢来h~粗喘H男男,茶啊二中刘若琳裸体网站,李毅吧动态第100期更新内容。

??06月21日,【新春纪事】佛山连杜打造“醉”美桃花源 当地“桃花王”传授选花秘诀,

  毕业了,学校送给你们一个礼物,一位校友设计的茶杯,希望大家注意身体,多喝水,当然别忘了“上善若水”。

,爽⋯好大⋯快⋯深点奥特曼,亚洲经典一区二区三区爱妃记歌词,初撮り♥完全颜出16。

??时事4:茶啊二中刘若琳被❌❌到高潮

??06月21日,广西漓江画派将举办二十周年系列活动,

  “呀,那头金狼果然恐怖,难怪在方圆五万里内的祭灵中称尊,它已获得过一次新生,脱下了一层旧皮,祭炼成了宝具。”众人惊憾。

,杨幂❌❌❌❌视频,男同❌🔞得到❌做,二次元疯狂❌自慰动画。

??06月21日,东北“老铁”送来的蔓越莓被广西人做成糖葫芦,

在村干部培训班上的讲话 篇14

,男男被❌到爽🔞高潮痉挛动漫,猎奇 重口 虐杀 血腥 肢解小说,在线无限看❌免费蓝莓视频。

责编:姜广福

审核:考?将

责编:阎庆文

相关推荐 换一换
宝运宝运莱官方游戏网宝运宝运莱官方游戏网最新版本(官网)下载