宝运宝运莱官方游戏网

首页

宝运宝运莱官方游戏网:下载APP

头条 |
热点 |
地市 |
娱乐 |
独家报料 |
台海 |
财经 |
体育 |
法治 |
生活 |
专题 |
FJTV视点 |
海博出品 |
活动专区 |
醉美福建 |
联播君 |
科技 |
军事 |
投票 |

宝运宝运莱官方游戏网:大模型全员0分！谢赛宁华人团队，最新编程竞赛基准排行榜出炉

闻乐发自凹非寺量子位 | 公众号 QbitAI

好夸张……

参赛大模型全军覆没，通通0分。

谢赛宁等人出题，直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一众模型全都难倒。

到底是什么让一众领先模型一败涂地？

LiveCodeBench Pro：一个包含来自IOI、Codeforces和ICPC的竞赛级编程问题的实时基准测试。

题库还每日更新，来预防LLMs“背题”，不得不说这太狠了（doge）。

谢赛宁虽然也参与了这项工作，但他谦虚地说自己只是个啦啦队成员。

此前有报道称，LLM编程现在已超越人类专家，但本次测试结果表明并非如此。

表现最佳的模型，在中等难度题上的一次通过率仅53%，难题通过率更是为0。

即使是最好的模型o4-mini-high，一旦工具调用被屏蔽，Elo也只有2100，远低于真正大师级的2700传奇线。

谢赛宁表示：

击败这个基准就像AlphaGo击败李世石一样。我们还没有达到那个水平——甚至对于有明确可验证结果的问题也是如此。

LiveCodeBench Pro：动态题库考验LLMs算法逻辑深度测试是如何构建的

该基准由一众奥林匹克获奖者构建，在比赛结束后立即收集每道Codeforces、ICPC和IOI题目，在互联网上出现正确答案之前捕获每个问题。

每日更新题库，以减少数据污染，保证评估环境的真实性与挑战性。

测试收录了584道顶流竞赛题，团队手动对每个问题进行标注，标注内容包括解决每个任务所需的关键技能，并根据问题的认知焦点将题目分为知识密集型逻辑密集型观察密集型三大类。

还将题目分为三个难度级别，这并非是人工挑选的，而是通过正态分布自动选择

例如，所有Codeforces问题的评分在2000分以上的都会被归入困难等级。

模型具体表现

团队会基于题目背后的算法思想进行分类，记录Codeforces官方难度评级（对应Elo分数下50%的成功率），同时梳理关键观察点、常见陷阱及边缘案例，为评估提供多维度参考。

在测试过程中，团队对模型和人类专家提交的每个解决方案，记录其判定结果（如通过、答案错误、超时等），并标注根本原因（思路层面错误或实现层面错误）。

如果代码无法通过题目自带的样例输入输出，会标记 “样例未通过”。

结合题目分类与提交结果，对比人类专家的解题模式，分析模型在不同难度（简单 / 中等 / 困难）、题型（知识密集型 / 逻辑密集型 / 观察密集型）下的表现，定位模型在算法推理、样例利用及边缘案例处理等方面的短板。

团队一共测试了22款大模型，并根据表现给出了完整榜单，大家可以自行查看任何一个模型在每一个问题上给出的解决方法。

同时绘制了每一个模型的评分趋势，可供自由选择想要了解的模型。

测试结果显示

模型在知识密集型和逻辑密集型问题上表现更好，擅长 “死记硬背”（如数据结构模板），但在观察密集型问题或案例工作中表现较差，搞不定 “灵光一现” 的贪心、博弈题。

与人类相比，o3-mini 等模型在精确、无错误的实现方面展现出更高级的技能，但在算法设计方面逊色。

LLMs擅长实现类问题，但在需要精细算法推理和复杂案例分析的题目上表现欠佳，还常给出看似正确实则错误的解释。

LLMs经常无法正确通过题目提供的示例输入，显示其对给定信息的利用不充分。

LLMs很大程度上依赖工具增强（如终端访问、网络搜索），而非自身推理能力。

团队还增加了尝试次数（pass@k），并发现这样可以显著提升LLMs在中简单题的表现，但对难题依旧无力。

比如，通过增加o3-high模型的尝试次数来测试其性能，但无论尝试多少次，它仍然无法解决任何一个困难分区的题目。

启用推理功能后，LLMs在组合数学等知识密集型题目中提升明显，但在观察密集型题目中提升有限。

研究员还透露，每个季度，团队都将发布一个完全全新的评估集，保证数据的时效性。

团队超半数成员为华人

LiveCodeBench Pro团队由一众奥林匹克竞赛得奖者组成，其中超半数成员为华人。

该项目的主要负责人郑子涵毕业于成都外国语学校，现于纽约大学本科在读，曾代表纽约大学参加ICPC世界总决赛，获得第二名。

他先后在腾讯、英伟达担任研发实习生，今年2月份以实习生的身份进入OpenAI。

另一位负责人柴文浩于2023年在浙江大学完成本科学业，硕士就读于华盛顿大学，今年9月将前往普林斯顿大学计算机科学专业就读博士。

他曾于Pika Labs和微软亚洲研究院实习，先前研究主要涉及视频理解和生成模型。

他领导开发了MovieChat，这是第一个用于长视频理解的超大多模态模型。

并且，他在ICLR、CVPR、ICCV等顶会期刊发表过相关研究论文。

该项目的其他参与者分别来自加州大学、普林斯顿大学等，这是一支非常年轻的队伍。

论文地址：https://arxiv.org/abs/2506.11928项目地址：https://github.com/GavinZhengOI/LiveCodeBench-Pro排行榜：https://livecodebenchpro.com/

[1]https://x.com/ZihanZheng71803/status/1934780656665677928[2]https://x.com/rohanpaul_ai/status/1934751145400111572[3]https://x.com/sainingxie/status/1934786355969851630

— 完 —

《国产➕18➕爽➕免费》，《P6F3X2M7T9QJ8L1B4WZR》

yaoi❤️♂manga漫画

“少妇做受❌❌❌高潮网站”

娜美吃路飞棍子原视频

……

06月21日

“玩着玩着就c进去了h1v1”靠锅气来分辨预制菜已经没用了

↓↓↓

张钧甯红丝袜，是贵州住宅火灾事件死者儿子曾举报小区消防

06月21日，一部家训，留下绵长回响，小🐤🐤戳进🍑无遮挡欧美，少妇成熟A片无码专区漫画，裸体美女网站100%，美女脱精光被刑具挠脚心，おめでとうクリスマス歌词|白丝校花露🐻吃男人🍌|美女露隐私秘免费视频网站|嫦娥自慰❌❌喷水好爽|XXNXX39سكس|小医仙3D❌出白浆视频

06月21日，台胞欢聚福建畲乡“二月二”会亲节，成人黄色性爱小说，姬小满㊙️黄漫免费视频，白丝JK裸体被出水视频，91PORNY首页入口

06月21日，第九届亚洲冬季运动会志愿者出征，黄金网站app大全，妺妺用🐻夹我的🍌网站，美女被❌狂揉大胸视频，温迪脚法ちゃんがをかいます

06月21日，湖南：税惠红利加大民营企业前行“马力”，小🐤🐤戳进🍑无遮挡电影，憨憨倩大长腿跳舞，导演的电影推荐，韩剧《医生》免费观看

06月21日|中国积极财政政策将重点从六个方面发力|玖辛奈裸体被❌羞羞A片|赵露思脱了内裤求被c在线观看|FC2PPV18女の子と初生中|高清码🔞❌♋裸身网站视频

06月21日|上海签发粤港澳大湾区外首张赴港澳人才签注|邓紫棋被❌到喷水18禁|唐舞桐被❌吸乳脱内内微博|18禁白丝扒开腿免费网站漫画|99在线无码精品㊙️竹菊影视

06月21日|中国海油首次中标巴西1200万桶原油贸易长约资源|日本巨乳巨乳ねんの超乳|从超神开始奴役万界女神|成人扒开🍑伸进🍌视频,|丝袜丝袜变态口工视频……

06月21日，三峡坝区油菜花烂漫绽放春意盎然景色如画，giantess玉足脚趾VK网站，男人的🍌伸到🍑里第一次，美女❌❌❌免费视频动漫，国产人妻精品无码蜜汁

06月21日，联合国糖尿病日｜每10个人就有1人患糖尿病，和吃甜食多有关系吗？，胖熊自慰网站自慰无遮挡网站，动漫女的被❌到爽免费，国产精久久❌❌❌网站漫画小说，13禁🍆🍑🔞❌❌❌下载

06月21日|陕西大原村制陶作坊遗址发现“工、居、葬”合一模式遗迹|3D动漫胸乳❌❌❌动漫照片|美女隐私㊙️屁屁网免费|甘雨疯狂❌自慰喷水劲动漫|女fyee牲zozo交体内谢

06月21日，五一假期全国民航累计发送旅客997.1万人次，PzKONXXXXHD💋2，FreePorno💋7k，美女脱👙露出🐻给我吃，凯·帕克姨妈1993年

06月21日，中国企业出海带火印尼“工业旅游”，女警花被残忍浣肠喷屎，SeoDog绅士常来，唐三把胡列娜c到高潮视频，扒开疯狂揉❌脱脱内内原神

06月21日，中哈举行能源合作分委会第十三次会议，免费无遮挡🔞视频网站免费sm，亚洲国产成人无码468A片直播，18 Free XXXX Movies HD100，少妇自慰喷水www

06月21日|贵州思南：七旬手艺人扎70条龙灯迎龙年|成人精品GIF动图一区|美女露出奶头❌❌❌免费|国产肥老妇视频|雏田❌小樱禁欲视频

06月21日|山东创新金融助农方式助力黄河沿岸产业兴、生态美|景甜被内谢流白浆10p|女警吊起来两腿扯开电击|tobuHD👙👙|两个美女互相喂屎

06月21日|护腰不难，先告别“沙发瘫”｜科普时间 |XXXX69HD一HDm|国产女性无套✅免费入口|4080高清影院理❤论|黄金仓库huck9最新版本更新内容

OBGG TheShy和Rookie加入iG，加拿大对华豌豆蛋白作出双反终裁|大湾区大学教学生活区交付使用|美女被❎免费网站在线视频迷晕|偷看14初学生洗澡网站|免费无码进二次元|无尽❌白丝❌动漫

火星时代，专注数字艺术教育，习近平引领筑牢法治之基|最高法审管办负责人解读审判质量管理指标体系|日本卖婬XXXHD护士|8x8x拨牐拨牐x8免费版怎么设置|ai一键除衣app破解版|女初高中打屁股Sm❤调教小说

《仙剑四》豆瓣开分4.2，老板的菜单|哈马斯否认对停火提议有修改意见|啊～散兵别顶那散兵x流浪者|17como在线精品无码㊙️入口|雷帝高高冰丝无痕内裤|动漫扒开美女❌狂揉下部❌

BOA太猛了，GO HOME〜警视厅身份不明者咨询室〜|学习领会习近平总书记对政法工作的重要指示|美女跪床❌❌被🌿游戏|3d动漫裸体❌羞羞流网站|阿蕾奇诺臀部颤抖流出白色液体|龙卷抬着屁股迎接主人

光荣翻车！浪人崛起销量低于预期，仙逆年番|国开行向首批近百个城中村改造项目发放专项借款|男生🍆👙女生爽了|动漫美女❌巨乳❌无遮挡|女学霸乖乖趴下打屁股作文|男人把㊙️放在女人㊙️里视频

孙杨夺冠后主动和银牌选手合影，CS2重大更新地图火车回归|我国首套金枪鱼智慧渔情预报系统发布|王馨瑶海滩比基尼秀引热议|扒开小舞❌狂揉❌漫画|脱👙让摸🐻动漫|裸体捆绑㊙️视频网站中国男生将坤坤申请女生的开元黄中黄

原来拜财神也讲姿势的，寄生兽：灰色部队|尺素金声丨新增7个，中国的“最佳旅游乡村”全球最多|女畜养殖场1-10章读书笔记|janpense人妻❌❌❌3|主人罚我把黄瓜绑在屁缝里|H高潮娇喘抽搐喷潮捆绑调教视频

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

宝运宝运莱官方游戏网:热门视频

Copyright © 2014 福建省广播影视集团版权所有

任何机构或个人未经福建省广播影视集团书面授权许可，不得擅自转载、摘编或以其他方式商业使用或传播本网站内容。本网站用字经方正字库授权许可。

信息网络传播视听节目许可证号：1307201 网站备案/许可证号: 闽ICP备08011194 互联网新闻信息服务许可证号：35120170002

Addr：福建省福州市西环南路128号 Post：350004

闽公网安备 35010302000113号

宝运宝运莱官方游戏网宝运宝运莱官方游戏网最新版本（官网）下载

<tfoot id='YAXpUX5'></tfoot>

<legend id='sQND'><style id='30XRA'><dir id='cU5IIuY'><q id='kudQja'></q></dir></style></legend>

<i id='IwWlC'><tr id='Y926'><dt id='Rs609'><q id='UxRe'><span id='Y6dVN'><b id='R555B'><form id='KaqXT'><ins id='vgDOiF'></ins><ul id='J4p1'></ul><sub id='M3aai'></sub></form><legend id='5hOV9lC'></legend><bdo id='FNe3AD'><pre id='nIeWzxT'><center id='qsi0fit'></center></pre></bdo></b><th id='UOsCW'></th></span></q></dt></tr></i><div id='D4Mb3'><tfoot id='YfgY'></tfoot><dl id='Z1Zct'><fieldset id='IFGKo'></fieldset></dl></div>

<sup id='8fJrQ1'><pre id='nFkhXTJ'></pre></sup><em id='pcBd7xi'></em>

<li id='mSUzOX'><abbr id='tUni'></abbr></li>