宝运宝运莱官方游戏网

搜索 猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

20个样本,搞定多模态思维链!UCSC重磅开源:边画框,边思考

2025-06-22 05:58:09
来源:

猫眼电影

作者:

郑茯苓

手机查看

  猫眼电影记者 赵楠 报道P6F3X2M7T9QJ8L1B4WZR

新智元报道

编辑:LRST

【新智元导读】GRIT能让多模态大语言模型(MLLM)通过生成自然语言和图像框坐标结合的推理链进行「图像思维」,仅需20个训练样本即可实现优越性能!

现有开源多模态推理模型(Multimodal Reasoning Model)生成的推理链几乎都是纯自然语言,缺少对图像信息的显式引用与整合。

让多模态大语言模型(MLLM)既能条理清晰的思考,又能真正将推理过程「落到画面」上,在实现上仍然存在两个难点:

1. 全是自然语言的思考内容看似很长,其内容有可能脱离图像信息,不一定能真正「看图说话」;

2. 教会模型新的看图思考方式动辄要成千上万条有标注的数据,门槛极高。

针对此问题,加州大学圣克鲁斯分校的研究人员提出了GRIT (Grounded Reasoning with Images & Texts)模型,具有高关联和轻量级的特性。

论文地址:https://arxiv.org/abs/2505.15879

代码链接:https://github.com/eric-ai-lab/GRIT

在线Demo:https://grounded-reasoning.github.io/

· 高关联

模型可以在思考链里随时插入框坐标,实现真正的 「图像思维」(Thinking with Images)。

GRIT采用的Grounded Reasoning范式,一次模型推理,[x1,y1,x2,y2]框直接织进思考链,实现「思路和证据同步」,所想即所见。

· 轻量级

其训练方法GRPO-GR具备三重奖励(答案、格式、框),实现零人工标注,仅用20张图像与问答的训练数据就能教会模型画框+推理。

GRIT二板斧

Grounded Reasoning

Grounded Reasoning范式建立在多模态大语言模型已具备的两项原生能力——视觉定位 (grounding) 与语言推理 (reasoning)——之上,目标是把二者深度融合:

让模型在「想」(生成推理链)的同时「指」(输出精准框坐标),从而让「慢思考」不再停留在纯自然语言,而是真正做到「所见即所想,所想即所指」。

给模型一张图和问题 ,会一次性返回两段式结果(c, a):

推理链c—以 开头,模型边写自然语言,边在需要时插入[x1,y1,x2,y2]形式的框坐标,之后 引导的重思考将进一步整合框坐标对应的图像信息;

最终答案a—在 标签后给出答案。

在c的生成过程中,模型每一步都可以自由决定是继续写文字还是生成一个框坐标。

输出框坐标后,模型不会再回读对应像素,而是继续token输出,要求模型理解并利用框坐标信息,融入后续推理,就像模型给自己出了一道Referring Expression Generation(REC)任务一样。

Grounded Reasoning范式通过只传递数字坐标,避免了裁剪图像或多轮回输信息的计算开销,流程轻量。

在此范式之下模型的输出里的框坐标可以直接画出,成为其推理的「看图」依据,读者既能读到它的思考,也能顺着坐标直接验证图中证据。

GRPO-GR训练

为了让模型在极小的数据量下就学会画框来辅助推理,GRIT 采用了专门的强化学习方法GRPO-GR

它在GRPO的基础上,引入三个奖励信号来直接驱动策略 π_θ 生成符合grounded reasoning范式的序列。

格式奖励 (r_format)信号检查模型输出的整体结构是否合规:

是否正确使用 、 等特殊标记;

插入的边界框[x1,y1,x2,y2]语法是否有效、坐标是否在合法区间内。 通过惩罚任何格式错误,模型很快学会在文字与坐标之间灵活、规范地切换。

计数奖励 (r_count):对于要求回答某物体数量的问题,计数奖励的信号鼓励模型的输出要数量上符合答案,最好一个框对应一个相关物体。

r_count对比推理链里框的个数与真实答案中的数量:二者一致即得分,否则扣分;可以让模型在标记目标时兼顾完整性,避免多框、漏框或随意画框。

答案正确性奖励 (r_ans):最终答案是否答对,由GPT-4o进行语义评估并结合BLEU相似度给分。 这样的「老师」对自然语言表述具有强鲁棒性,避免模型钻格式空子,也进一步降低了人工评判成本。

得益于这三重奖励的协同作用,GRPO-GR完全不依赖显式的推理链标注或框标签——只需提供题目、图像和最终答案。

在实践中,即便训练集只有20条数据,模型依旧能够稳定学到「边框边想」的行为,并在多项基准测试上取得亮眼表现。

实验结果:20 条样本即可「看得准、想得对」

准确性评测

Qwen-2.5-VL-3B和InternVL-3-2B作为基座模型,只用来自VSR+TallyQA的共20张图-问题-答案和GRIT方法训练。

在6个测试集中,用GRIT方法,模型推理结果的准确性(ACC)相对于没有经过训练的基线明显提高。而基线模型表现出割裂的定位与推理能力,他们无法兼顾在定位目标物体来画框上比较准确的同时在回答问题上更加正确。

即使GRPO-GR训练中没有包含任何对画框的位置的训练信号,测试结果现实框的准确性(GroundingIOU, i.e.GIoU)也在用GRIT方法后得到了提升。

推理与画框相互关联

研究人员提出了VL Reasoning Cross-Modal Correlation来衡量推理链中的文字与框区域的对齐程度。

结果显示,用GRIT方法的模型输出的内容更好的融合了推理与画框:框住什么,就谈什么。

另外,在用GRIT方法的模型中,把推理链里的框坐标全部抹掉,再让模型继续生成。

结果显示,后续生成的推理内容对图像的注意力会大幅下降,说明画出的框能进一步促进推理。

数据规模效应

研究人员进一步将训练数据扩大,20到500,再增长到7000。

结果表明,随着数据规模的增加,模型准确率虽可以进一步提高,但跨领域泛化依旧是难点。即使同类训练数据增加,在与训练域差异较大的测试集上模型提升依然有限,提示未来需要更丰富、更异质的训练数据,而不只是「更多同类题」。

即便是极小样本设置,GRIT也能让开源MLLM同时获得「画得准、讲得清」的能力,并且画框和推理在模型输出中相辅相成;进一步放大数据规模,则带来渐进式收益,并揭示了跨域推理的新挑战。

参考资料:

https://arxiv.org/abs/2505.15879

??时事1:Boys GAY spank打屁股调教网站

??06月22日,广西做好“土特产”文章 促“甜蜜事业”高质量发展,

  同学们,今天你们就要毕业了,就像雏鹰即将展翅腾飞!我们所有的老师都为你感到自豪,因为你长大了!但你们在任何时候都不要忘记,是谁带着你学会了飞翔?心存感恩,常怀敬意,你终将在老师的教诲中悄悄地成长!

,16美女隐私㊙️照片。

??06月22日,戏剧巡游《朋克星球 2060》亮相桂林艺术节,

  二猛很委屈,这不是事实吗,又没叮嘱不让说,族长饮了狻猊宝血后,感觉体内暗疾有所缓和,故此潜心修行去了。

,亚洲AV㊙️片一区二区三区,大妞直播全婐app免费下载,雏田被扒开腿做❌同人网站。

??时事2:尼尔机械纪元2b怀孕生孩子

??06月22日,这个夏天 谁能问鼎德劳内杯?,

  尊敬的各位领导、敬爱的老师、亲爱的同学们:

,精品国产乱码久久久久久动漫,散兵被狂揉下部羞羞动,妓女同❌裸乳❌动漫。

??06月22日,产学研协同 浙江多措并举推进历史经典产业高质量发展,

  她实在气坏了,这可恨的孩子五行中缺德,竟敢这样偷袭她,这都是什么乱七八糟的战法?摔跤也就罢了,还咬耳朵!

?第一百六十五章 猴儿酒,王者涩涩同人❌18禁漫画,最新封神❤️海角,面具公社网页。

??时事3:freeHD18麻豆

??06月22日,(乡村行·看振兴)山西襄垣:育苗经济焕发“棚”勃生机,

  今天,举行我镇第八届村两委换届选举后主持日常工作村干、计生专干的培训班,其意有三:一是两委换届后工作头绪多,日常工作量大,为了确保培训内容、质量,需要一段时间精心准备;二是少数村换届选举后有一个从波动到稳定的过程,需要适当的时间来检测;三是“双十”寄希望于全体村主持日常工作的村干、计生专干、在本届任期内要十分之意为民服务,十分之力勤勉工作,为第八届村两委的各项工作开好局、起了步而努力工作,奋力推进镇新农村建设和小康社会进程。第八届村党组织、村民委员会换届选举工作历时两个月,在座的同志们又经历了一次党组织的考验和选民的选择,这是基层民主政治制度在各村又一次生动实践,除因任职年龄等因素主动退出来一些同志外,大部分同志都为连选连任,部分同志是新当选的新人。无论是连选连任还是新当。际堑衬谕庋∶竦南质笛≡,都是必然和偶然的结合,希望同志们尊重必然,珍惜偶然,以今天的培训班为新起点、新征程、新境界。接过第七届村两委的“接力棒”,肩负起建设“四个”(生态、人文、和谐、魅力)和创新村级社会管理的责任,探索符合村情的“一村一品”、“多元发展”的新格局,开创出谋发展、求和谐、创特色、增收入的新路子,挡担起走在全县发展前列的责任和使命,承载起全镇各级党组织、广大和 万人民的希望和重托,为完成“”规划宏伟目标,描绘村级平台壮美画卷,为建设一个“生态环境好、经济发展快、幸福指数高的十一个美丽乡村而团结奋斗!

,原神胡桃18❌黄网站,美女脱了内裤张开腿让男人桶网站,上课突然硬了女同桌帮我自慰。

??06月22日,广东中欧班列(德国方向)今年首列发运李强会见新加坡总统尚达曼,

  皮猴四顾,小声道:“就是这里,我听林虎叔他们说,它的巢穴筑在石林深处的崖壁上。”

,玖辛奈裸体被羞羞网站,台湾男Gay XXX Tube1,温迪脚法ちゃんがをかいます。

??时事4:女同被❌到爽🔞痉挛

??06月22日,海南首条往返英国货运航线开通,

  “呀,这是村中的祭灵,被击杀了。”一个孩子惊道。

,女趴下脱裙子撅屁股打pp,嫩草影院入口❤懂你的❤️,涩里番㊙️18禁本子。

??06月22日,“十四冬”单板滑雪平行大回转青年组女子赛开赛,

  拳头大的金色毛球,大眼珠子叽里咕噜的转动,抱起五色鸟蛋,侧身对着小不点,那意思是,它是我的,不准丢掉。

,女同❌裸乳❌❌,nylon连裤袜自慰系列,羞羞动漫网站入口。

责编:马翠

审核:迈耶-沙利特

责编:赵思衡

相关推荐 换一换
宝运宝运莱官方游戏网宝运宝运莱官方游戏网最新版本(官网)下载