猫眼电影
猫眼电影记者 彭儒 报道P6F3X2M7T9QJ8L1B4WZR
LinGn团队 投稿量子位 | 公众号 QbitAI
视频生成模型太贵太慢怎么办?
普林斯顿大学和Meta联合推出的新框架LinGen,以MATE线性复杂度块取代传统自注意力,将视频生成从像素数的平方复杂度压到线性复杂度,使单张GPU就能在分钟级长度下生成高质量视频,大幅提高了模型的可扩展性和生成效率。
实验结果表明,LinGen在视频质量上优于DiT(胜率达75.6%),并且最高可减少15×(11.5×)FLOPs(延迟)。此外,自动指标和人工评估均显示,LinGen-4B在视频质量上与最先进模型相当(分别以50.5%、52.1%、49.1%的胜率优于Gen-3、Luma Labs和Kling)。
方法:线性复杂度的MATE模块
LinGen维持Diffusion Transformer(DiT)中的其他结构不变,而将其计算瓶颈——平方复杂度的自注意力模块替换为线性复杂度的MATE模块,它由MA分支和TE分支组成。
其中,MA分支包含一个双向的Mamba2模块。
Mamba2作为State Space Model(SSM)的变体,善于处理超长的token序列,同时又对硬件非常友好,可以使用attention的各种硬件加速核,如xformers,FlashAttention等。但是Mamba系列模型在语言任务上的优秀表现难以直接迁移到大型视觉任务上,生成的高分辨率视频往往一致性很差、质量不高。
一些特殊的scan方法尝试解决这一问题,如Zigzag scan,Hilbert scan,但它们都要求对序列做复杂的顺序变换,而这个操作对硬件极其不友好。在处理高分辨率、长视频时,会带来显著的额外延迟。
针对于此,LinGen提出Rotary Major Scan(RMS),相邻层中四种scan方式交替切换。
以上图的方式为例,W,H和T分别在展开时有第一、第二和第三优先级,通过交换展开的优先级,就可以实现不同的scan方式。
相比于已有方法,该方法最大的好处是对硬件非常友好、可以通过简单的tensor reshaping实现,因此也几乎没有额外开销,同时还把scan后原相邻token的平均距离降到了和已有特殊scan方式相同的水平。
然而,所有这些特殊的scan方式仍然不足以完全解决Mamba的临近信息丢失问题,因为在模型的任意一层中,只会有一种scan方式被应用,如果不考虑跨层交流,大量临近信息在单层中依旧有损失。
针对于此,LinGen在TE分支中应用了TEmporal Swin Attention(TESA):它是一种特殊的3D window attention,窗口范围在不同层中会滑动,每一个窗口都很。⑶掖翱诖笮〔凰媸悠捣直媛屎统ざ龋3D tensor的大。┑谋浠浠。
这是因为TESA仅用来处理最临近的信息,这一固定的窗口大小也使得TESA实现了相对3D tensor中token数的线性复杂度。
作为额外的补充,LinGen还在MA分支中引入了review tokens。它被用以增强视频中极长程的一致性,例如在60秒视频的结尾复现视频前几秒消失的人。它把待处理video tensor的概览提前写入Mamba的hidden state memory中,为后续的视频处理提供帮助。
评估:远超基线,对标SOTA
从人类评测和模型自动评测两个角度将LinGen与已有的先进视频生成模型、以及DiT baseline进行比较。
无论是人类评测的结果,还是在VBench上的自动评测的结果,都显示LinGen与先进的商业模型Kling、Runway Gen-3生成的视频质量接近,并且远胜于OpenSora v1.2。
可以看到,在FLOPs方面,当生成17秒、34秒和68秒长度的512p视频时,LinGen-4B相对于DiT-4B分别实现了5×、8×和15×的加速;
在延迟方面,当在单个H100上生成512p和768p的17秒视频时,LinGen-4B相对于DiT-4B分别实现了2.0×和3.6×的加速;
当生成17秒、34秒和68秒长度的512p视频时,LinGen-4B相对于DiT-4B分别实现了2.0×、3.9×和11.5×的延迟加速。
这说明LinGen具有线性复杂度,可以在单卡上实现分钟级视频生成,速度远快于DiT。与相同大小的DiT相比,LinGen可实现推理速度11倍以上的提升。
另外,LinGen和相同大小、在相同数据集上以相同training recipe训练的DiT baseline相比,在视频质量和文字-视频一致性上取得全面领先。相比起DiT,LinGen可以更快地适应更长的token序列。
通常认为自注意力模块的线性替代是对完整自注意力的近似,虽然在速度上有显著优势,但在模型性能上往往略逊一筹,而LinGen打破了这个惯有的看法。
在整个预训练过程中,模型从低分辨率图像生成开始,学习低分辨率视频生成,再不断增加所生成视频的分辨率和长度,所处理的token数增长了上千倍。
而在从少token数的任务迁移到多token数的任务时,LinGen的适应性远强于DiT(a图中是从256x256分辨率视频生成迁移到512x512分辨率视频生成任务时的loss curve),这可能是受益于Mamba对于长序列的高适应性,这一特征已经在语言任务上被观察到。
为了进一步验证这里推理,选取这一预训练阶段的早期checkpoint进行比较,发现LinGen比DiT的win rate优势变得更加显著。这暗示了虽然LinGen在任务迁移的早期能大幅领先DiT,但是这种优势随着预训练的进行,在不断减小。
尽管如此,在训练资源有限的情况下,LinGen在预训练的极长一段时间内仍旧能对DiT保持优势。
项目主页:https://lineargen.github.io/论文链接:https://arxiv.org/abs/2412.09856项目代码:https://github.com/jha-lab/LinGen
??时事1:silklabo女性向正片入口
??06月22日,政策已在路上 个体经济迎风口,
在此期间,少妇对小石昊极好,当成了亲生的一般,最后干脆将他带到自己的住处,连同石毅一起照料。
,曼珠沙华强插爆乳自慰软。??06月22日,中国正能量|三代林场人的精神史诗,
“你在哪一方面突破了极境,如实写好就可以了。”一位中年人说道。
,男生露jiji㊙️视频撒尿,男男GaY打屁股✅免费网站,男人把小伸进女人的。??时事2:太宰脱中也内裤把中也淦哭
??06月22日,职业伤害保障的未来走向,
在全县重点工作会议上,我们提出了以完善绩效考核,来推动全县新一轮大发展的新思路、新要求、新目标。为进一步推进全县重点工作的落实,全面做好当前及今后一个时期的城市建设工作,经研究我们决定召开这次高规格、大规模、专题性的工作会议,就是要组织和动员全县上下进一步解放思想,开拓创新,扎实苦干,克难攻坚,全力推进嘉荫城市建设工作,为“打造北方边陲名城、建设和谐嘉荫”提供强大动力和有力支撑。刚才,会议传达了省住房和城乡建设工作会议精神和全省小城镇建设现场工作会议精神,宣读了《关于进一步规范城市基本建设项目审批及竣工验收事项和明确项目建设参建各方主体责任的意见》,城市建设相关部门及社区代表做了表态发言。希望大家按照会议要求,结合自身实际,认真抓好贯彻落实。下面,我就如何抓好当前及今后一个时期的城市建设工作,讲几点意见。
,小泽玛利亚无码喷浆,骚0校草把体育生撩得直不起腰,5566tv夜月直播。??06月22日,全国人大代表其德:把乡亲们的心声带到北京,
县委组织部要派人跟班,确保讲和学的质量。党:拖喙夭棵乓浜虾檬诳巫业谋缚,力争每堂课都讲得精彩、吸引人,另一方面也要对学员严格要求,严格管理,坚持严格的考勤管理制度。县委组织部和党校要为学员创造良好的学习条件,保证培训效果。
,揉⋯啊⋯嗯~出水了第一集,老婆你好骚~叫出来h,小黄片免费观看。??时事3:少萝裸体🔞🔞🔞网站
??06月22日,中法领导人巴黎会晤 中法学生:期待更多文化交流机会,
穿山甲怒吼,这个体形很小的敌人竟这般刁钻,居然藏了这样一手,在这最为关键的时刻爆发,让它痛而恨。
,欧美黑人性猛交❌❌❌❌,虞书欣裸被❌视频网站,JUX-698藤浦惠在线播放。??06月22日,携程副总裁王韦:旅游已成生活必需品 旅游业展现强大韧性,
“真可爱。”两个如同精灵般的小姑娘,早已跟小不点站在了一起,喜欢的不得了,揉捏他的小脸。
,国产精品国产自产拍高清AV,3d陆雪琪被黄漫网站,3D原神被❌AV免费观看。??时事4:男同Gay做受Gay片
??06月22日,商务部:2023年全年服务进出口总额同比增长10%,
缩小后,它只有巴掌大,通体金黄,炽盛夺目,无需多说,这定然是一件稀世珍宝,价值难以衡量。
,火影小樱大胸被❌爆乳,女子撒尿全过程㊙️免费网站,嗯脱我内衣吸我奶小内裤作文。??06月22日,东西问·名家坊丨王炳华:享誉学界的新中国新疆考古拓荒人,
他也许还做不了什么,但是却想知道他们的音讯,饱含着感情、对亲人的思念,见不到,哪怕能得到一点消息,也算是一种慰藉。
,国产精品无码欧美日韩AV红粉,3D小舞裸体抖乳,国产➕黄➕无码➕瑜伽pp。责编:黄志光
审核:赵旭日
责编:陈威翰