
全球视频大模子榜单,国产模子杀进前 2。
就在最近,巨擘第三方机构 Artificial Analysis 更新了名次榜——
来自昆仑天工的 SkyReels-V4,班师干到了文转视频(含音频)全球榜第 2,位列 Veo 3.1、Sora 2 之前。

历史榜(包括整个模子的那种)也冲到第 4 位,稳居全球第一梯队:

要知谈 Artificial Analysis 但是目下公认的" AI 边界的 Gartner ",其整个测试均在里面沉静进行,不依赖各家实验室自行剖析的数据,是以上述得益背后的含金量显而易见。
况兼更要津的是,这不只单是一次"纯文生视频"的见效。
当大多数模子还在卷文生视频时,SkyReels-V4 一经玩起了组合技:
「图像 A 的主体」+「视频 B 的当作」+「音频 C 的布景音」= 一条齐全视频。
文本、图像、视频片断、掩码、音频参考全部可搀杂输入,主打一个全模态参考、一体化生成。
好好好,一个月前才刚开源 SkyReels-V3,此次 V4 班师带着全球 TOP2 的得益单登场。
只可说这公司节律够快,得益够硬。
全球第 2,现场上演一个
不外照旧那句老话,光说不练假把式,咱这不得召唤 SkyReels-V4 给大家上演一个(doge)。
锵锵锵锵上场,先给大家来个自我先容:
(我是)全球首个同期复古多模态输入、齐集音视频生成、合股生成 / 诞生 / 编著任务的视频基础模子。
没记着没联系,四个手段 show 这就给不雅众姥爷献上:
多模态精确结果
先来点有道理的,用图像的主体 + 视频的当作和音乐生成新视频。
把 @video_1 中左侧身穿白上衣配牛仔裤跳舞的女性替换为 @image_1 里的狗, 并将 @video_1 中右侧身穿全套西装跳舞的男性替换为 @image_2 里的猫,确保当作保握一致。
SkyReels-V4 看一眼两张参考图:把狗和猫的毛色、身形弥散扒下来,但遗弃了两张图的布景。

再看一眼原视频(来自昆汀电影《低俗演义》片断):噢~俩东谈主在跳舞,女生在左边,男生在右边,他们原来是这样跳的。

然后班师开干,东谈主物主体无缝切换了,狗替女生,猫替男生;但舞台、不雅众、音乐、当作可都没变。
就连这生成的视频中,狗狗弯腰的当作变化时机都和原版女生当作变化的时机对得上,大约在 10s 傍边,这波当作和音乐但是真 · 卡点了~
这个案例的背后,体现的是 SkyReels-V4 对多模态参考的精确结果。
最初,咱不错看出来,模子复古文本、图像、视频片断等多种输入组合。
况兼推行上掩码和音频它也能参考,参考结束就能终了:
基于参考图像的作风迁徙与主体保留:就拿上头参考的狗和猫图像来说,从毛色、身形到身形大小的细节,都被精确保留并迁徙到了视频东谈主物身上;
音频驱动的当作生成:参考视频的布景音乐,模子能让两者的舞步踩准节拍,以至连当作变化都精确卡点;
多参考会通创作:这个替换案例的通盘提醒自己即是典型的多模态参考,有多个图像的主体形象、视频的跳舞当作和音乐节拍,好几种素材都无痛融在了一齐。
专科级视频诞生
放完组合技之后,再来个更高档的。
SkyReels-V4 还复古对已有内容进行专科级诞生——
在不诬害举座结构的前提下,替换视频主体、去除水印、抹掉字幕等,简直都是手拿把掐。
区域智能诞生:能精确替换视频中的主体、修改属性(如服装心情、物体时势)、更换布景;
元素智能移除:能自动识别并去除水印、字幕、Logo,保握布景内容天然连贯;
参考提醒诞生:可基于参考图像的作风一致性诞生,确保编著前后视觉合股。
就拿去字幕这事儿来说吧,真到了要用的时候那可的确急得东谈主团团转,时时酬酢媒体全扒一遍也莫得委果巧用的。

但交给 SkyReels-V4,它还真行。
你瞅,原视频是一个 10s 傍边、含大都英翰墨幕的小片断:
但魔法这样一施,字幕这就没!了!通盘画面立马变得六根清净。
该说不说,SkyReels-V4 的确一位后期小高东谈主,它能在保留大部分原视频的情况下,终了局部精确篡改。
全维度视频编著
天然了,既然专科后期的活都颖异,那多样平日编著岂不是轻温暖松。
一次生成不兴盛,SkyReels-V4 也复古随性改、解放改。
插一嘴,天然都是改,但"专科级视频诞生"和"全维度视频编著"侧重的点还不相同。
用一个例子来永别即是,假定原视频为一个女生在草地上走路,"专科级视频诞生"追求的是极致的真——排斥路东谈主、改穿戴心情等,改完之后,她照旧走在那片草地上,通盘视频结构不变;
而"全维度视频编著"追求的是创造的解放——比如让草地短暂变为赛博一又克都市,以至让镜头从定点拍摄变为电影级的推拉摇移,通盘视频想要抒发的田地内容可能都变了。
针对后者当中的局部编著,先给 SkyReels-V4 上个开胃小菜,给视频造谣增加素材。
一张帽子图 + 一段女团舞视频,要求模子给 c 位 dancer 戴上帽子。
将 @image_1 中的蓝色罗纹真挚无檐帽添加到 @video_1 中中央舞者的头上。
提神看细节,帽子的心情和 logo 需要记着,底下要考。

5s 训练室视频也多看几眼:
然后,SkyReels-V4 交卷了。拿着我的放大镜仔细瞅,没意想还真没挑出舛讹。
帽子和原图一致,况兼也确乎按要求戴在了 c 位女生头上,通盘视频简直即是她戴上帽子再行又跳了一遍。
光增加元素奈何够,再来个反向操作:班师删除视频中的东谈主物或元素。
原视频是几个小伙伴一齐夜深探险:
收尾镜头一瞥,"隐藏的他们"原地上演,惊悚感扑面而来:
移除 @video_1 中最右边那位手握手电筒的浅金色短发年青须眉,以及那位身穿深紫色上衣、留着金色长鬈发的女子。
敲黑板,SkyReels-V4 不仅复古上述局部编著,况兼还能一键替换视频作风(全局编著)、改变运镜(相机畅通结果)等等。
高品性音频生成
来来来,还没完,接下来是演技大赏。
先挑三个演员(从左到右递次为上演者 A、B、C):

再给个脚本(简化版):
A 办法中显现着玩味和谛视,用沉静且略带寻衅的口吻说:"这样多年来,这十亿明明在身边却花不了,是不是很可惜?"
B 蓝本正闭目千里念念,听到话语后缓缓睁眼看向 A;
C 蓦地出目下画面中,他震怒地弯下腰,发出一声重重地拍击桌面的撞击声;
镜头再次转向 B,他形状弥留地抬起手指上前线,口吻仓卒而担忧地低吼谈 :"志杰,你说什么呢!"
短剧拍完咱一看,这心情剖析力够专科啊,你就说演技和台词功底夯不夯吧。
除了看演技,咱也往深处扒一扒细节。
最初,能演得这样好,详情离不开 AI 优秀的提醒罢免智力。
除此以外,最让东谈主不测的即是这音频生成质料了,台词不糊嘴,还充分剖析出了玩味和谛视的东谈主物心情,敲击桌子的声息真实到能听出是木质的桌面,仔细听还有环境覆信。
这是因为模子内置了多讲话语音合成、音效生成、布景音乐适配等一系列智力,复古情感语音、歌词同步演唱这些高阶玩法。
举座音频质料在信号明晰度、音色真实度、动态范围这些硬场所上,确乎作念到了不输专科音频生成用具的水准。
上演看结束,想必你也对 SkyReels-V4 的实力有了近距离感受。
咱们看下来,SkyReels-V4 的中枢上风简直不错用两个词来详细:全面、万能。
全面体目下多模态上,包括但不限于图像、音频、文本,幸运5app它基本都能消化收受,给出的收尾也都稳当预期。
万能则体目下这种一体化创作智力上,从灵谢意励、脚本盘算推算,到音视频生成、后期裁剪、音效配乐,以至多讲话配音和字幕同步,通盘经过简直都能在归并个平台上完成,全部 All in one。
而基于"多模态输入 + 全功能集成",不论是搞创意照旧回到推行欺诈,通盘欺诈联想空间一下子就被掀开了。
从以往履行来看,今后用 SkyReels-V4 快速生成产物宣传视频、进犯短剧制作、视效大片生成,以至制作教养课件或多讲话科普内容,都变得可行且门槛更低了。
那么问题来了,SkyReels-V4 到底奈何作念到的?
谜底,弥散藏在论文里了。

双流架构,一体生成
{jz:field.toptypename/}至意说,天然当下 AI 视频生成看起来玩法好多,但要委果作念到好用实属不易。
痛点呢绕不开三个:
画面没声息:后期配乐对口型耗时繁重还容易翻车;
输入形状单一且编著不活泼:大多模子只认翰墨,想塞参考图、丢参考视频?不复古;想给视频改个布景、给东谈主物换件穿戴?只可再重来一遍;
画质和速率难兼得:要高清就得等,要通晓就只可隐忍马赛克画质。

而 SkyReels-V4 即是冲着这三刀下去的。

它接收双流 MMDiT 架构,把音、视频从底层就焊在了一齐。
视频和音频两个分支并行跑,分享归并个多模态大讲话模子(MLLM)编码器。
画面和声息在模子里面就能完成齐集生成,不再依赖后期强迫的模式。
团队还在每个 Transformer 模块里都加了双向交叉提神力——
视频看音频提拔节律,音频看视频匹配细节。
再联结 RoPE(旋转位置编码)频率缩放,哪怕视频与音频的 Token 数目级完全不同,也能在微秒级的时代轴上精确对皆。
嘴唇动几下、脚步声踩在哪一帧,都能严丝合缝,画面一出,声息就同步到位。
一个月前的上一代 V3 还要手动提供音频,目下 V4 的音频分支一经不错班师生成对白、环境音和配乐,并复古音频参考提醒。
(这迭代速率真到手动给个大拇指)
输入和编著也不再是死穴。
它搞了套通谈拼接 + 时序拼接的双维玩法,把翰墨、图片、视频、遮罩、音频参考弥散吃进去。

通谈维度上,把带噪视频、条目帧、遮罩叠在一齐,不管文生视频、图生视频、视频蔓延照旧局部编著,本体上都酿成"带掩码的诞生类"任务。
想改哪,打个遮罩就改哪,不影响别处。
时序维度上,参考图或视频帧班师拼进生成序列前端,模子像翻参考册相同学里面的作风、当作、东谈主物特征。
加上多模态大讲话模子的提醒奴婢智力,你以至不错说:
"让参考图 A 里这个女孩,在参考视频 B 的海边,跳参考视频 C 的舞,配参考 D 音频的轻音乐"。
SkyReels-V4 是真能听懂,也真能一次生成出来。

画质和速率极限二选一的问题,它也给出了工程解法。
接收先快速出低清全序列,再单独拎几个高清要津帧,然后用有益的超分和插值模子补细节、优化过渡的战术。
老师上走的是"逐级爬坡"的道路,从低分辨率到高分辨率,从单模态到音视频齐集,一步步举高难度。
音频分支单独老师后再和视频分支合练,终末两阶段精修收尾。
每一步踩实了,生成的画面才稳、当作才顺、音视频才真的长在一齐。
此外,再联结视频寥落提神力(VSA)机制,把长序列提神力计较压缩到原来的约 1/3。
计较量降下来,恶果提上去,最终画面稳在1080p、32 帧、15 秒的电影级水准。
从文生视频到音视频同步生成,再到多模态输入、全经过编著,SkyReels-V4 这一步,算是把 AI 视频生成从单点用具推到了全经过的一体化创作。

天然这事还没完。团队示意背面还有更长视频、更高分辨率、4K 以至 8K 的费事要啃;
跨讲话创作、复杂场景的音视频协同要优化;另外还会赓续降推理资本,让这套用具落到更多行业、更多场景里。
单看昆仑天工这"月更"速率,揣度咱不久后就又能用上了~
昆仑天工真跟多模态死磕到底了
说真话,"多模态"三个字,目下谁都在喊,但委果从底层架构去作念原生合股的玩家并不算多。
而在这个赛谈中,昆仑天工照旧相比"执拗"的一个,从天工系列大模子开动,就坚握自研多模态原生对皆。
合股编码、合股对皆逻辑、合股老师范式……这些听着抽象,但一朝走上这条路,基本即是烧时代、烧算力、烧耐性。
天然了,目下看上去公正也相等班师——
当 SkyReels 作念到 V4 时,音视频的协同是结构级的,而不是外挂式的。
从产物节律上看,它的旅途并不越过,一步一个脚印。
早期从文生图、图生图打底,夯实视觉生成与提醒对皆智力;
随后推出 SkyReels 系列,把智力推向时代维度,作念文生视频、图生视频;
再到自研音乐模子 Mureka 系列,补皆音频生成链路,让声息崇拜参增多模态骨干框架。
上个月的 SkyReels-V3 阶段强化参考驱动,复古图像、视频、音频多模态条目输入,考证跨模态对皆褂讪性;
到了 V4,就把音视频同步生成、编著与 inpainting 合股进归并架构,音频从外挂智力酿成了原陌生支。
这一步步看似功能推广,实则是从 token 对皆到架构分享、再到老师范式合股的握续收束,逐步迫临原生多模态一体化。

图片由 AI 生成
另外值得属意的是,昆仑天工不仅仅闷头作念模子,还在用产物矩阵把多模态智力委果落地到创作场景里。
有了自研工夫打底之后,他们会快速推露面向垂直场景的产物和平台,再联结昆仑万维在游戏出海这块积存的全球化运营训戒,这些 AI 智力在国外的起量速率杰出快。
产物自己是各司其职,但到了其旗下 DramaWave 和 FreeReels 这种短剧平台,就酿成了多模态智力的综合磨砺场。
创作家剪片子,视频从 SkyReels 来,配乐从 Mureka 调,字幕和脚本靠文本模子生成,更无须说目下还能音画同步生成……一个作品里就能把多模态智力全用上。
用户用结束,数据追思了,模子再迭代,这套正向轮回一朝跑起来,比单纯堆参数要塌实得多。

天然,这种嘱咐也不温暖。
重金钱自研加上高频迭代,自己即是高风险模式,尤其是当分辨率、时长赓续往上卷时,算力资本会再度成为压力点。
昆仑天工曩昔在更长序列、更高分辨率、跨讲话音视频协同上能走多远,还要看后续剖析。
但至少从现阶段来说,在多模态视频生成这条线上,他们一经成了存在感很强的竞争者。
你看昆仑天工目下的更新频率和智力跃升就能发现,他们这股"死磕"的干劲,还在赓续……
SkyReels-V4 工夫剖析:
https://arxiv.org/abs/2602.21818
一键三连「点赞」「转发」「贯注心」
接待在辩驳区留住你的宗旨!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见

备案号: