麻豆 人妖
AIxiv专栏是机器之心发布学术、期间内容的栏目。以前数年,机器之心AIxiv专栏领受报说念了2000多篇内容,遮掩全球各大高校与企业的顶级实验室,有用促进了学术交流与传播。要是您有优秀的服务念念要共享,迎接投稿或者研究报说念。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
2 月 18 日,昆仑万维开源中国首个面向 AI 短剧创作的视频生成模子 SkyReels-V1、中国首个 SOTA 级别基于视频基座模子的脸色动作可控算法 SkyReels-A1。
开源地址:
SkyReels-V1:https://github.com/SkyworkAI/SkyReels-V1
SkyReels-A1:https://github.com/SkyworkAI/SkyReels-A1
期间申报:https://skyworkai.github.io/skyreels-a1.github.io/report.pdfSkyReels 官方地址:skyreels.ai
针对刻下全球 AI 视频生成模子和产物不开源、用不到、用度高、不好用等痛点,昆仑万维 SkyReels 一次性开源 SkyReels-V1 和 SkyReels-A1 两个 SOTA 级别的模子和算法,将面向 AI 短剧创作的期间效果回馈开源社区和 AIGC 用户。而这仅仅咱们在 AI 视频场所开源说念路上的伊始,翌日将持续开源更多面向 AI 短剧的优秀权术效果。
AI 视频和短剧的坐褥款式仍是获取了阛阓的考证,领有巨大的交易念念象空间。2024 年 8 月上线的 AI 短剧创作平台 SkyReels 的成见是让用户以更低资试验验线上拍剧,诈欺 AI 能力处理传统短剧内容供给的清贫。SkyReels 约略助力处理传统短剧制作经由中濒临的挑战,如线下拍剧经由复杂,包括脚本创作、选演员、场景背景、分镜创作、拍摄、后期处理等措施,花消东说念主力多,制作资本贵,周期长等。
SkyReels-V1:Human-Centric Video Foundation Model
中国首个面向 AI 短剧创作的开源视频生成模子
AI 短剧极其需要同期对大脑和肢体完成精细的收尾功能,这就需要同期把口型生成、脸色生成、肢体生成等多个生成组合在通盘。刻下专家体验比较好的是口型生成,因为口型生成其实和音频信息之间具备更好的映射关系,因此它的精确度不错罢了的更好,用户体验会更好。
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
而东说念主物饰演的细节和能力更是 AI 短剧生收效果优质与否的中枢所在,为了大幅升迁脸色生成、肢体生成的可控饰演效果,SkyReels-V1 不仅针对饰演细节作念了打标,还对神气、场景、饰演诉求等进行处理,诈欺千万级别、高质地的好莱坞级别数据进行锤真金不怕火微调。
团队针对东说念主物微脸色、东说念主物饰演细节、场景描画、光影、画面构图等作念了更精细的期间升级,不错看到刻下由 SkyReels 生成的视频中的东说念主物仍是存在更精确的饰演细节,初步具备影帝级东说念主物饰演实力。
SkyReels-V1 可罢了影视级东说念主物微脸色饰演生成,复古 33 种精雅东说念主物脸色与 400 + 种当然动作组合,高度复原真情面感抒发。正如以下视频所示,SkyReels-V1 复古生成大笑、咆哮、惊诧、哽噎等微脸色,展现出东说念主物神气丰沛的饰演细节。
即使有大幅度肢体动作,举例底下视频中,正在大口食用汉堡包的男士,SkyReels-V1 生成的微脸色也圆善贴合东说念主物肢体饰演。
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
同期,SkyReels-V1 为 AI 视频生成带来了电影级光影好意思学,基于好莱坞级的高质地影视数据锤真金不怕火,刻下 SkyReels 生成的每一帧画面,在构图、演员站位、相机角度等皆具备电影级的质感。
不管是单东说念主镜头饰演细节,如故多东说念主构图,刻下已具备精确的脸色收尾和高质感画面。鄙人面视频中,SkyReels-V1 生成的「晦气」片断,具有好莱坞大片即视感,场景遒劲且有颤动感,其中聚焦到单个东说念主物的脸部脸色描摹也可圈可点,以极致密的进度展示出了推己及人的懦弱感。
麻豆 人妖
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
在一场两个东说念主的「广告期间」场景中,构图与光影的圆善和会,使总计画面既充满了虚幻般的放置氛围,又具备了热烈的视觉冲击力。灵动的脸色、飘动的发丝、女子热潮的衣袖、一说念说念顺心的光带,两东说念主之间的放置爱情故事跃然咫尺。
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
更伏击的是,SkyReels-V1 不仅复古文生视频、还能复古图生视频,是开源视频生成模子中参数最大的复古图生视频的模子,在同瓜诀别率下万般式标罢了开源 SOTA。
图 1. SkyReels-V1 文生视频成见对比(着手:昆仑万维 SkyReels)
约略罢了这么的 SOTA 级别,不仅依赖于昆仑万维 SkyReels 团队基于自研的高质地数据清洗和东说念主工标注管线,构建了千万级的高质地电影 & 电视剧 & 记载片数据。更依托团队自研「Human-Centric」的视频意会多模态大模子,大幅升迁视频中东说念主物相关的意会能力,尤其是自研东说念主物智能领会系统。
要而言之,收货于塌实的数据服务和先进的东说念主物智能领会系统,SkyReels-V1 不错罢了:
影视化脸色识别体系:11 种针对影视戏剧中的东说念主物脸色意会,如不屑、不耐性、无助、厌恶等脸色的意会;东说念主物空间位置感知:基于东说念主体三维重建期间,罢了对视频中多东说念主的空间相对关系意会,助力模子生成影视级东说念主物站位;活动意图意会:构建特出 400 种活动语义单位,罢了对东说念主物活动的精确意会;饰演场景意会:罢了东说念主物 - 服装 - 场景 - 剧情的关联分析。
SkyReels-V1 不仅是全球少许数开源的视频生成模子,如故围绕东说念主物饰演、开源视频生成模子中性能最强的。
在自研推理优化框架「SkyReels-Infer」的加抓下,大幅升迁推理服从,罢了 544p 诀别率,推理基于单台 4090 只需 80s,还复古散播式多卡并行,复古 Context Parallel,CFG Parallel,和 VAE Parallel。此外,取舍 fp8 quantization 以及 parameter-level offload,自大低显存用户级显卡运行需求;复古 flash attention、SageAttention,模子编译优化等,进一步优化蔓延;基于开源 diffuser 库,升迁易用性。
正如下图 2 所示,在同等 RTX4090 资源情况下对比(4卡),SkyReels-Infer 版块比 HunyuanVideo 官方版块端到端蔓延减少 58.3%(293.3s vs 464.3s);SkyReels-Infer 版块具备更鲁棒的部署政策,复古用户级别显卡 1 卡 - 8 卡的推理部署。
图 2. 推理生成 544p 视频,使用磋议卡数的 RTX 4090,SkyReels-Infer 版块端到端蔓延优于 HunyuanVideo 官方 (xdit) 58.3%
在同等 A800 资源情况下对比,SkyReels-Infer 版块比 HunyuanVideo 官方版块端到端蔓延减少 14.7%~28.2%,SkyReels-Infer 版块具备更鲁棒的多卡部署政策。
图 3. 推理生成 544p 视频,SkyReels-Infer 版块具备更鲁棒的多卡部署政策,复古 8 卡部署
SkyReels-A1:首个 SOTA 级别的基于视频基座模子的脸色动作可控算法
为了罢了愈加精确可控的东说念主物视频生成,昆仑万维还开源了 SOTA 级别的基于视频基座模子的脸色动作可控算法 SkyReels-A1,对标 Runway 的 Act-One,SkyReels-A1 复古视频驱动的电影级脸色捕捉,罢了高保真微脸色复原。
SkyReels-A1 约略基于任性东说念主体比例(包括肖像、半身及全身构图)生成高度传神的东说念主物动态视频,其真确感源自对东说念主物脸色变化和神气的精确模拟、皮肤肌理、体魄动作奴隶等多维度细节的深度复原。
如下述视频所示,将参考东说念主物图片(上图)和驱动视频(左下)同期手脚输入,在 SkyReels-A1 的能力加抓下,生成了新的视频 —— 将驱动视频中的面部脸色和饰演细节 “移植” 到给定参考图片的东说念主物身上。SkyReels-A1 复古生成的视频(下中)莫得失真,且复原了驱动视频的微脸色和肢体饰演,效果优于 Runway Act-One 生成的视频(右下)。
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
SkyReels-A1 不仅复古侧脸的脸色收尾生成、还能罢了愈加传神的眉眼微脸色生成和更大幅度的头部与当然体魄动作。
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
举例合并句台词饰演,从底下视频不错看出,最右边的东说念主物有明显变样失真,和原始东说念主物形象不一致,而 SkyReels-A1 复古和驱动下的东说念主物饰演,不仅东说念主物不失真,且饰演细节更真确,还不错罢了神态与体魄动作的当然圆善和会。
视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
SkyReels-A1 约略罢了更大幅度的东说念主物脸色驱动。鄙人面视频中不错看到,比较 Runway 的 Act-One(无法生成),SkyReels-A1 不错迁徙更复杂的脸色动作,生成的东说念主物面部神态不错合营肢体及画面内容罢了更有血有肉的饰演。
波多野吉衣2018在线理论视频连络:
https://mp.weixin.qq.com/s/s9RETj3RKhy3XNmPG-3Sfw?token=2135979591&lang=zh_CN
以开源之姿,以破局之势
昆仑万维死力于鼓舞全球 AI 短剧创作生态鼎沸发展
昆仑万维一直坚抓开源,鼓舞期间平权。自 2023 年 8 月 23 日,昆仑万维发布国内第一款 AI 搜索产物「天工 AI 搜索」以来,抓续开源大模子回馈设备者和行业。
早在 2023 年 10 月,昆仑万维通告开源百亿级空话语模子「天工」Skywork-13B 系列,并配套开源了 600GB、150B Tokens 的超大高质地开源中语数据集。2024 年启动,公司持续开源了数字智能体全经由研发器用包 AgentStudio、「天工大模子 3.0」4000 亿参数 MoE 超等模子、 2 千亿寥落大模子 Skywork-MoE、Skywork-o1-Open 等模子。
视频生成模子是总计 AI 短剧创作当中最难的一个措施,尽管以前一年行业内的模子生成能力已有大幅升迁,但还远远不够,同期还濒临视频生成资本高的问题。
昆仑万维同期将 SOTA 级别的 SkyReels-V1 和 SkyReels-A1 进行开源,是 AI 短剧行业首例,亦然昆仑万维 SkyReels 回馈行业迈出的一小步,更是促进 AI 短剧创作和视频生成行业枝繁叶茂的一大步。
咱们敬佩在进行推理优化的升级和可控算法的开源后,它们将为用户带来低资本、可控性更强的 AIGC 能力。昆仑万维但愿通过更多优秀视频生成模子的开源和极致的 AI 短剧产物能力,为用户带来低资本罢了 AI 短剧创作的可能性、冲破行业目前视频生成一致性差的问题,让专家通过我方的电脑生成精细且可控的东说念主物饰演。
昆仑万维董事长兼 CEO 方汉示意,“AIGC 能力的出现,包括咱们目前作念的视频生成能力的出现,一定会将一部好莱坞大片质地的电影制作资本,从目前的一亿好意思金,让其赶紧着落到几十万好意思金甚而几千好意思金,几年之后几百好意思金皆是有可能的。这么会让统统话语的东说念主皆会用 AI 来创作属于本民族的内容产物。这么的拆伙将会罢了文化的平权,而这个红利,很有可能是中国企业去吃到”。
这次开源的视频大模子,不仅是一次期间冲破,有助于削弱全球内容产业的数字边界,更是文化产业坐褥力的一次立异。翌日,短剧与游戏、造谣现实等限度的跨界发展,将会加快产业和会。AI 短剧也有但愿从 “期间实验” 迈向 “主流创作”,成为全球文化输出的新载体。
“罢了通用东说念主工智能麻豆 人妖,让每个东说念主更好地塑造和抒发自我” 是公司的服务,翌日,昆仑万维及 SkyReels 还将开源更多视频生成模子和算法、通用模子,通过开源罢了 AGI 平权,鼓舞 AI 短剧生态的抓续修复和鼎沸,促进开源社区、设备生态以及 AI 行业的发展。