字节 Seed 团队视频生成基础模子亚洲色图,来了。
Seaweed 海藻," Seed-Video "的缩写(真的好一个谐音梗!)。
首发仅 70 亿参数,却能终端高出同类 140 亿参数视频模子的效果——
它能凭证文本描画创建多样分辨率(原生提拔 1280x720 分辨率)、狂放宽高比和时长的视频。
比如平直来个 20 秒的 Driving 长镜头。
它是使用 665000 H100 GPU 小时完成熟练,而同类模子频繁需要超百万 GPU 小时,其相配于是 1000 个 H100 熟练 27.7 天完成。
而且中小团队可部署,仅需 40GB 显存单 GPU 就可生因素辨率达 1280x720 的视频。
来望望短片展现出来的基础实力,统共视频唯独需要手动添加的是布景音乐和片尾字幕。
字节最新视频生成模子
当作基础模子,其记号性功能一定得具备。
比如像伊始小短片这种东说念主 / 动物、景不雅生成也曾属于是洒洒水。
它提拔图像生成模子,适度功能也增强,并提拔首尾帧退换
况且提拔微调,凭证「参考主体」图像生成视频,单幅多幅都不错,将其合成为动态视频序列。
而结合字节多模态数字东说念主决策Omnihuman——一张图、一段音频,就不错生成一段东说念主物视频。它不错创建东说念主声更为匹配东说念主物扮装,唇部、肢体动作都随着音频沿途同步。
此外,它还提拔用视频生成音频,来协作视频的叙事场景、作风。
来感受一下 ~
在这些基础功能之上,Seaweed 还技艺大放送,结合过往技艺松手展现了新的体验。
长篇故事领会,用户既不错为举座叙事提供全局文本描画,也不错为每个镜头提供细粒度的文本描画。
这背后结合「长高下文调优」、面向长篇领会生成「VideoAuteur」等技艺。
高分辨率
除了原生提拔 1280x720 分辨率,还提拔进一步采样至 2K(2560x1440)。
背后是基于SeedVR,基于 Diffusion Transformer 终端通用视频配置。
及时生成
可及时生因素辨率为 1280x720、帧率为 24fps 的视频。
此外,还提拔「照相机」适度生成、物理一致性生成亚洲色图,背后分离有 CameraCtrl II、SimDrop 技艺加抓。
与其他模子对比情况。
图像到视频任务。
文本到视频的任务。
在单个 H100 GPU 运行中,Seaweed 反应速率是 Wan-2.1(参数目是前者两倍)的 62 分之一。
技艺答复:三大技艺鼎新
不外更扎眼的技艺细节,照旧献媚在技艺答复里。
整篇技艺答复中枢计划的等于一个问题:在视频生成基础模子的熟练上,如何终端低资本高效益。
他们遴荐熟练一个中等鸿沟的模子——约 70 亿个参数的 DiT 模子,使用665000个 H100 GPU Hours 重新运转熟练该模子,相配于在 1000 个 H100 GPU 上熟练 27.7 天。
具体在数据解决、模子架构联想、以及熟练策略和优化方面三个方面的技艺鼎新。
率先是数据这块。
他们有一套全面的数据解决管说念,其中包括但不限于时刻分割、空间剪辑、质料过滤、多视角数据均衡、叠加数据删除和视频字幕。
每一个格式都有他们扎眼的解决细节。
以字幕任务为例,他们发现使用更大的 72B LLM 不错减少幻觉。关联词,使用 72B 模子为数百万个视频生成视频字幕的推测打算资本要高得多。
于是他们遴荐将 72B 当作教师模子然后蒸馏出 7B 的学生模子,从简资本的同期还升迁了准确率。此外他们还将扎眼字幕「推导」成约略字幕,肖似于念念维链流程,松手进一步升迁约略字幕的准确率——从 84.81% 到 90.84%。
欺骗这一基础设施,他们每天不错解决高出500000 小时的视频数据。
然后再是模子架构联想上头,由 64x 压缩比 VAE 与 Diffusion Transformer 结合构成 Seaweed 。
VAE 这边,由一个编码器和一个解码器构成,编码器将原始像素数据压缩到一个紧凑的潜在空间,解码器则凭证这些潜在特征重建原始输入像素。瞎想的 VAE 应在保抓较高重建质料的同期终端较高的压缩比。
这种联想为视频生成提供了两个上风,率先,它颐养了图像和视频编码,使第一帧要求图像视频生成任务变稳当然。其次,它摒除了两个推断片断之间鸿沟的精通,并允许编码妥协码狂放长的视频,而无需东说念主工拼接。
而在 Diffusion Transformer 这边,他们用图像和视频的原始分辨率和抓续时刻对它们进行夹杂熟练。为了均衡运行时刻的推测打算,较短的序列被打包在沿途。
临了等于多阶段多任务学习熟练策略。
他们领受了从低分辨率到高分辨率的多阶段渐进式的熟练策略。这一联想侧重于在熟练流程入网谋性地分派 GPU 资源,以升迁举座质料。
Pre-Training 阶段,他们只通过低分辨率图像对模子进行预熟练,这么就能建立文本摘要与常见视觉认识之间的对都干系。
Post-training 阶段。咱们会应用监督微调(SFT),然后是东说念主类反馈强化学习(RLHF),以进一步升迁输出松手的好意思学质料、动作一致性和结构连贯性。
Just Like This~
这一阶段分离针对文本到视频和图像到视频任务进行。
而在更具体 Infra 层面的优化,他们还作念了这些方面的轮番。
比如领受并行策略在长语境视频中熟练 7B 模子;引入了运行时均衡(Runtime Balance)策略,以削弱图像和视频结伴熟练流程中的负载起义衡;还联想了多级激活检查点(MLAC),以减少 GPU 内存使用量和从新推测打算支出。
临了,还通过推行交融的 CUDA 内核来简化零碎的 I/O 操作,从而优化 GPU 欺骗率。
因此,在大鸿沟漫衍式熟练中,Seaweed-7B 的模子 FLOPs 欺骗率(MFU)达到了 38%。
Seed 研究团队大曝光
而在官网临了,背后研究团队也都全部曝光。
由蒋路、冯佳时、杨振恒、杨建超指导的研究团队。
其中蒋路恰是客岁加盟字节的前谷歌高档科学家,曾认真谷歌视频生成职责,在多个谷歌产物(如 YouTube、云就业、AutoML、告白、Waymo 和翻译)中作念出了遑急孝顺,同期亦然 CMU 兼职西席。
冯佳时则是初度曝光的「关键 8 东说念主」之一,大模子视觉基础研究团队认真东说念主,专注于推测打算机视觉、机器学习领域的揣测研究过火在多媒体中的应用。
海选av女优具体研究团队成员如下:
基础设施以及孝顺者还有这些:
参考连气儿:
[ 1 ] https://seaweed.video/
[ 2 ] https://arxiv.org/abs/2504.08685
[ 3 ] https://x.com/CeyuanY/status/1911618555210334350
一键三连「点赞」「转发」「留心心」
宽饶在褒贬区留住你的主见!
— 完 —
不到一周!中国 AIGC 产业峰会不雅众正在火热报名中 � � ♀️
全部嘉宾已就位 � � 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 领域创变者将都聚峰会,让更多东说念主用上 AI、用好 AI,与 AI 一同加快成长~
4 月 16 日周三,就在北京,沿途来深度求索 AI 怎样用 � �
� � 一键星标 � �
科技前沿弘扬逐日见亚洲色图