使用OpenAI的Sora 文本到视频模型生成的视频,提示词为:一位时尚女性走在充满温暖霓虹灯和动画城市标志的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,手持黑色手提包。她戴着太阳镜和红色口红,自信而随意地行走。街道潮湿且反光,形成了彩色灯光的镜面效果。许多行人穿梭其中。
文本到视频模型 (英语:Text-to-Video Model)是一种机器学习 模型,它使用自然语言 描述作为输入,生成与输入文本相关的视频 。[ 1] 2020年代,高质量文本到视频生成的进展主要得益于视频扩散模型 的发展。[ 2]
模型
此section
論述以部分區域為主 ,未必有
普世通用 的觀點。
(2024年8月1日 )
目前存在多种文本到视频模型,包括开源 模型。中文输入的模型[ 3] CogVideo是最早开发的文本到视频模型之一,拥有94亿参数,其开源代码演示版本于2022年在GitHub 上发布。[ 4] 同年,Meta Platforms 发布了部分文本到视频模型“Make-A-Video”,[ 5] [ 6] [ 7] 而Google 的Brain (后为Google DeepMind )推出了Imagen Video,这是一个基于3D U-Net 的文本到视频模型。[ 8] [ 9] [ 10] [ 11] [ 12]
2023年3月,一篇题为“VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation”的研究论文发表,提出了一种新的视频生成方法。[ 13] VideoFusion模型将扩散过程分解为两个部分:基础噪声和残差噪声,这些部分在帧之间共享以确保时间一致性。通过使用预训练的图像扩散模型作为基础生成器,该模型能够高效生成高质量且连贯的视频。通过在视频数据上微调预训练模型,解决了图像和视频数据之间的领域差距,增强了模型生成逼真且一致视频序列的能力。[ 14] 同月,Adobe 在其功能中引入了Firefly AI。[ 15]
2024年1月,Google 宣布开发了一款名为Lumiere的文本到视频模型,预计将集成先进的视频编辑功能。[ 16] Matthias Niessner 和Lourdes Agapito 在AI公司Synthesia 致力于开发3D神经渲染技术,通过使用2D和3D神经表示形状、外观和运动,实现可控的视频合成。[ 17] 2024年6月,Luma Labs推出了其Dream Machine 视频工具。[ 18] [ 19] 同月,[ 20] 快手 将其Kling AI文本到视频模型扩展到国际用户。2024年7月,TikTok 母公司字节跳动 通过其子公司Faceu Technology在中国发布了Jimeng AI。[ 21] 到2024年9月,中国AI公司MiniMax 推出了其video-01模型,加入了智谱AI 、百川智能 和月之暗面 等AI模型公司的行列,推动中国在AI技术领域的参与。[ 22]
文本到视频模型的替代方法包括[ 23] Google的Phenaki、Hour One、Colossyan ,[ 3] Runway 的Gen-3 Alpha,[ 24] [ 25] 以及OpenAI的Sora 。[ 26] [ 27] 此外,还出现了Plug-and-Play、Text2LIVE和TuneAVideo等文本到视频模型。[ 28] Google 还计划在2025年为YouTube Shorts 推出名为Veo的视频生成工具。[ 29] FLUX.1 的开发者Black Forest Labs宣布了其文本到视频模型SOTA。[ 30]
架构与训练
文本到视频模型的开发采用多种架构。与文生图模型 类似,这些模型可使用循环神经网络 (如长短期记忆网络 )进行训练,此类方法应用于像素转换模型和随机视频生成模型,分别提升连贯性与真实感。[ 31] 其他替代架构包括Transformer模型 。生成对抗网络 、变分自编码器 (用于人体运动预测)[ 32] 以及扩散模型 也被用于图像生成部分的开发。[ 33]
用于模型训练的文本-视频数据集包括WebVid-10M、HDVILA-100M、CCV、ActivityNet和Panda-70M等。[ 34] [ 35] 这些数据集包含数百万原始视频、生成视频、带字幕视频及辅助训练的文本信息。此外PromptSource、DiffusionDB和VidProM等数据集提供多样化文本输入,指导模型解析不同提示。[ 34] [ 35]
视频生成过程需要同步文本输入与视频帧序列,保证时序对齐与内容一致性。[ 35] 由于计算资源限制,视频长度增加时生成质量可能下降。[ 35]
局限性
尽管文本到视频模型性能快速提升,但其主要局限在于计算强度过高,导致难以生成高质量长视频。[ 36] [ 37] 此外,模型需大量特定训练数据才能生成高质量内容,造成数据获取难题。[ 37] [ 36]
模型可能误解文本提示,导致视频内容偏离预期。这源于语义上下文捕捉不足,影响视频与文本的语义对齐能力。[ 37] [ 35] 当前正在优化的模型包括Make-A-Video、Imagen Video、Phenaki、CogVideo、GODIVA和NUWA等,旨在提升文本-视频对齐性能。[ 37]
伦理问题
文本到视频模型引发与内容生成相关的伦理和法律问题,可能产生不适当或未经授权的内容,包括侵权信息、虚假信息及未经许可使用真实人物肖像。[ 38] 确保AI生成内容符合安全伦理标准至关重要,因其生成内容可能难以识别有害性。AI对NSFW内容或版权材料的识别过滤仍存挑战,影响创作者与受众双方。[ 38]
影响与应用
文本到视频模型在教育宣传、创意产业等领域具有广泛应用前景,可简化培训视频、电影预告、游戏资产及可视化内容的生成流程。[ 39] 这些功能为用户带来经济效益与个性化体验。
2024年完成的首部全AI生成长片《时间真相》,部分旁白由约翰·德·兰西(《星际迷航:下一代》中"Q"的扮演者)担任。该片采用Runway Gen-3 Alpha和Kling 1.6等先进工具制作,相关著作《电影人工智能》探讨了文本到视频技术的局限性与实施挑战,以及图像到视频技术在关键镜头中的应用。
现有模型对比
模型/产品
公司
发布年份
状态
核心功能
能力特点
定价
视频时长
支持语言
Synthesia
Synthesia
2019
已发布
AI数字人、支持60+语言、定制化选项[ 40]
专注企业培训与营销数字人生成[ 40]
订阅制,起价约30美元/月
依订阅方案变化
60+
InVideo AI
InVideo
2021
已发布
AI视频创作、大型素材库、AI讲解员[ 40]
社交媒体模板适配[ 40]
免费版可用,付费版起价16美元/月
依内容类型变化
多语言(未具体说明)
Fliki
Fliki AI
2022
已发布
支持AI数字人与语音、覆盖70种语言[ 40]
提供65+数字人与2000+语音库[ 40]
免费版可用,付费版起价30美元/月
依订阅方案变化
70+
Runway Gen-2
Runway AI
2023
已发布
支持文本/图像/视频多模态输入[ 41]
高画质生成,含风格化与分镜模式[ 41]
免费试用,付费方案未详述
最长16秒
多语言(未具体说明)
Pika Labs
Pika Labs
2024
测试版
动态视频生成、摄像机运动控制[ 42]
自然动态生成,用户友好界面[ 42]
测试期免费
支持帧延续生成较长视频
多语言(未具体说明)
Runway Gen-3 Alpha
Runway AI
2024
测试版
超高画质、照片级人物生成、精细时序控制[ 43]
影视级定制化生成[ 43]
免费试用,企业定制定价
单片段最长10秒,可扩展
多语言(未具体说明)
OpenAI Sora
OpenAI
2024
测试版
深度语义理解、电影级视觉效果、多镜头生成[ 44]
支持细节丰富、动态感强的情绪化视频生成,处于安全测试阶段[ 44]
定价未公布
预计支持长视频(时长待定)
多语言(未具体说明)
相关条目
参考资料
^ Artificial Intelligence Index Report 2023 (PDF) (报告). Stanford Institute for Human-Centered Artificial Intelligence: 98. [2025-03-13 ] . (原始内容存档 (PDF) 于2025-02-26). Multiple high quality text-to-video models, AI systems that can generate video clips from prompted text, were released in 2022.
^ Melnik, Andrew; Ljubljanac, Michal; Lu, Cong; Yan, Qi; Ren, Weiming; Ritter, Helge. Video Diffusion Models: A Survey. 2024-05-06. arXiv:2405.03150 [cs.CV ].
^ 3.0 3.1 Wodecki, Ben. Text-to-Video Generative AI Models: The Definitive List . AI Business. Informa . 2023-08-11 [2024-11-18 ] . (原始内容存档 于2025-03-05).
^ CogVideo , THUDM, 2022-10-12 [2022-10-12 ]
^ Davies, Teli. Make-A-Video: Meta AI's New Model For Text-To-Video Generation . Weights & Biases. 2022-09-29 [2022-10-12 ] . (原始内容存档 于2025-03-05) (英语) .
^ Monge, Jim Clyde. This AI Can Create Video From Text Prompt . Medium. 2022-08-03 [2022-10-12 ] . (原始内容存档 于2023-08-22) (英语) .
^ Meta's Make-A-Video AI creates videos from text . www.fonearena.com. [2022-10-12 ] . (原始内容存档 于2024-12-27).
^ google: Google takes on Meta, introduces own video-generating AI . The Economic Times . 2022-10-06 [2022-10-12 ] . (原始内容存档 于2023-06-05).
^ Monge, Jim Clyde. This AI Can Create Video From Text Prompt . Medium. 2022-08-03 [2022-10-12 ] . (原始内容存档 于2023-08-22) (英语) .
^ Nuh-uh, Meta, we can do text-to-video AI, too, says Google . The Register . [2022-10-12 ] .
^ Papers with Code - See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction . paperswithcode.com. [2022-10-12 ] (英语) .
^ Papers with Code - Text-driven Video Prediction . paperswithcode.com. [2022-10-12 ] . (原始内容存档 于2025-02-19) (英语) .
^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. 2023. arXiv:2303.08320 [cs.CV ].
^ Luo, Zhengxiong; Chen, Dayou; Zhang, Yingya; Huang, Yan; Wang, Liang; Shen, Yujun; Zhao, Deli; Zhou, Jingren; Tan, Tieniu. VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation. 2023. arXiv:2303.08320 [cs.CV ].
^ Adobe launches Firefly Video model and enhances image, vector and design models. Adobe Newsroom . Adobe Inc. 2024-10-10 [2024-11-18 ] . (原始内容存档 于2025-01-08).
^ Yirka, Bob. Google announces the development of Lumiere, an AI-based next-generation text-to-video generator. . Tech Xplore. 2024-01-26 [2024-11-18 ] .
^ Text to Speech for Videos . Synthesia.io. [2023-10-17 ] . (原始内容存档 于2024-03-04).
^ Nuñez, Michael. Luma AI debuts 'Dream Machine' for realistic video generation, heating up AI media race . VentureBeat. 2024-06-12 [2024-11-18 ] . (原始内容存档 于2025-03-05) (美国英语) .
^ Fink, Charlie. Apple Debuts Intelligence, Mistral Raises $600 Million, New AI Text-To-Video . Forbes. [2024-11-18 ] . (原始内容存档 于2024-12-12) (英语) .
^ Franzen, Carl. What you need to know about Kling, the AI video generator rival to Sora that's wowing creators . VentureBeat. 2024-06-12 [2024-11-18 ] . (原始内容存档 于2024-06-27) (美国英语) .
^ ByteDance joins OpenAI's Sora rivals with AI video app launch . Reuters . 2024-08-06 [2024-11-18 ] .
^ Chinese ai "tiger" minimax launches text-to-video-generating model to rival OpenAI's sora . Yahoo! Finance. 2024-09-02 [2024-11-18 ] .
^ Text2Video-Zero , Picsart AI Research (PAIR), 2023-08-12 [2023-08-12 ]
^ Kemper, Jonathan. Runway's Sora competitor Gen-3 Alpha now available . THE DECODER. 2024-07-01 [2024-11-18 ] . (原始内容存档 于2024-12-26) (美国英语) .
^ Generative AI's Next Frontier Is Video . Bloomberg.com. 2023-03-20 [2024-11-18 ] . (原始内容存档 于2023-03-21) (英语) .
^ OpenAI teases 'Sora,' its new text-to-video AI model . NBC News. 2024-02-15 [2024-11-18 ] . (原始内容存档 于2024-02-15) (英语) .
^ Kelly, Chris. Toys R Us creates first brand film to use OpenAI's text-to-video tool . Marketing Dive. Informa . 2024-06-25 [2024-11-18 ] . (原始内容存档 于2025-01-08) (美国英语) .
^ Jin, Jiayao; Wu, Jianhang; Xu, Zhoucheng; Zhang, Hang; Wang, Yaxin; Yang, Jielong. Text to Video: Enhancing Video Generation Using Diffusion Models and Reconstruction Network . 2023 2nd International Conference on Computing, Communication, Perception and Quantum Technology (CCPQT). IEEE. 2023-08-04: 108–114 [2025-03-13 ] . ISBN 979-8-3503-4269-7 . doi:10.1109/CCPQT60491.2023.00024 . (原始内容存档 于2024-12-15).
^ Forlini, Emily Dreibelbis. Google's veo text-to-video AI generator is coming to YouTube shorts . PC Magazine . 2024-09-18 [2024-11-18 ] . (原始内容存档 于2025-03-06).
^ Announcing Black Forest Labs . Black Forest Labs. 2024-08-01 [2024-11-18 ] . (原始内容存档 于2024-11-17) (美国英语) .
^ Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital. A Review of Video Generation Approaches . 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 2020-12-17: 1–5 [2025-03-13 ] . ISBN 978-1-7281-7590-4 . doi:10.1109/PICC51425.2020.9362485 . (原始内容存档 于2024-12-12).
^ Kim, Taehoon; Kang, ChanHee; Park, JaeHyuk; Jeong, Daun; Yang, ChangHee; Kang, Suk-Ju; Kong, Kyeongbo. Human Motion Aware Text-to-Video Generation with Explicit Camera Control . 2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE. 2024-01-03: 5069–5078. ISBN 979-8-3503-1892-0 . doi:10.1109/WACV57701.2024.00500 .
^ Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators . 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13 ] . ISBN 979-8-3503-4824-8 . arXiv:2311.06329 . doi:10.1109/AIRC57904.2023.10303174 . (原始内容存档 于2024-12-15).
^ 34.0 34.1 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan. T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. 2024-09-08. arXiv:2407.05965 [cs.CV ].
^ 35.0 35.1 35.2 35.3 35.4 Zhang, Ji; Mei, Kuizhi; Wang, Xiao; Zheng, Yu; Fan, Jianping. From Text to Video: Exploiting Mid-Level Semantics for Large-Scale Video Classification . 2018 24th International Conference on Pattern Recognition (ICPR). IEEE. August 2018: 1695–1700 [2025-03-13 ] . ISBN 978-1-5386-3788-3 . doi:10.1109/ICPR.2018.8545513 . (原始内容存档 于2024-12-13).
^ 36.0 36.1 Bhagwatkar, Rishika; Bachu, Saketh; Fitter, Khurshed; Kulkarni, Akshay; Chiddarwar, Shital. A Review of Video Generation Approaches . 2020 International Conference on Power, Instrumentation, Control and Computing (PICC). IEEE. 2020-12-17: 1–5 [2025-03-13 ] . ISBN 978-1-7281-7590-4 . doi:10.1109/PICC51425.2020.9362485 . (原始内容存档 于2024-12-12).
^ 37.0 37.1 37.2 37.3 Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators . 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13 ] . ISBN 979-8-3503-4824-8 . arXiv:2311.06329 . doi:10.1109/AIRC57904.2023.10303174 . (原始内容存档 于2024-12-15).
^ 38.0 38.1 Miao, Yibo; Zhu, Yifan; Dong, Yinpeng; Yu, Lijia; Zhu, Jun; Gao, Xiao-Shan. T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models. 2024-09-08. arXiv:2407.05965 [cs.CV ].
^ Singh, Aditi. A Survey of AI Text-to-Image and AI Text-to-Video Generators . 2023 4th International Conference on Artificial Intelligence, Robotics and Control (AIRC). IEEE. 2023-05-09: 32–36 [2025-03-13 ] . ISBN 979-8-3503-4824-8 . arXiv:2311.06329 . doi:10.1109/AIRC57904.2023.10303174 . (原始内容存档 于2024-12-15).
^ 40.0 40.1 40.2 40.3 40.4 40.5 Top AI Video Generation Models of 2024 . Deepgram. [2024-08-30 ] . (原始内容存档 于2024-11-03) (英语) .
^ 41.0 41.1 Runway Research | Gen-2: Generate novel videos with text, images or video clips . runwayml.com. [2024-08-30 ] . (原始内容存档 于2025-02-27) (英语) .
^ 42.0 42.1 Sharma, Shubham. Pika Labs' text-to-video AI platform opens to all: Here's how to use it . VentureBeat. 2023-12-26 [2024-08-30 ] . (原始内容存档 于2024-12-13) (美国英语) .
^ 43.0 43.1 Runway Research | Introducing Gen-3 Alpha: A New Frontier for Video Generation . runwayml.com. [2024-08-30 ] . (原始内容存档 于2025-03-13) (英语) .
^ 44.0 44.1 Sora | OpenAI . openai.com. [2024-08-30 ] . (原始内容存档 于2025-03-05).