Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上。它采用了《DALL-E 3》中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字说明。除了能够仅根据文字说明生成视频外,该模型还能根据现有的静态图像生成视频,并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。更多信息,请参阅OPENAI的技术报告。Sora 是能够理解和模拟现实世界的模型的基础,相信这种能力将成为实现 AGI 的重要里程碑。
领取专属 10元无门槛券
私享最新 技术干货