今天为大家总结一下本周重要的人工智能新闻:
Sora模型新消息
近期Factorial Funds发布了一篇研究文章:Factorial Funds | Under The Hood: How OpenAI’s Sora Model Works,详细分析了Sora模型的训练成本。文章表明,Sora模型的训练需要大量计算资源,大概需要1万个NVIDIA H100图形处理器,并连续运行一个月的时间。推理成本方面,每张NVIDIA H100显卡每小时能生成5分钟的视频。由于成本过高,Sora暂不面向普通用户开放,目前仅和电影工作室或者设计公司开展合作。随着AI视频生成的广泛应用,将会需要大量的算力支持。本篇文章还详细介绍了Sora的原理,感兴趣的同学可以看一下。
2. FreePik图形生成
登录到Picasso,左上角可以选择不同的功能。切换到Text to Image选项,高级账号可以使用FreePik提供的数十种预设风格。例如输入一段提示词,我这里输入的是钢铁侠,下方就会出现无限张类似的图像。
保持提示词不变,切换到Comic风格,下方就会实时生成动漫风格的图像。
打开其中一张喜欢的图像,即可保存高清文件到本地,非常方便。我把图像放大,大家可以看一下增强后的效果。点击图像下方的Reimagine选项,还可以在这张图像的基础上生成类似的内容。
左侧可以选择不同的风格,右侧会输出对应的结果。Enhance功能则可以放大图像,提升分辨率到2K,大家可以对比一下强化前后的效果。
调整不同的Imagination值,还可以在原图的基础上生成不同风格的内容。
3. Domo新功能
例如使用一段舞蹈类短视频,并替换视频中的人物,大家可以看一下合成后的效果。
Domo能够生成更为清晰高质量的视频,人物动作也非常流畅。此外,Domo还新增了很多新模型,可以完成视频风格转换,大家可以尝试。
4. Streaming Text-to-Video
这是近期发布的视频生成工具,可以根据文字提示生成2分钟的视频。Streaming TRV采用自回归的方法,逐帧生成视频,视频中的每个画面都基于之前的内容。最长支持2分钟1200帧的动画生成,Streaming TRV保证了视频生成的一致性,最高支持720*720分辨率的画面输出。目前该项目的代码还没有发布:GitHub – Picsart-AI-Research/StreamingT2V: StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text,感兴趣的同学可以关注。
5. AnyVideoToVideo
此外,我们还可以将原视频替换为不同风格的动画,不过AnyVideoToVideo仅支持1到2秒钟左右的参考视频,大家可以尝试。
6. LLLM Coliseum
这是一个非常有趣的项目,可以通过街头霸王3游戏评估LLLM对环境的理解能力。每个语言模型会控制一个游戏角色,根据当前的场景判断下一步的招式。通过多组测试,GPT-3.5 Turbo模型获得了最高分,Mistral Large模型则输掉了最多的比赛。
领取专属 10元无门槛券
私享最新 技术干货