产业资讯
Spotify 将克隆和翻译播客的声音
Spotify推出了人工智能语音翻译功能,可以使用原始播客的声音以其他语言复制播客。该技术依靠OpenAI的Whisper进行转录,并可能用于语音复制,允许翻译保持播客的独特声音。
Shortwave推出AI电子邮件助手,与Google的Duet AI相媲美
Shortwave声称已经推出了地球上功能最强大的电子邮件AI助手。值得注意的是,它的助手能够使用基于嵌入的搜索来搜索您的整个电子邮件历史记录,因此它可以回答有关您发送或接收的任何内容的问题,而不仅仅是特定电子邮件。
工程研究
2027 年的语言模型用户体验
本文探讨了大型语言模型驱动的软件在中期未来可能是什么样子。LLM将显着改变我们与计算机交互的方式。该技术的当前状态似乎很初级,越来越明显的是,生成式人工智能不能完全取代过去几十年引入的其他用户体验创新。LLM UXes可能会进化为对过去的交互进行记忆,以便提供更相关的响应。
使用文本描述理解和标记 3D 场景的模型
研究人员创建了一个名为PVLFF的新模型,该模型可以查看3D场景,不仅可以识别其中的内容,还可以区分同一对象的不同实例 - 所有这些都通过使用文本描述来实现。
改进业务文档阅读
LayoutLM是一个擅长阅读业务文档的模型。通过两个新的训练练习,它变得更加智能 - 一个帮助它理解复杂的布局,另一个用于正确获取数值。
使用 3D 工具的高级场景注释
神经标注是一种使用 3D 技术进行详细场景注释的工具。
使用无源相机增强深度估计
本研究介绍了一种在没有物理图案投影仪的情况下模拟无源相机中的主动立体声的方法。通过使用来自外部传感器的深度数据虚拟叠加模式,研究人员克服了传统设置的局限性。这种方法增强了各种数据集上的立体算法和深度学习网络。
DeepEval
DeepEval提供了一种Pythonic方法来在LLM管道上运行离线评估,因此您可以舒适地启动到生产中。
效率资源
Forethought推出了Autoflows
Forethought推出了Autoflows,这是基于自然语言提示的AI驱动任务。与传统工作流程不同,自动流使用 SupportGPT 和 OpenAI 模型提高了分辨率。
FireCut AI
FireCut(适用于Adobe Premiere Pro)是一个AI视频编辑器,通过自动执行耗时的任务来加快编辑速度。
领取专属 10元无门槛券
私享最新 技术干货