Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩,老罗:打钱

视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩,老罗:打钱

作者头像
量子位
发布于 2023-08-05 03:04:05
发布于 2023-08-05 03:04:05
1900
举报
文章被收录于专栏:量子位量子位
杨净 发自 凹非寺 量子位 | 公众号 QbitAI

现在剪视频,已经可以精准到每一个字了!

只需点击你要删减或者要留下的单词,AI分分钟都能给你整出新的视频来。

这操作,有点大爆炸功能内味了。老罗:打钱!

不管是MV、访谈、电影片段各种类型视频,也不论有无字幕,通通不在话下。

网友们纷纷开始试玩了起来。比如让rick roll鬼畜起来~

就连中文视频也能Hold住。实测Demo发现,它甚至直接翻译成了英文。

不过这也并不影响整个操作,毕竟背后模型是支持中文在内的多个语言的。

精准到每个字剪视频

只需三步,就可以轻松完成精准到字的视频剪辑——

上传视频、选择删减/留下的单词、下载视频。

释出的有三个示例,烹饪的美食视频、小扎采访、以及「Just Do IT」……

当然你也可以自己试玩,各种语言都能识别。比如就以让子弹飞一段经典对白为例。

绿色代表保留,红色代表删除。你有三种选择:剪辑、选择所有单词、重新设置。

任意选择保留单词之后,就可以「Cut Video」了。此处选择两处跳脱的台词。最终只花了不到十秒钟就完成了剪辑。

画面切换可以说是十分顺滑了~整个Demo试玩在T4上运行。

基于Whisper模型

这是个荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发的新功能。

Whisper是OpenAI于去年9月开源的语音识别神经网络,经过68万小时的多语言和多任务监督网络数据的训练,其鲁棒性和准确性接近人类水平。它可以进行多语言转录,以及其他语言将翻译成英文。

它是基于Transformer端到端实现架构,无需任何微调。输入音频被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【DeepSeek 多模态探索】从文本到图像与语音:解锁 DeepSeek 的多模态 AI 潜力
随着多模态 AI 技术的快速发展,开发者对 DeepSeek 是否能够支持图像、音频等多模态任务充满期待。本文将探讨 DeepSeek 在多模态方向上的潜力,分析其是否能够集成语音识别、图像生成等能力,并通过代码示例展示如何实现多模态任务的初步集成。
Swift社区
2025/02/12
1.4K0
【DeepSeek 多模态探索】从文本到图像与语音:解锁 DeepSeek 的多模态 AI 潜力
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
前段时间,「霉霉大秀中文」的视频在各个社交媒体走红,随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。
机器之心
2023/11/07
1.3K0
两天star量破千:OpenAI的Whisper被蒸馏后,语音识别数倍加速
语音转字幕:Whisper模型的功能和使用
模型下载地址:https://huggingface.co/ggerganov/whisper.cpp large-v1模型比较大,但是会更准确一些。我这边就用large系列模型好了,虽然显卡不咋地,但是跑这个还是够用了,根据限制自行选择模型,占用内存越大越准确。
知识浅谈
2024/05/25
2.8K0
语音转字幕:Whisper模型的功能和使用
AI大神李沐开源新手剪辑神器!只看字幕就能剪视频,卡壳重复片段一键删除
连pr都不用打开,只需对照字幕就能轻松切掉空白停顿、反复重来的地方,简直分分钟出片!
量子位
2022/12/08
6970
AI大神李沐开源新手剪辑神器!只看字幕就能剪视频,卡壳重复片段一键删除
腾讯智影AI剪辑-在线视频剪辑
智影是一个集素材搜集、视频剪辑、后期包装、渲染导出和发布于一体的免费在线剪辑平台,能够为用户提供从端到端的一站式视频剪辑及制作服务。
Miloce
2022/09/28
6.3K0
腾讯智影AI剪辑-在线视频剪辑
基于大模型的多模态数据融合实战应用
多模态数据融合是当前人工智能(AI)研究的热门领域,涉及文本、图像、音频、视频等多种数据类型的集成。随着大型语言模型(LLM)和多模态大模型(如GPT-4V、BLIP-2、Flamingo等)的发展,AI 在处理多模态数据的能力得到极大提升。本文将探讨基于大模型的多模态数据融合方法,并通过 Python 代码示例演示如何构建多模态应用。
一键难忘
2025/03/03
1.2K1
自媒体创作利器:混剪如何快速找到对应画面?(多套方案)
对于从事影视剪辑的同学来说,能快速通过一个画面找到原片中出现的位置,将大大提升视频剪辑的效率
AirPython
2023/12/14
3180
自媒体创作利器:混剪如何快速找到对应画面?(多套方案)
ChatGPT-4o 有何特别之处?
大家已经知道,OpenAI 在 GPT-4 发布一年多后终于推出了一个新模型。它仍然是 GPT-4 的一个变体,但具有前所未见的多模态功能。
石臻臻的杂货铺[同名公众号]
2025/06/03
1490
ChatGPT-4o 有何特别之处?
[AI OpenAI-doc] 语音转文字
音频 API 提供了两个语音转文本的端点,即转录和翻译,基于我们先进的开源大型-v2 Whisper 模型。它们可用于:
从零开始学AI
2024/04/28
1.5K0
[AI OpenAI-doc] 语音转文字
1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」
YouTube博主Art from the Machine正式发布Mantella,能够让「上古卷轴5」中的NPC们复活的全新AI Mod。
新智元
2023/09/09
3860
1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」
语音识别与翻译
N46Whisper 是基于 Google Colab 的应用。开发初衷旨在提高乃木坂46(以及坂道系)字幕组日语视频的制作效率,但亦适于所有外语视频的字幕制作。本应用的目标并非生产完美的字幕文件, 而旨在于搭建并提供一个简单且自动化的使用平台以节省生产成品字幕的时间和精力。翻译结果还是需要人工润色一下,且由于Whisper的问题,有的地方会重复翻译,需要注意一下。
用户6841540
2024/08/13
6800
【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战
上一篇对Whisper原理和实战进行了讲解,第7次拿到了热榜第一🏆。今天,我们在Whisper的基础上,引入ffmpeg工具对视频的音频进行抽取,再使用Whisper将音频转为文本,通过二阶段法实现视频内容的理解。
LDG_AGI
2024/08/13
3150
【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战
10.1K Star零门槛上手音频转文字工具
开源日记
2024/05/17
2960
10.1K Star零门槛上手音频转文字工具
『GitHub项目圈选20』推荐5款本周 火火火 的开源项目
ComfyUI-Workflows-ZHO 是一款 ComfyUI 工作流集合,由 AI领域大佬 ZHO 开源出来的,最近深受专家博主和AI绘画爱好者的喜爱。
Python兴趣圈
2024/03/25
3500
『GitHub项目圈选20』推荐5款本周 火火火 的开源项目
语言识别及漫画翻译
推荐使用openai家的Whisper,同时存在对应的软件 WhisperDesktop,Buzz
用户6841540
2024/08/09
1260
WhatsApp联合创始人向加密通信应用Signal投资5000万美元
Open Whisper Systems是隐私信息应用程序Signal背后的组织,周三Open Whisper Systems宣布成立Signal Foundation,初始投资额为5000万美元,由WhatsApp联合创始人Brian Acton提供。 Signal是一款跨平台的加密通讯应用,支持的平台包括Android、iOS、以及Linux, Windows和macOS。Signal经互联网发送一对一及组群消息,消息可包含图像及视频,它还可以用来经互联网作语音通话。Signal采用标准流动电话号码
FB客服
2018/03/26
1.1K0
WhatsApp联合创始人向加密通信应用Signal投资5000万美元
平时使用的软件
当你需要密码才能编辑pdf文件时(前提是你能正常打开该文件),可以使用开源软件ghostscript。下载链接
用户6841540
2024/08/06
1190
25.9K star!AI一键生成高清短视频,这个开源神器让内容创作起飞!
嗨,大家好,我是小华同学,关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法
小华同学ai
2025/04/07
3220
25.9K star!AI一键生成高清短视频,这个开源神器让内容创作起飞!
0成本!基于腾讯云Cloud Studio,打造属于自己的数字人口播系统,照片+音乐=自动开口,效果炸裂
原文链接:https://mp.weixin.qq.com/s/G39ZHVITRilKlXnKn3mkrA
CloudStudio
2025/03/17
4730
基于OpenAI Whisper AI模型自动生成视频字幕:全面解析与实战指南
在数字化时代,视频内容已成为信息传播的重要载体。然而,为视频添加字幕却是一项繁琐且耗时的工作。幸运的是,随着人工智能技术的飞速发展,特别是OpenAI Whisper模型的推出,我们有了更加高效、智能的解决方案。
小白的大数据之旅
2024/12/28
9380
推荐阅读
相关推荐
【DeepSeek 多模态探索】从文本到图像与语音:解锁 DeepSeek 的多模态 AI 潜力
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档