萧箫 发自 凹非寺 量子位 | 公众号 QbitAI AI自动生成的字幕,能离谱到什么程度? 不仅把“螃蟹”(crab)误听成“废话”(crap),当场爆粗: 甚至还能把“玉米”(corn)给翻译成p*rn…… 关键在于,这些是AI给儿童节目自动生成的字幕。 被AAAI 2022收录的一篇新研究发现,在7013个儿童视频中,接近40%的节目出现了少儿不宜或脏话等词汇。 甚至在一个113集的儿童机器人学习栏目中,AI就“爆粗”了103次,平均接近一集一次! 对此,油管(YouTube)在接受《连线》采访时
这个项目目前还是非常活跃的,项目使用 Python 开发,框架用的 FastAPI。不得不说,这个框架现在越来越多被使用了。
在如今这个短视频盛行的时代,不管你是自媒体人还是普通人,是否也想过拥有一款能一键生成短视频的工具?
作为一个严重单线程的人类,上课给PPT拍照的时候,就完全记不住台上在讲什么。不给课件的老师,真让人头秃。
近年,由于网络的普及,动漫作品传播的速度不断加快,二次元文化的受众数量不断上升,影响范围也越来越广泛。
近些年,AI发展势头有目共睹。作为“下一个十年”最核心的科技手段之一,已然是行业共识和大势所趋,当下也正在加速渗透到千行百业与大众生活中。
这是我给大家分享的第26款优质软件,其他更多的软件分享,直接访问该链接即可,链接地址。
我们在感知外部世界的过程中,声音(audio)起到了极大的作用。在这里,我们把声音分解为两类,一类是语音(speech),另一类是环境音(sound)。人们会本能地对环境音做出反应,比如会被突如其来的骚动所惊吓,或被情景喜剧中的背景笑声所感染。 而影音网站界的翘楚——YouTube 也深知音频的重要性。自2009年起,他们就开始让视频自动生成字幕。如今,这一功能又有了升级版——AI科技评论了解到,谷歌于昨日(3月23日)宣布,将为YouTube视频中的自动字幕增加音效信息,使人们拥有更丰富的视听体验。
连pr都不用打开,只需对照字幕就能轻松切掉空白停顿、反复重来的地方,简直分分钟出片!
夏乙 安妮 编译整理 量子位 出品 | 公众号 QbitAI 一辆AI驱动的无人车可能在模拟环境中撞树5万次才知道这是错误行为,对比之下,悬崖上攀爬的野山羊可没有多少试错机会,孩童无需数百万次练习就学
人类非常善于在嘈杂的环境中,集中注意力听某一个人说的话,从精神上“屏蔽”一切其他声音。这种现象便是“鸡尾酒会效应”,我们与生俱来。
为检索没有文本描述的短视频寻求解法。 作者 | 施方圆 编辑 | 陈彩娴 2022年10月12日晚,ACM Multimedia 大会官方公布了最佳论文等多个奖项。本届 ACM Multimedia 于 2022 年 10 月 10 日至 14 日在葡萄牙里斯本举办,会议共接收到了 3009 篇投稿论文,共有13篇论文入选高分论文。 有 5 篇论文入围最佳论文奖(Best Paper Award)候选,其中,哈工大聂礼强教授团队获得了备受瞩目的最佳论文奖。 聂礼强教授的获奖论文题目为“Search-orie
上周,一位名为 FujiwaraChoki 的程序员在观看短视频的过程中突发奇想,开发了一款叫 Money Printer 的一键视频生成工具。
本文总结了发表在IBC2018上的由日本NHK的Hiroyuki Kaneko等撰写的“AI-DRIVEN SMART PRODUCTION”,介绍了NHK在智能媒体生产方面取得的成就以及今后的发展方向。
但是,多数人认为只有那些懂技术的专家才能用好它。其实,现在机器学习已经集成到了各个领域,并且对用户非常友好。一些非技术的小白完全能够使用现成的软件解决自己领域的专业问题。
whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。 当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。
点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 // 编者按:随着短视频时代的到来,以短视频作为载体进行音乐推广具备了更大的想象空间。海量的视频和图像素材库使得音乐短片视频制作者往往需要花费大量的时间和精力去寻找或是制作与音乐短片相关的图像或视频,十分浪费人力物力。LiveVideoStackCon 2022上海站大会邀请到了网易云音乐 音视频算法专家 赵剑,详细介绍网易云音乐结合多年音乐领域多模态算法能力积累与实际业务需求,实现A
现在很多搜索引擎都是基于图片的文本标签,但是我们的世界每天产生不计其数的照片,很多都没有标记直接传到了网上,给图片搜索带来了很多混乱。
近年来,优质视频内容呈井喷式爆发,如何提高视频内容的产出效率,成为行业加速发展的关键。为助力视频制作方提高产出效能,腾讯视频云在视频制作领域,一次性打包推出了云导播台、腾讯云剪、腾讯智眸三款产品,全程参与视频制作过程,助力视频制作方加速内容产出。 1 线下导播移至线上,云导播台节省视频制作成本 为了满足视频行业追求高效、低成本的节目制作需求,腾讯视频云推出云导播台产品,将线下导播转移至线上,省去切换台、录机等笨重且繁琐的硬件,降低视频制作成本。 借助云导播台,用户可以对多路直播流进行编辑处理。通过简单的页
激动的小编一边听着英文新闻,一边打开了讯飞听见的APP,手机上立刻同时就出现了语音识别的悬浮字幕。
本文介绍了几款开源项目,包括学术优化、房间设计、短视频创作和医学交流等领域。这些项目通过图形交互界面、AI技术和大型语言模型等特点,为用户提供了便捷、创新的解决方案。无论是提升学术写作质量,重新设计房间,还是实现自动化的短视频创作,甚至获取个人私人医学建议,这些开源项目都能帮助用户提高效率、获得更好的体验和创意。
大数据文摘字幕组作品 翻译:菜菜Tom、阿达、晓莉 监制:龙牧雪 在很多人的印象中,AI冰冷、生硬,和艺术无缘。但谷歌偏偏就不信。 谷歌大脑(Google Brain)有个Magenta项目,专门研究用TensorFlow和生成式模型来创造艺术作品,包括音乐、绘画作品等。他们的目的不是取代艺术家,而是为艺术家提供某些自动化协助,比如,编曲家可以用机器智能生成一段和弦。 项目代码已开源,请复制以下链接获取: https://github.com/tensorflow/magenta 感觉有点酷!让我们来看看M
越来越多的小伙伴们加入到 AI 课程的字幕翻译队伍。在这些翻译同学中,有些是 AI 相关领域的学生或从业者,有些是纯粹的知识爱好者,很多同学并未上过英语翻译课程,未经受过专门的翻译技巧培训。
---- 新智元报道 编辑:Q 【新智元导读】1024开发者节大会上,讯飞听见发布「智慧办公服务平台」,让办公不止于「听见」。 智能语音,一直被认为是人工智能时代各种终端的「入口」,长期以来都是各大公司的「必争之地」。 在刚刚过去的1024开发者节上,科大讯飞向我们展示了虚拟人交互,多模态等多种前沿技术的落地应用,更是将400多项能力开放给数百万开发者使用,其中就包括多项科大讯飞深耕多年的智能语音技术。 在大会的现场,讯飞听见同传为大会提供了实时语音转写翻译服务,为远程观看的观众提供更贴心的双
只要有一篇现成的图文链接,AI就可以根据图文描述的主题,重新组织语言,自动搜寻素材,剪出一条短视频。
机器之心原创 机器之心编辑部 「xx,今天开会你来做一下会议记录。」 听到这句话,瞬间精神了有没有? 对于每一个打工人来说,做会议记录几乎都是「加班」一样的存在。这意味着你在整个会议中都要全神贯注,但即使这样也难以保证全记下来,可能下班之后还要听录音进行补充,毕竟这场会议的可回溯性高低几乎都取决于你的记录质量。 马上就 2022 了,为什么我们还在这种简单的事情上耽误时间?让 AI 帮忙记录不香吗? 答案当然是「香」,尤其是将 AI 嵌入常用的办公平台之后。 想象一下,在一场线上会议结束之后,你可以立即收到
导语 数据万象内容识别基于深度学习等人工智能技术,与对象存储 COS 深度融合,底层直接调用COS的数据,实现数据存储、流动、处理、识别一体化,提供综合性的云原生 AI 智能识别服务,包含图像理解(解析视频、图像中的场景、物品、动物等)、图像处理(一键抠图、图像修复)、图像质量评估(分析图像视觉质量)、图像搜索(在指定图库中搜索出相同或相似的图片)、人脸识别、文字识别、车辆识别、语音识别、视频分析等多维度能力。用户可使用数据万象提供的自动化工作流或批量任务处理串联业务流程,大幅减少人力成本,缩短产出时间的同
机器之心报道 机器之心编辑部 在 WAIC 2021 AI 开发者论坛上,好未来集团技术副总裁吴中勤发表主题演讲《多模态机器学习及大规模自动生成技术:算法框架、行业实践》,他主要介绍了多模态深度学习以及大规模自动生成技术在教育领域的实践与应用,并介绍了好未来 AI 研究院的最新研究成果及成功案例。 以下为吴中勤在 WAIC 2021 AI 开发者论坛上的演讲内容,机器之心进行了不改变原意的编辑、整理: 非常高兴来到上海和大家一起交流人工智能算法和行业实践的一些工作,今天选取了与工作中非常相关的多模态深度学
机器之心报道 机器之心编辑部 阿里:大模型也是基础设施。 4 月 7 日下午,阿里云没有一点预告的突然宣布,自研类 ChatGPT 产品开启企业邀测,模型名为「通义千问」。 虽然是非常小范围的测试,但邀测消息刚放出,就引起了整个科技领域的关注。 机器之心也及时为大家带来了一波测评,参见:阿里版 ChatGPT「通义千问」邀请测试,我们第一时间试了试。 但是,在 4 月 7 号的邀请活动中,阿里并没有对通义千问的技术细节与未来发展规划进行更多介绍。因此,今天这场阿里云峰会备受关注。 在阿里的愿景中,并不
Electron 是一个基于 Node.js 和 Chromium 的开源框架,允许使用 JavaScript、HTML 和 CSS 编写跨平台的桌面应用程序。它被 Atom 编辑器等众多应用程序所采用。该项目具有以下核心优势:
LosslessCut 是一款跨平台的 FFmpeg GUI 工具,它可以对视频、音频和字幕等相关媒体文件进行快速无损操作。该软件最主要的功能是无损剪切和裁剪音视频文件,可以使用它快速提取出好的部分并丢弃其余片段而不会损失质量,这非常适合用于处理从摄像机、GoPro 或者无人机中获取到的大型视频文件以节省存储空间。此外它还能在不需要重新编码的情况下添加音乐或字幕轨道到视频中,所以速度非常快。
本次推荐的四个开源项目共同展现了开放、灵活和高效的多媒体处理能力。你可以使用它们进行剪辑、格式转换、添加音频轨道或字幕,甚至通过自动生成字幕来裁剪视频。无论是优化媒体文件、节省存储空间还是创造出令人惊叹的视觉效果,这些项目都将成为你不可或缺的助手。
获取Q_Chameleon 1.1.5.zxp软件,也需要相关配套软件aescripts + aeplugins zxp installer (setup)
Q: 什么是隐藏式字幕(closed captioning)? A: 术语“隐藏式”(closed captioning)和“开放式”(open captioning)字幕:开放式字幕显示在图片本身中,也称为“烧录”,习惯称作硬字幕。隐藏式字母通常是指电视频道被同步发送,但仅在观众要求显示字幕时才显示。我们经常在播放器中看到的 CC 按钮,指的就是 closed captioning。无论是隐藏式还是开放式字母,总需要在正确的时间获取字幕并将它们合并到视频中,以确保字幕在正确的时间出现。
自动生成字幕难度不低,但国民级应用Zoom把这一功能拿来了;在iOS 15.0 Safari的更新中,增加了很多WebRTC相关的特性,你想了解吗?相关信息,尽在文中。
有时候我们需要从YouTube上面下载英文视频,但是如果只有视频,而没有字幕的话,很难看懂视频内容。因此一般我们需要把英文字幕和中文字幕两种一起下载下来,这样方便学习和观看。那么如何从YouTube上面下载中文和英文双语字幕呢?可以试试Gihosoft TubeGet软件,各种语言的字幕都可以保存下载,如果有需要的话,也可以将字幕和视频合并成一个文件,非常的方便。下面我们一起来看下操作方法。
AI 科技评论按:在 CNCC2018「高通量媒体内容理解论坛」上,快手科技多媒体内容理解部负责人李岩发表了题为「多模态内容生产与理解」的演讲,讲述了带领多媒体内容理解部在多模态研究上取得的一些进展。
提到虚拟歌姬,你的第一反应是谁? 洛天依、初音未来、乐正绫、巡音、Gumi、言和、镜音、东方栀子......。(没上榜的记得评论区留言) 在二次元的世界里,虚拟歌姬是一个特殊的存在,他们不是"活人",但有粉丝、有流量、有作品,其影响力、待遇不亚于一个鲜活的网红IP。 以洛天依为例,她是全世界第一款中文声库和虚拟形象,也是首位登上中国主流电视媒体的虚拟歌手,与杨钰莹、周华健、王源等一众明星在春晚同台合唱和歌舞表演。 她们一步一步成长,不断给我们带来“一字一句的美妙体验”。而成就这种“美妙体验”的,正是得益于
提到虚拟歌姬,你的第一反应是谁? 洛天依、初音未来、乐正绫、巡音、Gumi、言和、镜音、东方栀子......。(没上榜的记得评论区留言) 在二次元的世界里,虚拟歌姬是一个特殊的存在,他们不是"活人",但有粉丝、有流量、有作品,其影响力、待遇不亚于一个鲜活的网红IP。 以洛天依为例,她是全世界第一款中文声库和虚拟形象,也是首位登上中国主流电视媒体的虚拟歌手,与杨钰莹、周华健、王源等一众明星在春晚同台合唱和歌舞表演。 她们一步一步成长,不断给我们带来“一字一句的美妙体验”。而成就这种“美妙体验”的,正
图像描述(Image Caption)是计算机视觉领域的一项基础任务,也是融合了视觉和语言在内的多模态研究的核心任务,模型需要给指定的图像生成一个自然语言描述的标题。
点击上方“LiveVideoStack”关注我们 咪咕视频 冬奥特辑 #002# 编者按:在刚刚过去的冬奥期间,中国移动旗下的咪咕视频屡次出圈,其中奥运冠军王濛的激情解说“我的眼睛就是尺”,更是数次登上热搜。作为获得2022北京冬奥直播版权之一的视频平台,咪咕在本次冬奥赛事直播转播中收获了无数好评,其应用下载量一路飙升。除了庞大的明星解说阵容,在此次冬奥中的音视频技术创新上,咪咕还创造了很多历史上的“第一次”。最近LiveVideoStack采访了咪咕公司的音视频AI领域资深专家、高级研发总监周效军,
近些年,短视频、直播等线上娱乐方式快速发展,直接拉动了旅游、电商、影视创作等行业新风潮;而要呈现出一段好的视频效果,不仅仅考验好的拍摄技法,后期处理也是重中之重。以视频字幕为例,有字幕的视频总能“一气呵成”的顺畅看完,而无字幕的,总令人觉得缺失了一种味道。事实上,纯手工添加字幕,也费时费力,面对较大时长与批量化字幕处理的,多少有些苦不堪言,那有没有更智能化的方式呢?
就像丁磊博士在《生成式人工智能》中说到的,与其说人工智能将取代从业者,不如说它完成的是枯燥繁重的工作内容,它淘汰的不是人类,而是落后的生产力。对大部分人来说,人工智能不是竞争对手,而是我们的工作伙伴,它将成为必要的生产要素,使生产力倍增。我们应该做的是训练和使用人工智能,让人工智能为我所用,Work with AI
不止这两张图片,“ThisPersonDoesNotExist.com”网站中,每次刷新出来的人物,都是现实中根本不存在的。
---- 新智元报道 编辑:编辑部 【新智元导读】时隔2年,谷歌I/O开发者大会回归线下。 北京时间今天凌晨,谷歌2022年度全球开发者大会正式开幕! 首先我们有请谷歌CEO,桑达尔·皮查伊。 (此处应有掌声) 言归正传,本次大会谷歌可谓是「批发式」更新。 硬件方面,从对拼Meta的AR眼镜、到对打苹果的首款智能手表,从高端耳机Pixel Buds Pro,到平价版的新款Pixel手机,还有造型一言难尽的首款平板电脑Pixel Tablet,都在大会上亮相。 软件方面,Android 13操作系
可是你有没有想过,自动生成字幕技术已经非常成熟的今天,AI能够迅速将语音转成文字,为什么电视新闻还需要手语播报?
这是今年3月初MetOffice举行的一次大气科学中机器学习应用的线上会议视频。视频发布在油管,字幕为油管自动生成的字幕。目前视频已经上传到B站,在文末也可以单独下载视频、字幕以及对应的PPT。
【新智元导读】机器翻译是深度学习技术最切近实际的应用之一,现在在互联网上有很广泛的使用。此外,不久前,许多科技大公司也相应地推出了为图片或视频自动生成字幕的应用,根据外媒的报道,Facebook曾对外称,这是一项能让盲人“看”见图片的技术。深度学习在这些应用中究竟是怎么发挥作用的,其背后的技术是什么?深度学习领域大神级人物Yoshua Bengio在本次演讲中作了详细的解读。 Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利
领取专属 10元无门槛券
手把手带您无忧上云