Hey
滥竽充数?
没可能的!
AI拍着胸脯说道。
相信大家在成长过程中一定有过大合唱/合奏的经历。对于声音娓娓动听、乐器技艺精湛的朋友来说这是一次不错的展现才艺的机会,但对于五音不全、一知半解的朋友而言,这简直是一场噩梦。因此我们往往会采用一种“高明”的技巧:对对口形、摆摆手势,争取不做坏掉一锅汤的老鼠屎。
然而,AI告诉我们,这招也行不通了!
Video主菜登场
这下好了,滥竽充数是不太可能了。
但是反过来想想,对于优秀的乐团来说,该项技术也有用武之地,毕竟急管繁弦的演奏途中,想清晰听到自己的音准不准,还是有点困难的。有了这项人工智能技术,排练环节便也多了一枚得力助手。
同样对于学习乐器的人来说,以后足不出户,就可以请到国际知名的大提琴,小提琴,管弦乐手们陪你演奏,共谱一曲华美乐章,真正实现“我在哪里,舞台就在哪里的”的愿望。
该技术对于爱“玩”音乐的人来说也是一项福音,除了对音乐整体进行重新编辑外,还可以对伴奏的不同乐器分别进行混剪,或者直接去掉或添加不同的乐声。也许不久以后,我们就可以听到经典交响乐的remix版本了。
然鹅,值得注意的是,视频中发声的像素点处物体皆在移动中,那么该算法是否只会将移动物体作为发声源,即“移动中=发声中”。如果是这样的话,乐团前方的指挥,或是舞台上的舞者们,是否也会被算法判断为“发声机器”呢?
如果是这样的话,那真的是出场“自带BGM”啊!
YouTube评论精选
Moby Motion:
将吉他声分离出来的例子简直棒呆!我觉得最激动人心的是这个算法是非监督式的,因此我十分希望看到它能有一些实际的应用。如果把它放在多人谈话的视频中训练,它能否学习到每个人说话内容的能力?
The separation of the guitar in that first example is insane! I think the most exciting thing about this is the fact it's unsupervised - I'd love to see this idea applied elsewhere. I wonder if you trained this on videos of people talking, whether it would learn to pick out individual people's voices.
Dariusz Macholl:
好吧,如果视频中有指挥该怎么办?他可能会被人工智能误认为是一个声源,因为他也随着乐队的演奏而摆动着身体,对不?
Okay, now what happens if there is a conductor in the image? He'd propably be mistakenly detected to emit sound, as he moves accordingly to how the band is supposed to play, right?
sierra nevada:
在神经科学中,我们经常遇到一些源定位问题:我们不知道大脑的特定皮层激活来自何处。我想知道这种技术是否能以某种方式适应于学习脑电波/ 脑磁图信号的源定位。在这项技术里,功能性磁共振成像将成为视频源,而脑电波/脑磁图信号将成为音频源。
In neuroscience we often have the source localization problem: We don't know where from the brain a particular scalp activation comes from. I wonder if this technique could somehow adapted to learn source localization of EEG/MEG signals. Instead of a video stream we take an fMRI measurement, instead of audio we take EEG/MEG.
最后,还是邀请朋友们阅读该论文。在阅读的过程中,任何的闪光点也可能成为未来的AI领域的一片希望,敢想就成功一半了!
论文链接:
如果童鞋们有任何关于该研究的观点与看法,也欢迎留下评论喔~
Authur: Károly Zsolnai-Fehér
Twitter: https://twitter.com/karoly_zsolnai
Web: https://cg.tuwien.ac.at/~zsolnai/
关注公众号
前沿,时髦,有趣
领取专属 10元无门槛券
私享最新 技术干货