Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >语音诈骗技术案例剖析:VoIP 电话劫持+AI语音模拟

语音诈骗技术案例剖析:VoIP 电话劫持+AI语音模拟

作者头像
博文视点Broadview
发布于 2023-04-04 02:50:53
发布于 2023-04-04 02:50:53
1.7K01
代码可运行
举报
运行总次数:1
代码可运行

👆点击“博文视点Broadview”,获取更多书讯

AI语音技术是AI技术的一个分支,随着AI技术的发展,AI语音技术突飞猛进、换代升级。

通过基于AI的深度伪造变声技术,可以利用少量用户的语音生成他想要模仿的语音。这种技术在给用户带来新奇体验的同时,潜在安全风险。

深度伪造AI变声技术可能成为语音诈骗的利器。

研究发现,利用漏洞可以解密窃听VoIP电话,并利用少量目标人物的语音素材,基于深度伪造AI变声技术,生成目标人物语音进行注入,拨打虚假诈骗电话。

下图展示了语音诈骗的整体流程。总的来说,这种新型攻击的实现方式分为两个部分:一是VoIP 电话劫持:二是语音模拟。

01

VoIP 电话劫持

要实现对VoIP 电话的劫持,首先需要对音频进行嗅探,然后需要对来电身份及语音内容进行篡改。下面着重介绍一下音频嗅探技术和如何实现来电身份及语音内容篡改。

1)音频嗅探技术

在某品牌CP-79XX 系列电话中,通信使用SCCP 协议,该协议没有使用TLS对流量进行加密, 因此可以在同VLAN 下对目标电话进行中间人攻击(Man-in-the-Middle Attack,MITM 攻击),这可以让攻击者对目标通话人的来电信息进行伪造,同时完成窃听操作。

ARP 协议是网络行为中应用广泛的基础数据链路层协议,用于在VLAN 内完成从IP 地址到MAC 地址的转换。利用APR 欺骗可以获取目标通话人的语音信息。例如,在VoIP 电话的案例中,我们在访问一个IP 地址时首先会在同VLAN内发送问询广播包:Who has 10.26.132.134?。

地址广播示意图见下图。

接收到该问询广播包的主机会比较问询IP 是否为自己的IP,如果是,则向询问主机发送应答包,应答包中包含自身的MAC 地址。随后询问主机会根据MAC地址构造自己的数据包完成数据交互。

在操作系统中,存在ARP 缓存表来加速这种映射关系,黑客攻击ARP 协议时会抢先应答ARP 广播,从而造成被攻击者的ARP 缓存表被投毒的情况,在后续的网络通信中,数据包均会被发送到黑客的主机中,见下图。

下图为真实的ARP 应答包。

通过这种ARP 欺骗的攻击方式,攻击者将被攻击者的语音流量劫持到自己的主机上,并进行RTP 语音流的还原来实现窃听操作,见下图。

2)来电身份及语音内容篡改

在监控电话流量时,攻击者可以修改SCCP 协议中呼入者的用户名与电话号码信息,实现代码如下。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
key1 = b"tomzhang"key2 = b"12264"try:buff = bytearray(p[Raw].load)for pos in find_sub_array(p[Raw].load, key1):buff[pos : pos+len(key1)] = b"tonyli "for pos in find_sub_array(p[Raw].load, key2):buff[pos: pos + len(key2)] = b"88888"

SCCP 协议在无法对呼入数据进行真实性校验的情况下,将数据包中的呼入姓名与来电号码完整地显示在来电屏中,见下图。

在篡改呼入姓名与来电号码后,攻击者替换RTP 协议中的语音流,实现完整的电话欺骗链路,见下图。

02

 语音模拟

语音模拟可以根据源人物的说话内容合成具有目标人物音色特征的音频输出。这项技术其实并不新鲜,早已在许多现实场景中应用落地,如地图应用中的定制播报语音,利用少量自己的语音,就可以定制自己语音的播报语音。

同样,在VoIP 电话劫持中,利用少量被攻击者的语音,就可以合成与被攻击者音色相似的任意内容的语音片段,一旦被恶意利用,攻击者可以轻松拨打虚假电话,与目标人员对话。

这里语音模拟用的是语音克隆技术,该技术只需要数秒目标人物的音频数据和一段任意的文本序列,就可以得到逼真的合成音频。下图展示了语音模拟过程。基于深度学习的语音克隆技术主要包含音色编码器、文本编码器、解码器、语音生成器4 个模块。

(1)音色编码器:音色编码器从音频中提取不同说话人的音色特征。

(2)文本编码器:文本编码器将输入文本转换为特征。

(3)解码器:解码器将说话人特征和文本特征拼接后的结果转化为梅尔声谱图。

(4)语音生成器:语音生成器根据梅尔声谱图合成语音。

拿到目标人物的数秒音频文件后,首先音色编码器对目标人物的音色进行编码,提取说话人的音色特征,然后梅尔声谱图合成器接收编码后的音色特征和文本信息,基于音色特征,合成带有既定文本内容的梅尔声谱图,最后语音生成器将梅尔声谱图转换为音频。语音克隆逻辑代码参考如下,其中encoder 为音色编码器,synthesizer 为梅尔声谱图合成器,vocoder 为语音生成器。完整代码内容详见代码库。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def synthesis(src_voice_path, text, dst_voice_path):"""语音克隆,提取目标人物音色特征,生成带目标人物音色的既定内容的合成音频参数:src_voice_path: 目标人物音频文件路径text:需要合成的文本内容dst_voice_path: 生成的音频文件保存路径"""base_name = src_voice.split('/')[-1].split('.')[0]save_wav = src_voice

in_fpath = Path(src_voice_path)original_wav, sampling_rate = librosa.load(in_fpath)

# 对音频内容进行预处理

preprocessed_wav=encoder.preprocess_wav(original_wav,sampling_rate)

# 提取目标人物音色特征,对目标人物音频进行编码embed = encoder.embed_utterance(preprocessed_wav)

# 根据目标人物音色特征和文本内容合成梅尔声谱图specs = synthesizer.synthesize_spectrograms([text], [embed])

# 生成音频generated_wav = vocoder.infer_waveform(specs[0])generated_wav = np.pad(generated_wav, (0, synthesizer.sample_rate),mode="constant")scipy.io.wavfile.write(dst_voice_path, synthesizer.sample_rate,generated_wav)

使用上述方法可以将生成的虚假音频内容注入VoIP 电话中,实现声音的伪造,重现语音克隆攻击。随着技术开源及语音合成技术的发展,语音克隆的成本将越来越低,一旦被恶意利用,将带来无法预知的安全风险。

以上内容节选自《AI安全:技术与实战》一书。

京东限时优惠,快快扫码抢购吧!

发布:刘恩惠

审核:陈歆懿

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
 热文推荐  
转行数据分析?你可能需要这块敲门砖!
黑客“劫持”了一颗卫星,用它直播黑客大会和放电影
一本书,带你走出Spring新手村
BUG退退退:搞懂MySQL隔离级别

▼点击阅读原文,了解本书详情~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
随着人工智能技术的不断发展,语音克隆技术也得到了越来越多的关注和研究。目前,AI语音克隆技术已经可以实现让机器模拟出一个人的声音,甚至可以让机器模拟出一个人的语言习惯和表情。
Freedom123
2024/03/29
1.2K0
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
腾讯警告:你的声音正在被AI「偷走」
近日,腾讯朱雀实验室受邀参加全球顶级信息安全峰会 CanSecWest 2021,并进行了题为《The Risk of AI Abuse: Be Careful with Your Voice(AI 被滥用的风险:小心您的声音安全》的分享。腾讯朱雀实验室分享的最新研究成果表明,VoIP 电话劫持与 AI 语音模拟技术的结合将带来极大潜在风险。
机器之心
2021/04/21
7130
腾讯警告:你的声音正在被AI「偷走」
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
AI 技术的应用门槛正在不断降低,换脸、换声音、生成各种不存在的人像都变得非常容易,但与此同时,犯罪的门槛也降低了。
机器之心
2019/09/09
1.2K0
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
5秒实现AI语音克隆(Python)
水文一篇,推荐一个有趣的AI黑科技--MockingBird,该项目集成了Python开发,语音提取、录制、调试、训练一体化GUI操作,号称只需要你的 5 秒钟的声音,就能实时克隆出你的任意声音。
算法进阶
2022/06/02
1.9K0
5秒实现AI语音克隆(Python)
拥有AI「变声术」,秒杀了多年苦练的模仿艺能
概括来讲, VC可以将一个人的声音转换为另一个音色,但表述的内容没有改变。脑补了一下,这个技术可以给用户带来非常多有乐趣的体验。近日,在爱奇艺《语音和语言技术在自然交互中的实践》沙龙上,爱奇艺资深研发工程师 Daniel Chen 就为我们分享了关于 Voice Conversion 技术,以及 VC 在变声方面的探索与实践。
AI科技大本营
2020/02/12
2K0
拥有AI「变声术」,秒杀了多年苦练的模仿艺能
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
机器之心报道 机器之心编辑部 这项技术未来在虚拟人、短视频玩法、客服服务、直播互动玩法上有着很大的落地空间。 字节跳动智能创作语音团队 SAMI(Speech, Audio and Music Intelligence)近日发布了新一代的低延迟、超拟人的实时 AI 变声技术。不同于传统的变声,AI 变声是基于深度学习的声音转换(Voice Conversion)技术来实现的,可以实现任意发音人的音色定制,极大程度保留原始音色的特点。 该方案的亮点如下: 在 CPU 单核上就能做到极低延迟的实时输入实时变声,
机器之心
2022/08/25
9100
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
只要5秒就能“克隆”本人语音!美玉学姐不再查寝,而是吃起了桃桃丨开源
博雯 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,AI已经能克隆任意人的声音了! 比如,前一秒的美玉学姐还在宿舍查寝: 后一秒就打算吃个桃桃: 简直就是鬼畜区的福利啊! (像我们后面就试着白学了一下华强买瓜 ) 此外,还有正经的方言版,比如台湾腔就完全冇问题: 这就是GitHub博主Vega最新的语音克隆项目MockingBird,能够在5秒之内克隆任意中文语音,并用这一音色合成新的说话内容。 这一模型短短2个月就狂揽7.6k星,更是一度登上GitHub趋势榜第一: 社区里
量子位
2023/03/01
1.5K0
只要5秒就能“克隆”本人语音!美玉学姐不再查寝,而是吃起了桃桃丨开源
RSAC 2024创新沙盒|Reality Defender:深度伪造检测平台
Reality Defender是2021年成立的一家专注于检测深度伪造(Deepfakes)和合成媒体(Synthetic Media)的初创公司,提供针对多种模态的深度伪造检测服务,其研发的检测工具适用于识别人工智能合成和伪造的文本、图像、视频和音频,为政府机构、金融企业、媒体以及其他大型组织提供深度伪造检测解决方案。Reality Defender的官网[1]提到其曾协助亚洲国家公共广播公司、跨国银行应对深度伪造引起的虚假信息传播和身份诈骗。
绿盟科技研究通讯
2024/05/09
1.3K0
RSAC 2024创新沙盒|Reality Defender:深度伪造检测平台
五分钟示范“教会”演员说外语,还可无缝切换语种,这家AI配音公司刚获2000万美元A轮融资
行早 发自 凹非寺 量子位 | 公众号 QbitAI 只需要演员五分钟的声音素材,就可以让他在电影里说另外一种语言? 在没看到这段视频之前我是不相信的,来听听这段效果如何: 这段视频取自《博多之子》(英文名Every Time I Die),是一部英文惊悚片。 但是我们在播放中可以看到,只需要一键点击,就可以在任意时刻把英语转换为西班牙语,并且听起来还是原演员的声音。 连说话中惊恐、颤抖的细节也忠实地继承了下来,给我们展示了一把AI配音的神奇力量。 当然,这波操作也不出意外地打动了许多投资人。 制作这段内容
量子位
2022/03/04
4740
夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022
近日,国际声学、语音与信号处理领域顶级会议ICASSP举办的 2022 ADD挑战赛落下帷幕,贝壳人工智能技术中心语音团队从全球百余支队伍中脱颖而出,在“语音攻防对抗”赛道“生成”和“检测”两项任务中均斩获桂冠。 ICASSP(International Conference on Acoustics, Speech and Signal Processing)是由IEEE主办的信号处理及其应用方面的顶级会议,在全球具有广泛而权威的学术影响力。其中,语音深度合成鉴别挑战赛(The First Audio D
AI科技评论
2022/04/06
7440
夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022
声临其境:清华大学和字节跳动提出Neural Dubber神经网络配音器,有望让影视后期效率倍增
机器之心发布 机器之心编辑部 清华大学和字节跳动智能创作语音团队业内首次提出神经网络配音器,让 AI 根据配音脚本,自动生成与画面节奏同步的高质量配音。 影视配音是一项技术含量很高的专业技能。专业配音演员的声音演绎往往让人印象深刻。现在,AI 也有望自动实现这种能力。 近期,清华大学和字节跳动智能创作语音团队业内首次提出了神经网络配音器(Neural Dubber)。这项研究能让 AI 根据配音脚本,自动生成与画面节奏同步的高质量配音。相关论文 Neural Dubber: Dubbing for Vid
机器之心
2023/03/29
8920
声临其境:清华大学和字节跳动提出Neural Dubber神经网络配音器,有望让影视后期效率倍增
一句话复制你的音色:快手单样本语音转换研究入选ICASSP 2021
语音转换(VC)是指在保证一句话内容不变的基础上,将原始语音中说话人音色迁移到目标说话人音色。语音转换在电影配音、角色模仿以及复刻人物音色等方面都有重要的应用。
机器之心
2021/06/08
1.2K0
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。
机器之心
2025/05/17
3550
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
未来AI对实时语音翻译的冲击
在联合国大会上,代表用不同的语言阐述相关的环保政策,中国企业家们通过耳机听到中文同传的时候,AI系统已将发言要点同步翻译成中文字幕投放在大屏幕。
一点点
2025/03/16
2600
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 19 个在语音合成任务上曾取得 SOTA 的经典模型。 第 1 期:BLSTM-RNN、WaveNet、SampleRNN、Char2Wav
机器之心
2023/03/29
4K0
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
AudioCraft 是一个用于音频生成的 PyTorch 库。它包含了两个最先进的 AI 生成模型 (AudioGen 和 MusicGen) 的推理和训练代码,可以产生高质量音频。该项目还提供了其他功能:
小柒
2023/12/20
7850
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
机器之心原创 作者:李亚洲 近年来,随着深度神经网络的应用,计算机理解自然语音能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS)),仍在很大程度上基于所谓的拼接 TTS(concatenative TTS)。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步?这也成为了人工智能领域研究的课题之一。 2016 年,DeepMind 提
机器之心
2018/05/07
1.3K0
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
这里我要推荐的【好事】文章是如何从零构建一个现代深度学习框架,2024年可以说是大模型发展迅速的一年,国内的国际的各大厂商都推出了多种场景的大模型,那么作为小白,虽然不是大模型从业者,但是也想了解一下大模型这样的深度学习框架到底是怎么来的,是如何构建的呢?可以看这篇文章:
中杯可乐多加冰
2024/11/12
6880
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
在数字化时代,文本到语音(Text-to-Speech, TTS)技术已成为人机交互的关键桥梁,无论是为视障人士提供辅助阅读,还是为智能助手注入声音的灵魂,TTS 技术都扮演着至关重要的角色。从最初的拼接式方法到参数化技术,再到现今的深度学习解决方案,TTS 技术经历了一段长足的进步。这篇文章将带您穿越时间,探究 TTS 技术的演变历程,重点关注如何通过先进的算法和计算模型,实现从一段静态文本到仿若真人般自然流畅语音的转化。我们将深入了解深度学习的革命性影响,如何推动着 TTS 技术向着更高的自然度和理解力迈进,特别是谷歌的 Tacotron 和 DeepMind 的 WaveNet 如何在这个领域设定了新的标准。随着技术的不断成熟,未来的 TTS 系统将更加智能、灵活,并且能够在更广泛的应用场景中提供个性化和情感丰富的语音交互体验。
汀丶人工智能
2024/09/11
6460
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
业界 | 谷歌发布神经音频合成器NSynth:专注于启迪音乐创作
选自Magenta 作者:Jesse Engel等 机器之心编译 参与:晏奇、黄小天 Magenta 的目标之一是运用机器学习发现人类表达的新途径,因此,今天我们骄傲地宣布推出由谷歌大脑和DeepMind团队合力打造的 NSynth(Neural Synthesizer(神经合成器))——一种全新的启迪音乐创作的合成方法。机器之心此前曾对Magenta做过报道,请参见《谷歌Magenta项目是如何教神经网络编写音乐的?》 Magenta 的目标之一是运用机器学习发现人类表达的新途径,因此,今天我们骄傲地宣
机器之心
2018/05/07
1.3K0
业界 | 谷歌发布神经音频合成器NSynth:专注于启迪音乐创作
推荐阅读
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
1.2K0
腾讯警告:你的声音正在被AI「偷走」
7130
用AI打个电话骗走22万欧元,克隆你的语音只需5秒录音
1.2K0
5秒实现AI语音克隆(Python)
1.9K0
拥有AI「变声术」,秒杀了多年苦练的模仿艺能
2K0
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
9100
只要5秒就能“克隆”本人语音!美玉学姐不再查寝,而是吃起了桃桃丨开源
1.5K0
RSAC 2024创新沙盒|Reality Defender:深度伪造检测平台
1.3K0
五分钟示范“教会”演员说外语,还可无缝切换语种,这家AI配音公司刚获2000万美元A轮融资
4740
夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022
7440
声临其境:清华大学和字节跳动提出Neural Dubber神经网络配音器,有望让影视后期效率倍增
8920
一句话复制你的音色:快手单样本语音转换研究入选ICASSP 2021
1.2K0
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
3550
未来AI对实时语音翻译的冲击
2600
Tacotron2、GST、Glow-TTS、Flow-TTS…你都掌握了吗?一文总结语音合成必备经典模型(二)
4K0
从声纹模型到语音合成:音频处理 AI 技术前沿 | 开源专题 No.45
7850
语音合成到了跳变点?深度神经网络变革TTS最新研究汇总
1.3K0
【AI落地应用实战】文本生成语音Parler-TTS + DAMODEL复现指南
6880
AI(文生语音)-TTS 技术线路探索学习:从拼接式参数化方法到Tacotron端到端输出
6460
业界 | 谷歌发布神经音频合成器NSynth:专注于启迪音乐创作
1.3K0
相关推荐
AI:语音克隆MockingBird简介及实践(秒级生成你想要的语音内容)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验