音频 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签音频

#音频

LTX2.3 最强导演台工作流来了！一键实现「视频参考 + 相机运动控制 + 音频驱动」附工作流踩坑记录

疯狂的KK 12小时前2026-06-29 13:48:58

如果一个视频的运镜非常的炫酷，但是对专业的运镜又不懂，那么怎么实现？反推视频？又不够细节，我们生图都可以参考图，如果视频能够严格遵循轨迹运动就好了，LT...

1200

国外大学生都用FPGA做什么项目（十六）

FPGA技术江湖 13小时前2026-06-29 13:04:02

阔别已久的大学生项目，今天又开始了，主要是2024年和2026年两年的（之前是到2023年的）。

2800

PD 芯片：转接器边充边传的技术，手机快充并进行数据传输

legendary_163 17小时前2026-06-29 09:00:56

手机直播、短视频录制时，通常需要外接声卡、采集卡、硬盘存储素材，外设持续耗电会导致手机快速掉电。PD 芯片转接器同时打通快充与数据通道，直播全程稳定补电，画面录...

2200

AI 懒人起号秘籍！用 Coze 工作流 3 步搞定「治愈系老爷爷」图文 / 视频，新手 7 天暖哭全网转评赞爆单～

HELLO程序员

GSK(中国) ｜全栈架构师 (已认证)

3天前2026-06-26 18:14:17

12700

Adobe Audition 音频问题定位与修复：基于频谱分析的四类典型场景处理方案

PC电脑医生 3天前2026-06-26 10:14:50

摘要：录音中出现的噪音、回声、削波失真和间断性杂音，在波形图上往往难以直观判读，但在频谱视图下每种问题都有独特的"指纹"。本文从频谱诊断入手，拆解四类高频音频...

9010

Qwen3.5-Omni 技术报告精读：一个模型同时"看、听、说"，215 项 SOTA 正面挑战 Gemini

唐国梁Tommy 4天前2026-06-25 21:40:11

2026 年 4 月，阿里 Qwen 团队把 Qwen3.5-Omni 的技术报告挂上了 arXiv。它的野心很直接：在 215 项音频与音视频任务上拿下 SO...

13000

字节跳动 Seedance 2.0：当 AI 视频生成学会了"听声辨位"

唐国梁Tommy 4天前2026-06-25 21:40:04

在多语种音频方面表现同样突出：西班牙语音频质量达到 4.14，英语音频提示跟随达到 4.20，印尼语也有 4.14。方言处理能力也是亮点——四川话、东北话、粤语...

18100

微软 VibeVoice：迈向超长、高质量、多人的对话语音生成

唐国梁Tommy 4天前2026-06-25 21:09:24

在AI语音合成领域，我们已经习惯了手机导航的清晰指引、智能音箱的简短应答。这些单一、短句的文本到语音（Text-to-Speech, TTS）技术已相当成熟。但...

11510

万能视频下载 Skills之后，视频总结 Skills 来了

Ai学习的老章 4天前2026-06-25 16:54:57

大家非常喜爱这个Skills，问了很多我没有考虑到但实际上这个Skills都具备的能力，比如某🍠

10710

老码农眼中的提示词注入攻防——13种拆解

半吊子全栈工匠 4天前2026-06-25 11:30:31

很多多模态大模型会处理音频输入，攻击者不用上传正常的语音，只要上传近乎静音的、带尖峰噪音的音频，就能干扰模型对文本意图的判断。有公开的研究显示，把一段带尖峰噪音...

12310

使用 GNU Radio 理解信号调制：调幅、调频、调相与数字调制

yichen 5天前2026-06-24 19:34:47

前面我们一直研究的是接收、重点是解调信号，从无线电信号里把信息取出来，接下来看看如何调制信号，将基带信号转换成适合通过无线信道传输的信号（如果是真实发射...

10000

ComfyUI v0.25.1更新全解析：Kling V3-Turbo正式接入，文生视频与图生视频能力全面增强，价格计算逻辑同步升级

福大大架构师每日一题 5天前2026-06-24 15:56:32

ComfyUI v0.25.1 是一个最新发布版本，发布时间为 2026年6月20日。本次版本说明中明确标注为 Immutable release，也就是说，这...

11810

多模态理解首选VITA：企业AI理解的可靠伙伴

hollyx 5天前2026-06-24 14:10:00

VITA（Youtu-VITA）是腾讯云优图实验室自研的原生多模态理解大模型，支持视频、图片、音频的统一理解。本文从技术架构、工程性能、成本控制、接入便捷性等角...

10810

开源AI音乐ACE1.5XL整合包对比Suno V5

疯狂的KK 5天前2026-06-24 13:03:59

为了测试AI音乐的效果，专门写了一首给KK的情歌，对比最新开源的AI音乐项目与闭源的Suno V5效果，详细到参数、歌词改编、以及模式使用。说下ACE真的很良心...

7610

为什么选择腾讯云VITA？五大核心优势深度解读

克劳德2048 5天前2026-06-24 12:05:27

腾讯云VITA（Youtu-VITA）是优图实验室自研的原生多模态理解大模型，支持视频、图片、音频的统一理解。本文从原生多模态架构、工程效率、成本控制、长视频处...

9700

音视频理解分离？VITA原生融合方案的优势

克劳德2048 5天前2026-06-24 12:00:03

VITA提供两个可用模型供用户选择。如果不需要处理音频，优先选择vita-video-3.0模型，该模型支持视频画面（不含音频）和图片。如果需要处理音频，选择v...

8400

视频理解太慢？VITA"秒级理解"的技术原理

gavin1024 5天前2026-06-24 11:20:00

VITA 3.0具备音频语义理解能力，无需借助外部ASR等工具，可直接处理语音识别、音频内容总结等任务。面对带声音的视频时，VITA能够直接"听懂并理解"，而非...

7610

Claude 限制接入龙虾智能体？Agnes AI 厂家直接掀桌：多模态 API 永久免费，零成本接入全生态！

程序那些事儿 5天前2026-06-24 10:52:11

在 AI 智能体的江湖里，最近最让极客们炸裂的新闻，不是 Claude 的限制，而是 Agnes AI 的“掀桌子”操作。

22610

107 分钟的会议录音，免费转文字+自动标注说话人

勇哥AI笔记 6天前2026-06-23 19:54:17

按测试数据估算，1 秒音频约产生 14 个 token，8000 token 大约对应 9.5 分钟，单次请求最多处理约 10 分钟音频。

13210

当「提示词工程师」开始像制片人一样思考，Seedance 2.0 Skill OS 深度解析！

开源星探 6天前2026-06-23 17:47:18

模型能做多模态输入（文字+图片+视频+音频），但大多数人只会用纯文字或图+文这两条腿走路。

21010

#音频

LTX2.3 最强导演台工作流来了！一键实现「视频参考 + 相机运动控制 + 音频驱动」附工作流踩坑记录

国外大学生都用FPGA做什么项目（十六）

PD 芯片：转接器边充边传的技术，手机快充并进行数据传输

AI 懒人起号秘籍！用 Coze 工作流 3 步搞定「治愈系老爷爷」图文 / 视频，新手 7 天暖哭全网转评赞爆单～

Adobe Audition 音频问题定位与修复：基于频谱分析的四类典型场景处理方案

Qwen3.5-Omni 技术报告精读：一个模型同时"看、听、说"，215 项 SOTA 正面挑战 Gemini

字节跳动 Seedance 2.0：当 AI 视频生成学会了"听声辨位"

微软 VibeVoice：迈向超长、高质量、多人的对话语音生成

万能视频下载 Skills之后，视频总结 Skills 来了

老码农眼中的提示词注入攻防——13种拆解

使用 GNU Radio 理解信号调制：调幅、调频、调相与数字调制

ComfyUI v0.25.1更新全解析：Kling V3-Turbo正式接入，文生视频与图生视频能力全面增强，价格计算逻辑同步升级

多模态理解首选VITA：企业AI理解的可靠伙伴

开源AI音乐ACE1.5XL整合包对比Suno V5

为什么选择腾讯云VITA？五大核心优势深度解读

音视频理解分离？VITA原生融合方案的优势

视频理解太慢？VITA"秒级理解"的技术原理

Claude 限制接入龙虾智能体？Agnes AI 厂家直接掀桌：多模态 API 永久免费，零成本接入全生态！

107 分钟的会议录音，免费转文字+自动标注说话人

当「提示词工程师」开始像制片人一样思考，Seedance 2.0 Skill OS 深度解析！

热门专栏

腾讯开源的专栏

进击的Coder

贤羽的前端小栈

张善友的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

#音频

LTX2.3 最强导演台工作流来了！一键实现「视频参考 + 相机运动控制 + 音频驱动」 附工作流踩坑记录

国外大学生都用FPGA做什么项目（十六）

PD 芯片：转接器边充边传的技术，手机快充并进行数据传输

AI 懒人起号秘籍！用 Coze 工作流 3 步搞定「治愈系老爷爷」图文 / 视频，新手 7 天暖哭全网转评赞爆单～

Adobe Audition 音频问题定位与修复：基于频谱分析的四类典型场景处理方案

Qwen3.5-Omni 技术报告精读：一个模型同时"看、听、说"，215 项 SOTA 正面挑战 Gemini

字节跳动 Seedance 2.0：当 AI 视频生成学会了"听声辨位"

微软 VibeVoice：迈向超长、高质量、多人的对话语音生成

万能视频下载 Skills之后，视频总结 Skills 来了

老码农眼中的提示词注入攻防——13种拆解

使用 GNU Radio 理解信号调制：调幅、调频、调相与数字调制

ComfyUI v0.25.1更新全解析：Kling V3-Turbo正式接入，文生视频与图生视频能力全面增强，价格计算逻辑同步升级

多模态理解首选VITA：企业AI理解的可靠伙伴

开源AI音乐ACE1.5XL整合包对比Suno V5

为什么选择腾讯云VITA？五大核心优势深度解读

音视频理解分离？VITA原生融合方案的优势

视频理解太慢？VITA"秒级理解"的技术原理

Claude 限制接入龙虾智能体？Agnes AI 厂家直接掀桌：多模态 API 永久免费，零成本接入全生态！

107 分钟的会议录音，免费转文字+自动标注说话人

当「提示词工程师」开始像制片人一样思考，Seedance 2.0 Skill OS 深度解析！

腾讯开源的专栏

进击的Coder

贤羽的前端小栈

张善友的专栏

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LTX2.3 最强导演台工作流来了！一键实现「视频参考 + 相机运动控制 + 音频驱动」附工作流踩坑记录