7月11日,2023中国新媒体技术展在湖南国际会展中心举行。本届技术展以“智慧促深融”为主题,重点聚焦人工智能新技术新应用、智慧媒体服务社会治理新场景等,呈现新技术赋能融合发展新生态。
会上,腾讯多媒体实验室展出了自研AI通用作曲框架XMusic,基于AIGC技术,用户只需上传视频、图片、文字、标签、哼唱等任意内容,即可生成情绪、曲风、节奏可控的高质量音乐,能够大幅降低音乐创作的门槛。该产品前几日首度亮相2023年世界人工智能大会,并被评为“镇馆之宝”,引发广泛关注。
随时随地实现AI辅助创作,打造专属“行走的音乐库”
在日常生活中,用户对使用音乐有着多种多样的需求。比如在视频剪辑时,需要应用多样的配乐来让画面更加生动,但音乐搜索一般只能用歌曲名字、歌手名字等指向性强的信息来搜索,需要耗费大量的时间精力;亦或在商超、会场等场所布置时,传统的环境音乐选择容易受到版权限制,很难获得多样且合法的音乐素材。
面对这些难题,腾讯多媒体实验室自研AI通用作曲框架XMusic可以随时随地利用AI辅助实现音乐创作,打造个人专属的“行走的音乐库”。一张图片、一段文字、一个视频,甚至是一段哼唱,XMusic都能够对应生成出乐曲优美连贯、旋律起伏明显、节奏强弱交替的高质量音乐。比如输入“逗趣横生,让人捧腹大笑”的描述,XMusic就会生成一段节奏俏皮、旋律欢快的音乐。
对于视频创作者而言,XMusic无疑是解决配乐难题的一大利器。除此之外,针对互动娱乐、辅助创作、音乐教育、互动娱乐、音乐治疗等诸多场景,XMusic也有着很高的实用价值。
以场景音乐生成为例,XMusic的商用级音乐生成能力可以有效解决线下展厅、体验展、餐厅商超等场景中的环境音乐版权问题,为展厅提供多样化的公播音乐,并在体验展中融入多种智能音乐方案,提升展厅的科技感和体验感。
此外,XMusic也可以发挥重要的教学辅助能力,推进线上音乐教育的发展。比如在智慧音乐课堂中,教师可以用XMusic生成多样的节拍、节奏、音高练习曲目,结合实际教学场景,发挥AI生成音乐的教学辅助能力,为学生在演奏、练耳等多种场景中提供个性化的指导和训练,帮助学生更快地提升音乐技能。
全面AIGC能力矩阵支撑,实现音乐高效精准创作
作为本次技术展中的亮点之一,XMusic背后的腾讯多媒体实验室也受到了广泛关注,一位热爱音乐的科学家,带领一群同样热爱音乐的工程师们从零到一落地了XMusic项目。2019年,腾讯云副总裁、腾讯多媒体实验室负责人、杰出科学家刘杉博士带领实验室开展“基于多模态融合的智能内容生产”相关技术能力研发并逐步完善AIGC能力矩阵。
腾讯多媒体实验室自研AI通用作曲框架XMusic,是基于自研的多模态和序列建模技术,可以将提示词内容解析至符号音乐要素空间,并以此为控制条件引导模型生成丰富、精准、动听的音乐,达到商用级的音乐生成能力要求。
刘杉博士表示,人工智能技术的飞速发展对多媒体和相关领域产生深远影响。“腾讯(多媒体实验室)将继续推动人工智能和多媒体及相关领域的国际和国家标准制定,打造音视频、互动沉浸和智能媒体核心能力矩阵,通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球用户、助力各行业发展并践行科技向善。”
腾讯多媒体实验室还在展区展出前沿技术方面的三个项目:“全景'云'游东北虎豹国家公园”通过自研技术智能影像处理和自研VR360解决方案供所有人在“云端”走进这片山林秘境;“虚实融合技术”产品,可将传统虚拟制片的成本与难度大幅降低,无需传感器,只通过一台相机或手机,就可将自己植入到虚拟世界中;“腾讯水墨画”产品融合了视觉、音乐、文字等多种模态,结合山水画创作、智能作诗、音乐生成等多种技术能力,形成了多模态融合且能互动娱乐的完整技术方案。
腾讯多媒体实验室专注于多媒体和相关领域的前沿技术探索、产品研发和应用落地,其行业领先的视频图片压缩和处理引擎、沉浸式VR系统和智能媒体能力矩阵,通过腾讯云、腾讯视频、腾讯游戏等业务平台服务全球海量用户并助力传媒、文化、旅游等行业的发展。同时代表腾讯参与多个国际及国家标准制定,数十人次担任联合主席、主编等核心职务,数百项技术提案被国际标准采纳,荣获工程艾美奖、技术卢米埃奖、ISO/IEC杰出贡献奖等,享有国际盛誉。
未来,腾讯多媒体实验室将以创新的视角和前瞻的思维,不断探索多媒体技术与AIGC能力的融合,拓展多领域的应用场景,为用户提供更加智能、便捷和丰富的多媒体体验。
请随时与我们联系并分享您的需求
腾讯多媒体实验室
medialab@tencent.com