使用Mediapipe的自分割javascript在Networked上传递用户自拍作为纹理，以实现多人体验 - 腾讯云开发者社区

文章/答案/技术大牛

发布

Web ML+ WebAssembly 支持实现 Google Meet 背景模糊功能

首先，我们的解决方案通过将用户，和他们的背景进行分割（稍后将详细介绍我们的分割模型），来处理每个视频帧，使用ML推理来计算出一个低分辨率的蒙版。或者，我们还可以进一步细化蒙版，以使其与图像边界对齐。...在当前版本中，模型推理在客户端的CPU上执行，以实现低功耗和最大的设备覆盖范围。...在XNNPACK和SIMD的加速下，该分割模型可以在Web上以实时速度运行。在MediaPipe灵活配置的支持下，背景模糊/替换解决方案可根据设备能力，调整其处理过程。...在高端设备上，它运行完整的工作流，以提供最佳的视觉质量，而在低端设备上，通过使用轻量级的ML模型进行计算，并且绕过蒙版细化，它仍然可以保持较高的性能。...分割模型细分设备上的机器学习模型必须是超轻量级的，以实现快速推理、低功耗和较小的下载大小。

9583 0

Web ML+ WebAssembly 支持实现 Google Meet 背景模糊功能

首先，我们的解决方案通过将用户，和他们的背景进行分割（稍后将详细介绍我们的分割模型），来处理每个视频帧，使用ML推理来计算出一个低分辨率的蒙版。或者，我们还可以进一步细化蒙版，以使其与图像边界对齐。...然后通过WebGL2使用蒙版来渲染视频，实现背景的模糊或替换。在当前版本中，模型推理在客户端的CPU上执行，以实现低功耗和最大的设备覆盖范围。...在XNNPACK和SIMD的加速下，该分割模型可以在Web上以实时速度运行。在MediaPipe灵活配置的支持下，背景模糊/替换解决方案可根据设备能力，调整其处理过程。...在高端设备上，它运行完整的工作流，以提供最佳的视觉质量，而在低端设备上，通过使用轻量级的ML模型进行计算，并且绕过蒙版细化，它仍然可以保持较高的性能。...分割模型细分设备上的机器学习模型必须是超轻量级的，以实现快速推理、低功耗和较小的下载大小。

1.4K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

万圣节恐怖表演、内衣检测器......2019 年二十大有趣的机器学习项目盘点

，Gucci 等零售商正在探索使用户能够在家中舒适地（地铁上或工作场所）使用其产品的方法。...在这里，Laan Labs（专门从事边缘技术的ML / CV商店）在人体分割模型上应用了溶解粒子效果。 ?...这个项目则着眼于在 iOS 上使用 BERT 进行问答的实现。 ? 代码：https://github.com/huggingface/swift-coreml-transformers?...source=post_page-----e74d7d347c2---------------------- 蒙版和图像修补把自拍照中的手机抹掉 —Abhishek Singh 在镜子里的自拍没有手机实际上是镜像自拍...不论是什么，Abhishek Singh 可以分 3 步把招聘中的手机抹掉：分割模型对属于对象手机类的每个像素进行分类。对分割的手机进行像素级蒙版。对分割手机进行图像修补以创建模糊效果。 ?

8651 0

你不知道的 2024 Web AI 新动态，这将如何改变你我的生活？

自 2023 年以来，Web AI 发生了翻天覆地的变化，今天的演讲主要介绍如下内容：在浏览器中以极快的速度运行全新的大语言模型，页面加载后无需等待服务器端调用延迟，并且在创建商业应用（如视频会议）时能够极大降低成本...预计在未来一年中，随着更多开发人员在实际应用中探索 Web AI，使用量将会进一步增加。这会给业务带来很多好处：减少延迟带来更好用户体验。用户隐私保护。显著降低成本。...有许多创造性的想法等待实现，从增强生产力的 Chrome 插件到 Web 应用本身的功能，我们正处于一个可以真正提升你网页体验的新纪元的开端。实际上，浏览器中的生成式 AI 现在还处于早期阶段。...你可以使用 LLM 执行广泛的任务，这些任务以前仅靠 JavaScript 是无法完成的，例如生成文本、回答文档问题，甚至在网页上定义某些文本，以你可以理解的方式呈现。...Chrome 正在使其翻译和语音识别 API 可以完全离线工作，这意味着在离线状态下你可以使用这些高级功能来增强 web 应用程序的用户体验。

1.1K1 0

Google Meet背后的技术揭秘

通过增强隐私或有趣的视觉功能来改善体验，可以帮助我们将注意力集中在会议本身上。...作为这个目标的一部分，我们最近发布了在 Google Meet 中模糊和替换背景的方法，它使用机器学习来更好地突出参与者，而不管他们周围的环境如何。...我们的解决方案首先通过将用户从背景中分割出来（后面将详细介绍我们的分割模型），利用机器学习推理计算一个低分辨率的 mask 来处理每个视频帧。另外，我们还可以进一步精修 mask，使其与图像边界对齐。...在高端设备上，它运行整个 pipeline 以提供最高的视觉质量，而在低端设备上，它通过切换到轻量级的机器学习模型并绕过 mask 精修以高速运行。...开发的功能甚至在低功耗设备上实现了实时性能和低功耗。

2.1K3 1

2D头像生成3D虚拟人开视频会，谷歌新作让人难绷

机器之心报道编辑：泽南、亚鹂未来人与人的交流，难道是这个样？开视频远程会议的时候，很多人都不喜欢打开摄像头。即使开了，在界面上大家也都被框在不同的窗口里。...在开虚拟会议时，参与者通常在电脑前保持静止。系统应增强他们在屏幕上的动作，以模仿头部转动和眼神接触等动态身体动作，这些动作可作为更有效地跟进对话的提示。 DC4、尽量减少认知负荷。...接着使用 MediaPipe 自拍分割模型分割前景，并将处理后的图像馈送到 U-Net 神经网络。其中，编码器逐渐缩小图像，而解码器将特征分辨率提高回原始分辨率。...为了实现视差效果，该团队根据使用 MediaPipe 人脸检测所检测到的本地用户的头部移动来调整虚拟渲染摄像机。音频会被用作输入到下一节中将要解释的语音驱动布局转换算法。...与作为基准的传统视频会议相比，研究发现 ChatDirector 显著改善了与语音处理相关的问题，这表现在用户对注意力转移辅助的积极评价上。

3031 0

业界 | 谷歌用 AI 让自拍一键变表情包，斗图从此立于不败之地

AI科技评论按：为了让你在聊天斗图中立于不败之地，谷歌使用机器学习技术，最新开发了一个可以让你用自拍生成个人专属表情包的工具，更新在自家聊天软件Allo上。...拍照、分享、再查看——自拍已经成为很多人的日常习惯，我们和香车自拍、美装自拍、旅行自拍，还有“早晨，我醒了~”诸如此类的自拍。自拍已经成为人类社会行为的一部分，长久以来被用来展示自我。...但正如谷歌用户体验项目的负责人，Jason Cornwell所指出的那样，制作某一个人的卡通画并不是最终的目标。“如何做一些不只能表现你自己的外貌颜值，还能投射你的个性的东西？”...相反，也许这将是一个用户专属的形象，可以为自己重新塑造出一个表情神秘的女性形象，还可以跨越不同的文化和时代。但是目前我们在惠特尼双年展上还没有发现什么酷炫的东西，也许需要由谷歌这样的公司来打破僵局。...例如，艺术家最初设计的发型，用于实验在人工介入下，训练网络为自拍匹配相应的漫画。之后，人工评判输出的表情和输入照片的匹配程度，以了解工具的表现。

1.1K8 0

Google将跨平台AI管道框架MediaPipe引入网络

基本上，这是一种快速的方法，可以通过流行的机器学习框架（例如Google自己的TensorFlow和TensorFlow Lite）以模块化的方式执行对象检测、面部检测、手部跟踪、多手跟踪、头发分割以及其他此类任务...在图形和渲染方面，MediaPipe现在会自动直接进入WebGL，这是一个JavaScript API，用于在任何兼容的Web浏览器中渲染交互式2D和3D图形，从而使该浏览器在运行时创建一个虚拟机，可以非常快速地执行指令...API促进了JavaScript与C ++之间的通信，从而允许用户直接使用JavaScript更改MediaPipe图形并与之交互。...MediaPipe团队成员Michael Hays和Tyler Mullen在博客中解释说：“由于一切都直接在浏览器中运行，因此视频永远不会离开用户的计算机，并且每次迭代都可以在实时网络摄像头流（以及很快的任意视频...用户可以使用鼠标和滚轮平移并放大图形表示形式，并且可视化效果实时反映在编辑器中所做的更改。 Hays和Mullen指出，当前基于Web的MediaPipe支持仅限于Google提供的演示图。

1.8K2 0

谷歌发布 MediaPipe Holistic，实现移动端同时进行人脸、手部和人体关键点检测跟踪

还将引入 MediaPipe 新的即用型 API，用于研究(Python端)和网页推理(JavaScript端)，以方便更多人使用。...MediaPipe Holistic pipeline 概览 MediaPipe Holistic 使用姿势预测（在每一帧上）作为额外的 ROI 先验，来减少对快速运动做出反应时 pipeline 的响应时间...使用TFLite GPU在各种中端设备上的性能，以每秒帧数（FPS）衡量由于 pipeline 的多级性，性能又多两个优点。...为了展示 MediaPipe Holistic 的质量和性能，作者构建了一个简单的远程控制界面，该界面在浏览器中本地运行，无需鼠标或键盘，就能实现令人注目的用户交互。...在依靠精准的手部检测与后续的手势识别映射到固定在用户肩部的 "触控板 "空间之下，可实现 4 米范围内的远程控制。当其他人机交互方式不方便的时候，这种手势控制技术可以开启各种新颖的使用场景。

2.2K2 0

4米以内实现远程手势控制！谷歌AI新研究让你抛掉键鼠操控屏幕

MediaPipe Holistic 作为 MediaPipe 的一部分发布，可以在移动设备(Android、 iOS)和桌面上使用。...例如，姿态估计模型以较低的分辨率(256x256)作为输入。但是如果从图像中剪切手部和脸部的区域来传递给他们各自的模型，图像的分辨率会太低，无法精确清晰表达。...然而，在快速移动过程中，跟踪器可能会丢失目标，这就要求探测器在图像中重新定位目标。 MediaPipe Holistic使用姿态预测(在每一帧上)作为额外的 ROI，以减少快速移动时管道的响应时间。...用户可以操作屏幕上的对象，坐在沙发上时在虚拟键盘上打字，指向或触摸特定的脸部区域(例如，静音或关闭摄像头)。...在下面，它依靠精确的手势检测，然后将手势识别映射到固定在用户肩膀上的“轨迹板”空间，从而实现4米以内的远程控制。

7522 0

Adobe等新研究把「自拍」变「他拍」，效果感人！

要想解决这个问题，可以选择随身携带三脚架或自拍杆，也可以选择随身携带一个朋友作为摄影师（该方法对单身狗极其不友好）。或者，你还可以选择相信后期修图的艺术。...因此，他们提出借助合成「自拍 - 他拍」图像对和自监督学习的方法来解决上述问题。...UV 空间中修补身体纹理，空间中大部分是不变的原始身体姿态，因此在面临合成数据的瑕疵时更具鲁棒性。...总的来说，为了解决「unselfie」任务，研究者提出了下图所示的三段式 pipeline：首先在数据库中搜索最相近的他拍姿势，然后执行基于坐标的身体纹理修补，最后使用合成模块来细化结果，并在背景上合成它们...研究者在 Amazon Mechanical Turk (AMT)上对该方法以及 DPIG、VUNET 和 PATN 方法进行了用户研究。结果显示，该方法优于其他方法（如下表 1 所示）。 ?

7133 0

没关系，微视用AI打造你我的舞林大会，一张照片就可以

在人体动作迁移实现过程中，动作跨度大、像素搬移多、纹理复杂、动作自由度高和自遮挡频繁等干扰因素导致生成指定姿态的人体一直比较困难。...对于自遮挡用户图表现较好，但其纹理生成来源于纹理 embedding，导致在复杂纹理条件下还原度不高。...精准的人体分割还可以更好地帮助背景 inpainting 网络完成背景修补。因此，人体分割可以作为姿态迁移 GAN 网络的多任务监督之一，更好地约束用户图在目标姿态下的 shape 生成。...其中，QQ 相机漫画脸特效使用的技术是光影实验室自研算法 GYSeg，该算法在 MIT 场景解析国际竞赛（Scene Parsing Benchmark）中斩获冠军；微视 APP 中的迪士尼童话脸特效则是全球首家在手机上为用户提供实时个性化...此外，作为从人脸动作迁移到人体姿态迁移的巨大跨越，新增跳舞功能使得用户在微视 APP 中的体验更加丰富有趣，同时也为用户之间的交流提供了更丰富的内容。

1.3K2 0

Wasm 为 Web 开发带来无限可能

https://google.github.io/mediapipe/ 它支持多个平台，融入了 WebAssembly 和 WebGL 的强大能力，可以通过 JavaScript 在 Web 上提供机器学习模型...例如，Emscripten 提供 SDL 实现，可以用于在画布上绘制内容以及播放 Web 中的音频，来转换对 WebGL 的调用。...想要使用这些库中的结果，还需要一些中间层来转换双向传递的值。...在 Emscripten 中实现这点最简单的方法，是使用一个叫 Embind 的功能，下面是一个示例： // quick_example.cpp #include ...JavaScript 函数形式声明对外开放的 API，以及转换作为实参传递到 C++ 函数的值或者从 C++ 返回的值。

2.2K4 0

谷歌开源基于 ML 的手部跟踪算法：手机端实时检测，多个手势同时捕捉

概述能够对手的形状和运动轨迹进行感知是改善用户在不同的技术领域和平台上的体验的一个重要组成部分。...利用上述技术，我们实现了对手掌的平均检测精度为 95.7%；而使用常规的交叉熵损失并且在没有解码器的情况下，检测精度基准仅为 86.22%。...图 3 第一行图片为对齐的手部通过实时标注传递到跟踪网络；第二行图片为使用实时标注渲染合成手部图像。然而，单纯的合成数据很难推广到更广泛的领域。...Mediapipe 附带了一组可扩展的计算器，可用于解决各种设备和平台的模型推理、媒体处理算法以及数据转换等任务。而像裁剪、渲染和神经网络计算这样的单个计算器，可以独立在 GPU 上执行。...我们通过从当前帧中计算所得的手部关键点来推断后续视频帧中的手部位置实现手部跟踪，从而无需在每个帧上运行掌上检测器。

2.7K3 0

一周AI最火论文 | 迈向强人工智能的四个步骤

此类设备可以进行实时医疗保健监控，让用户参与到监控之中并为他们提供长期医疗支持。此外，它们还减少了用户们花费在治疗上的时间以及需要去医院的时间。...在近日的一项研究中，研究人员试图改善步态分析的硬件和软件组件。他们使用安装在移动遥控机器人上的低成本RGB摄像头设计了一种新型的无标记步态分析设备。...远程机器人是半自动机器人，可以使用无线网络进行远程控制。该设备支持远程控制、实时视频聊天、自动应答和自平衡。...在使用手动标记的2D和3D地面真实数据测试了该方法后，结果表明，与商用多摄像机运动捕捉系统相比，该方法具有竞争优势，并且硬件成本更低这是朝着在家庭环境中进行稳健的步态分析迈出的一大步，这反过来又可以实现早期医疗干预并减少用户的医疗费用...AutoFlip是建立在MediaPipe框架的基础上的，MediaPipe框架支持开发用于处理时间序列多模式数据的管道。

7052 1

使用MediaPipe进行设备上的实时手部跟踪

来源 | googleblog 编辑 | 代码医生团队能够感知手的形状和运动，这是改善各种技术领域和平台的用户体验的重要组成部分。...今天宣布发布一种新的手感知方法，在6月份预览了CVPR 2019，在MediaPipe中实现- 一个开源跨平台框架，用于构建管道以处理不同模态的感知数据，如视频和音频。...通过MediaPipe实现使用MediaPipe，可以将此感知管道构建为模块化组件的有向图，称为计算器。...Mediapipe附带了一组可扩展的计算器，可以解决各种设备和平台上的模型推理，媒体处理算法和数据转换等任务。单独的计算器，如裁剪，渲染和神经网络计算，可以专门在GPU上执行。...通过从当前帧中的计算的手部关键点推断后续视频帧中的手部位置来实现这一点，从而消除了在每个帧上运行手掌检测器的需要。

10.6K2 1

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

上使用。...MediaPipe 演示案例在今年六月举行的 CVPR 会议上，Google Research 开源了 MediaPipe 的预览版。为方便开发者学习和使用，我们提供了多个桌面系统和移动端的示例。...MediaPipe 在开源了多个由谷歌内部团队实现的计算单元（Calculator）的同时，也向用户提供定制新计算单元的接口。...创建一个新的 Calculator，需要用户实现 Open()，Process()，Close() 去分别定义 Calculator 的初始化，针对数据流的处理方法，以及 Calculator 在完成所有运算后的关闭步骤...我们最近在谷歌 AI 博客上发表了一篇相关文章: “使用 MediaPipe 实现设备端实时手部追踪”介绍了我们如何使用 MediaPipe 来搭建这个应用。

9.3K4 2

腾讯云AI「开了一个脑洞」

最后是用户的个性化形象定制，通过自拍或上传照片，可将用户人脸融合在不同形象中，打造独特的个人形象。...在今年的六一儿童节，腾讯云AI通过年龄变化能力推出的《童年照》，帮助用户实现一键回到童年时代，上线3小时就有超过15万人的体验。...用户可以在现场通过自己的手机体验换景自拍、换装自拍等功能，现场用户生成的照片将会实时显示在大屏幕的“照片背景墙”中，用户也可以对生成的照片进行实时分享，为新中国点赞。...当然，分割只是第一步，你也可以植入更多的营销创意：人像分割：识别图像中的人像并抠出，然后选择任意指定的图像作为新的背景进行合成，实现背景图像的替换与合成，有效降低P图成本。...人像分割+人脸特效：使用人像分割进行抠像处理，对人脸进行美颜，然后利用人脸融合、人脸性别转换、人脸年龄变换、人脸贴纸等做进一步的特效处理，打造最具趣味性的娱乐玩法。

3.6K3 0

谷歌发布MediaPipe Diffusion插件，「移动端」可用的图像生成控制模型

从噪声图像开始，在每个步骤中，扩散模型会逐渐对图像进行降噪以生成符合目标概念的图像，将文本提示作为条件可以大大提升图像生成的效果。...T2I Adapter是一个较小的网络（7700万参数），在可控生成中可以实现类似的效果，只需要将条件图像作为输入，其输出在所有扩散迭代中共享。不过T2I适配器模型并不是为便携式移动设备设计的。...插件网络是一个轻量级的模型，只有600万参数，使用MobileNetv2中的深度卷积和反向瓶颈（inverted bottleneck）在移动设备上实现快速推理。...S23）上测量了三种模型的性能：在服务器上，使用50个扩散步骤运行所有三个模型；在移动端上，使用MediaPipe图像生成应用程序运行20个扩散步骤。...插件在不同移动的设备上的推理时间（ms）总结在这项工作中，研究人员提出了MediaPipe，一个可在移动端使用的、有条件的文本到图像生成插件，将从条件图像中提取的特征注入扩散模型，从而控制图像的生成过程

9612 0

动手画个二次元老婆，上科大团队这个APP刚上线就火出圈，网友：我学废了

「WAND」刚发布就火出了圈，在社交网络上看，很多人已经率先试用了，作品是这样的：画出了各种漂亮的小姐姐：嗯，三次元也可以的，还可以这样操作：虽然但是，一部分手残党的失败案例，也会让自己...一旦选择「Realistic」，再来张自拍，你或许会陷入深深的思（jue）考（xing）之中…… 最终，用户们悟到了这个 App 的真谛：其实，使用的时候也有一些小技巧。...相信用不了太久，Android 用户就可以在自己的手机上亲手画二次元老婆了，同时「老公版」的WAND 也正在制作中。...SOF 能够在任意视图渲染一致的 2D 语义分割图，然后将其与生成的纹理图融合并使用语义 instance-wise（SIW）模块将其风格化为人像图像。...在渲染阶段，给定任意查询视点，该方法将使用光线移动框架将 SOF 映射为 2D 分割图。SOF 的使用确保了视图的一致性。

6721 0

点击加载更多

Web ML+ WebAssembly 支持实现 Google Meet 背景模糊功能

Web ML+ WebAssembly 支持实现 Google Meet 背景模糊功能

万圣节恐怖表演、内衣检测器......2019 年二十大有趣的机器学习项目盘点

你不知道的 2024 Web AI 新动态，这将如何改变你我的生活？

Google Meet背后的技术揭秘

2D头像生成3D虚拟人开视频会，谷歌新作让人难绷

业界 | 谷歌用 AI 让自拍一键变表情包，斗图从此立于不败之地

Google将跨平台AI管道框架MediaPipe引入网络

谷歌发布 MediaPipe Holistic，实现移动端同时进行人脸、手部和人体关键点检测跟踪

4米以内实现远程手势控制！谷歌AI新研究让你抛掉键鼠操控屏幕

Adobe等新研究把「自拍」变「他拍」，效果感人！

没关系，微视用AI打造你我的舞林大会，一张照片就可以

Wasm 为 Web 开发带来无限可能

谷歌开源基于 ML 的手部跟踪算法：手机端实时检测，多个手势同时捕捉

一周AI最火论文 | 迈向强人工智能的四个步骤

使用MediaPipe进行设备上的实时手部跟踪

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

腾讯云AI「开了一个脑洞」

谷歌发布MediaPipe Diffusion插件，「移动端」可用的图像生成控制模型

动手画个二次元老婆，上科大团队这个APP刚上线就火出圈，网友：我学废了

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐