源 | 全球人工智能 文 | 小象 摘要: 本文简单说明了CNN模型可视化的重要性,以及介绍了一些可视化CNN网络模型的方法,希望对读者有所帮助,使其能够在后续深度学习应用中构建更好的模型。 对于深度学习这种端到端模型来说,如何说明和理解其中的训练过程是大多数研究者关注热点之一,这个问题对于那种高风险行业显得尤为重视,比如医疗、军事等。在深度学习中,这个问题被称作“黑匣子(Black Box)”。如果不能解释模型的工作过程,我们怎么能够就轻易相信模型的输出结果呢? 以深度学习模型检测癌症肿瘤为例,该模
AiTechYun 编辑:yuxiangyu 深度学习中最深入讨论的话题之一是如何解释和理解一个训练完成的模型,尤其是在医疗保健等高风险行业的背景下。“黑盒”这个词经常与深度学习算法联系在一起。如果我们不能解释它是如何工作的,我们如何相信模型的结果呢? 以一个为了检测癌症肿瘤而训练的深度学习模型为例。该模型告诉你它99%确定它检测到了癌症,但它并没有告诉你为什么或怎么确定的。 它是在MRI扫描(磁共振)中找到了一条重要线索,还是仅仅是扫描中的一个污点被错误地检测为肿瘤?这对患者来说是生死攸关的问题,医生经不
百度智能云 注册登录成功后,进入控制台,在左边的导航栏找到产品-》人工智能-》人脸识别
来自于一个网友在技术交流群中问题,我正好之前开发过程中也遇到了类似的问题,写个文章记录一下。
We encourage the participants to use the provided training data for each task, but also allow them to use additional training data. The use of additional training data must be indicated in the “method description” when uploading results to the server.
8月7日,mapboxGL发布了3版本的更新,本文带大家一起来看看mapboxGL3有哪些新的特性。
无论是使用 WPF 全屏窗口,还是高性能全屏透明窗口,都会在 Chrome 97 以及使用 chromium 对应版本内核的应用的视频停止播放。这是 chromium 的一个优化,因为 chromium 认为,如果有全屏窗口盖在上面,自然此时停止播放视频可以节省资源。然而 chromium 却没有考虑到,有很多会议的应用,虽然是全屏的,但也是透明的,于是此时停止播放视频将是非预期的
CVPR2022论文和代码整理:https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo
Visual Tracking via Adaptive Structural Local Sparse Appearance Model
大家好,今天为大家带来的文章是—— PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation。
本文提出了一种使用卷积神经网络进行视频插帧的方法,该方法通过自适应卷积来估计像素插值,从而避免了传统方法中估计运动矢量和插值系数两个步骤之间的不稳定性。实验结果表明,该方法在视频插帧任务上取得了较优的性能,同时对于具有复杂纹理和运动变化的视频,该方法也具有较好的鲁棒性。
原文链接: http://www.gamedev.net/reference/programming/features/simpleSSAO/
原文:KRF: Keypoint Refinement with Fusion Network for 6D Pose Estimation
SSDO 全称 Screen Space Directional Occlusion,可以看做一种实时 GI 算法,是 SSAO 的升级版。
本文介绍的是CVPR2020 Oral论文《 Self-Supervised Scene De-occlusion 》,论文作者来自中国香港中文大学—商汤联合实验室与南洋理工大学。
Landsat8 Collection2表面反射率数据,属Collection2二级数据产品,分辨率为30米,基于陆地表面反射率代码(LaSRC)(版本1.5.0)生成,该算法利用沿海气溶胶波段进行气溶胶反演测试,还利用了MODIS的辅助气候数据和独特的辐射传输模型。 此外,LaSRC算法将观测天顶角硬编码为“0”,太阳天顶角和观测天顶角作为大气校正的一部分参与计算。
本文《Self-Supervised Scene De-occlusion》由香港中文大学和南洋理工大学团队合作完成,被接收为CVPR2020的oral presentation。
在上篇文章的灯光里讲过,灯光是使用形状表面的法向量来决定照亮哪个面的.系统自带形状是使用单一的整个面的向量,而法线贴图则以RGB值定义了精确到每个像素的法向量,这样每个像素对灯光的反应都不同,形成表面崎岖不平的灯光效果
Robust face landmark estimation under occlusion ICCV’13 http://www.vision.caltech.edu/xpburgos/ICCV13/
机器人与其他智能设备需要根据自身搭载的视觉系统实现高效的目标级场景表达以进行接触、物理、遮挡等推理。已知的精确目标模型在未知结构的非参数化重建中起着十分重要的作用。我们提出了一种系统,该系统能够估计实时多视角场景中接触、遮挡已知目标的精确位姿。我们的方法能从单一的RGBD视角估计3D目标位姿,随着相机的移动,能够从多个视角累积位姿估计和非参数化的occupancy信息,并执行联合优化来对接触的多个接触目标进行一致非交叉的位姿估计。
Robust Object Tracking via Sparsity-based Collaborative Model
真实场景下的表情识别一直是令众多研究者十分头疼的课题。这个任务中,尤为令人抓狂的是表情数据集中普遍存在着许多坏的数据(例如被遮挡的人脸,错误的标签或者是模糊不清的图像)。这些数据不仅使得模型难以拟合,还严重拉低了最后的精度。在今年的 CVPR 中,我们惊喜的发现了一篇专门解决这个问题的论文,这篇论文有效的抑制了那些不确定性的数据,并且防止了深度模型对这些坏数据的过拟合。顺藤摸瓜,我们也找到了在 2019 年的 IEEE transactions on image processing 上两篇能有效处理遮挡表情和姿势变化的论文。本篇提前看重点关注 CVPR 2020 中的这篇「Suppressing Uncertainties for Large-Scale Facial Expression Recognition」, 但在解读它之前,我们先有步骤的解读两篇 TIP 作为它的基础,最后详细介绍它的算法和思想。对比性的解读这三篇论文,也许能对研究者们自己的工作有所启发。
标题:Semantic Graph Based Place Recognition for 3D Point Clouds
论文题目:HybridPose: 6D Object Pose Estimation under Hybrid Representations
x1, y1, w, h, 分别代表 左下点坐标 及宽长blur:模糊程度,0——> 清晰 ,1——> 一般模糊 , 2——> 严重模糊expression: 表情 0——> 正常 , 1——> 夸张illumination:光源(应该是曝光程度)0——> 正常 , 1——>极度occlusion:遮挡 0——> 没有遮挡 , 1——> 部分遮挡 , 2——> 严重遮挡pose: 姿势 0——> 正常姿势 , 1——非正常姿势invalid: 无效图片 0——否, 1——> 是
本文针对遮挡人脸检测问题,提出了一个基于CNN的遮挡人脸检测方法。首先,建立了一个包含30,811张带有遮挡的人脸图像的数据库,并提出了用于检测遮挡人脸的CNN网络LLE-CNNs。该网络包含一个Proposal模块、一个Embedding模块和一个Verification模块。Proposal模块用于生成候选区域,Embedding模块用于修复被遮挡的人脸特征,Verification模块用于验证人脸候选区域并调整其位置和尺度。实验结果表明,该方法在遮挡人脸检测任务上取得了较好的性能。
机器之心专栏 机器之心编辑部 到底是谁挡住了谁?遮挡边界又在哪里?对于人类来说,物体之间的遮挡关系非常容易判断,但对于 AI 来说,这个任务就没那么简单了。 从现实世界中的 3D 场景拍摄得到 2D 图片时,会不可避免地产生「遮挡」,即距离相机近的物体会挡住后面的物体,使其部分不可见。如何从一张单目图像中识别遮挡并同时推理出物体间遮挡与被遮挡的关系?这个任务被称为遮挡关系推理(Occlusion relationship reasoning)。 由于图像边界的稀疏性,检索单目图像中物体之间的遮挡关系具有挑
In this paper, our goal is to provide such a physical scene parse: to segment visible regions into surfaces and objects and to infer their support relations. In particular, we are interested in indoor scenes that reflect typical living conditions.
WIDER FACE dataset is a face detection benchmark dataset, of which images are selected from the publicly available WIDER dataset. We choose 32,203 images and label 393,703 faces with a high degree of variability in scale, pose and occlusion as depicted in the sample images. WIDER FACE dataset is organized based on 61 event classes. For each event class, we randomly select 40%/10%/50% data as training, validation and testing sets. We adopt the same evaluation metric employed in the PASCAL VOC dataset. Similar to MALF and Caltech datasets, we do not release bounding box ground truth for the test images. Users are required to submit final prediction files, which we shall proceed to evaluate.
True Positive, False Positive, False Negative
官方文档:http://python3-cookbook.readthedocs.io/zh_CN/latest/c06/p02_read-write_json_data.html
为了解决目标检测任务中小目标检测精度低、误检、漏检率高等问题,有研究者提出了一种基于YOLOv4卷积神经网络的多目标检测方法。 多目标检测作为目标检测领域的一个重要研究方向,一直受到研究人员的广泛关注。目前,在智能交通、智能辅助驾驶和视频监控等领域已经产生了深入的研究。
首先提出一个问题:为什么需要去重建三维世界?这是因为我们身处在三维世界中,所以当需要数字化时,更希望真实场景的表达也是三维表达,这样就能从不同的视角去观察这个真实场景的物体。比如最近非常火的元宇宙,它就是通过这种技术帮助人和虚拟世界进行一个无缝的交互。
Accurate Single Stage Detector Using Recurrent Rolling Convolution CVPR 2017 商汤科技关于目标检测的文献
A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection CVPR 2017 Caffe code : https://github.com/xiaolonw/adversarial-frcnn
本文针对视频目标检测问题提出了一个统一的框架,同时完成了检测和跟踪。该框架基于ResNet50-FPN,采用一种结合区域提议网络和特征金字塔网络的方法,并利用多尺度特征图来检测不同尺度的物体。此外,该框架还提出了一个RoI池化层,用于在特征图上计算相关图,并进行跟踪回归。在COCO数据集上的实验表明,该框架在多物体检测、姿态估计和跟踪任务上取得了领先的性能。
【1】 The Holy Grail of Multi-Robot Planning: Learning to Generate Online-Scalable Solutions from Offline-Optimal Experts 标题:多机器人规划的圣杯:学习从离线最优专家那里生成在线可扩展的解决方案
备注:研究方向+地点+学校/公司+昵称,更快通过申请,长按加细分领域技术交流群,目前有细分领域:图像分割、图像目标检测、论文写作、车道检测、模型优化、目标跟踪、SLAM、点云处理(分割检测)、深度学习。
论文地址: http://arxiv.org/pdf/2010.13302v1.pdf
Landsat8 TOA数据集是将数据每个波段的辐射亮度值转换为大气层顶表观反射率TOA,是飞行在大气层之外的航天传感器量测的反射率,包括了云层、气溶胶和气体的贡献,可通过辐射亮度定标参数、太阳辐照度、太阳高度角和成像时间等几个参数计算得到。为了便于在线分析存储,平台将影像像素值扩大了10000倍。前言 – 人工智能教程 Landsat-8卫星包含OLI(Operational Land Imager 陆地成像仪)和TIRS(Thermal Infrared Sensor 热红外传感器)两种传感器,每16天可以实现一次全球覆盖。 OLI包括9个波段,空间分辨率为30米,其中包括一个15米的全色波段,成像宽幅为185x185km。TIRS用于收集地球两个热区地带的热量流失,能够了解所观测地带水分消耗。
TBDR全称Tile-based Deferred Rendering。它是Power VR独特的TBR技术的一种延伸实现手段。TBR/TBDR通过将每一帧画面划分成多个矩形区域,并对区域内的全部像素分别进行Z值检查,在任务进入渲染阶段之前就将被遮挡的不可见像素剔除掉。因为在渲染之前进行Z-culling操作,这样的充满想象力的做法极大地,甚至能够说海量的削减了终于被渲染像素的数量。不仅大幅减少了系统对像素的处理压力,更极大的节约了 及空间的开销。 TBR技术对显存的节约 Z Occalusion检測软件——VillageMark 虽然TBDR不再像传统的TBR那样须要通过CPU来进行Z值检查。可是TBDR过程须要对画面内全部的像素进行一次“额外”的load过程,这个过程本身不管从哪个角度来讲都是与节约 显存带宽 背道而驰的,尤其是在复杂度极高但Z-Occlusion(Z闭塞)并不严重的场景中更是如此。另外,虽然对画面的矩形划分越细密,GPU对像素进行Z推断的效率和准确率越高,但TBDR过程对画面的 矩形分割 非常机械,这样的划分常常会导致非常多多边形和纹理被Tiles所分割,这些多边形和纹理都必须经过2次甚至4次读取才干保持自身形态的“完整”。这无疑加重了几何和纹理处理过程的负担。
如果你不相信AR应用需要遮挡(或者你甚至不知道这个词到底意味着什么),那你确实需要来看看AR初创公司6D.ai发布的新视频。
【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测 【简介】 简单的说,假设o是观察值,q是模型。 如果对P(o|q)建模,就是Generative模型。其基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷或尽可能的大限制。 这种方法一般建立在统计力学和bayes理论的基础之上。 如果对条件概率(后验概率) P(q|o)建模,就是Discrminative模型。基本思想是有限
---- 点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 新智元 授权 【导读】清华团队CVPR新作,在图像驱动(image animation)任务中较原有SOTA效果提升显著。 2021年初,一股「蚂蚁呀嘿」的妖风吹遍各大社交平台,相信你也曾经刷到过互联网大佬、政要名人、体育明星甚至是动漫人物穿越时空,共同做着夸张的表情,唱着魔性的「蚂蚁呀嘿」的视频。 这是图像驱动(image animation)任务第一次进入大众视野,大家对它的一致印象是「十分有趣」。 时隔一年,清华团队再次发布静图
---- 新智元报道 编辑:明哲师兄 好困 【新智元导读】清华团队CVPR新作,在图像驱动(image animation)任务中较原有SOTA效果提升显著。 2021年初,一股「蚂蚁呀嘿」的妖风吹遍各大社交平台,相信你也曾经刷到过互联网大佬、政要名人、体育明星甚至是动漫人物穿越时空,共同做着夸张的表情,唱着魔性的「蚂蚁呀嘿」的视频。 这是图像驱动(image animation)任务第一次进入大众视野,大家对它的一致印象是「十分有趣」。 时隔一年,清华团队再次发布静图成画新模型demo。
领取专属 10元无门槛券
手把手带您无忧上云