文章:Monocular Depth Estimation Based On Deep Learning: An Overview
原文:Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview
近日,来自Two sigma AI Core团队的David Kriegman教授进行了题为《Deep Learning for Sequences in Quantitative Finance》在线分享。David Kriegman是加州大学圣地亚哥分校的计算机科学与工程教授,也是计算机视觉的专家。他于今年1月份加入了Two Sigma AI Core团队。
Deep learning for Spatio-Temporal Data Mining: A Survey
标题:MonoRec: Semi-Supervised Dense Reconstruction in Dynamic Environments from a Single Moving Camera
深度估计,就是获取图像中场景里的每个点到相机的距离信息,这种距离信息组成的图我们称之为深度图,英文叫Depth map。
呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦!
摘要:深度神经网络(DNNs)的可迁移性在图像和语言处理领域取得了显著进展。然而,由于表格之间的异构性,这种DNN的优势在表格数据预测(例如回归或分类任务)方面仍未充分利用。语言模型(LMs)通过从不同领域提炼知识,具有理解来自各种表格的特征名称的能力,有望成为在不同表格和多样化预测任务之间转移知识的多才多艺的学习者,但它们的离散文本表示空间与表格中的数值特征值不兼容。在本文中,我们介绍了TP-BERTa,这是一个专门针对表格数据预测进行预训练的LM模型。具体而言,一种新颖的相对大小标记化将标量数值特征值转换为精细离散的高维标记,而一种内部特征注意方法则将特征值与相应的特征名称集成在一起。全面的实验证明,我们的预训练TP-BERTa在表格DNNs中表现出色,并且在典型的表格数据领域与梯度提升决策树模型相竞争。
论文题目:P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo
我们提出的D3VO单目视觉里程计框架从三个层面上利用了深度学习网络,分别是:利用深度学习的深度估计,利用深度学习的位姿估计,以及利用深度学习的不确定度估计。首先我们提出了一个在双目视频上训练得到的自监督单目深度估计网络。特别的,它利用预测亮度变换参数,将训练图像对对齐到相似的亮度条件上。另外,我们建模了输入图像像素的亮度不确定性,从而进一步提高深度估计的准确率,并为之后的直接法视觉里程计提供一个关于光照残差的可学习加权函数。评估结果显示,我们提出的网络超过了当前的sota自监督深度估计网络。D3VO将预测深度,位姿以及不确定度紧密结合到一个直接视觉里程计方法中,来同时提升前端追踪以及后端非线性优化性能。我们在KITTI以及EuRoC MAV数据集上评估了D3VO单目视觉里程计的性能。结果显示,D3VO大大超越了传统的sota视觉里程计方法。同时,它也在KITTI数据集上取得了可以和sota的stereo/LiDAR里程计可比较的结果,以及在EuRoC MAV数据集上和sota的VIO可比较的结果。
【GiantPandaCV导语】本文针对3维视觉中的深度图补全问题,介绍了一下近年基于深度学习的RGB-D深度图补全算法进展。深度图的质量对3维视觉至关重要,深度图的优劣极大地影响了后续的3d识别等工作,但目前较多研究聚焦于自动驾驶领域的Lidar深度图的补全,而对RGB-D相机涉猎较少,故本文介绍几篇基于consumer RGB-D cameras深度图补全的深度学习方法,以此来看看近期该领域的发展现状。
Self-supervised Learning of Depth Inference for Multi-view Stereo (CVPR2021)
深度学习方法在准确识别疾病相关基因以进行诊断、预后和治疗方面发挥着至关重要的作用。2023年7月,《Frontiers in Genetics》发表综述文章,系统地评估了基于深度学习技术的多组学数据分析的最新趋势及其在疾病预测中的应用。
深度神经网络(DNN)如今已经无处不在,从下围棋到打星际,DNN已经渗透到图像识别、图像分割、机器翻译等各种领域,并且总是表现惊艳。
(Xingxing Zuo, Nate Merrill, Wei Li, Yong Liu, Marc Pollefeys, and GuoquanHuang.CodeVIO: Visual-Inertial Odometry with Learned Optimizable DenseDepth.IEEE International Conference on Robotics and Automation (ICRA) 2021.)
在开放日上,深信服总代,现场Demo 展现了许多熟悉而又炫酷的应用。你知道怎样操作聚类算法和CNN 从短视频从抽取最悦目的小姐姐么?你知道怎样用单摄手机拍出柔顺的配景虚化图么?这些可能用耳熟能详的算法就能完成,只不外尝试室会将它们做到极致并嵌入到APP 中。
在开放日上,现场 Demo 展现了很多熟悉而又炫酷的应用。你知道怎样利用聚类算法和 CNN 从短视频从抽取最好看的小姐姐么?你知道怎样用单摄手机拍出柔顺的背景虚化图么?这些可能用耳熟能详的算法就能完成,只不过实验室会将它们做到极致并嵌入到 APP 中。
熟悉机器学习的小伙伴们都知道,实际场景中的机器学习可不是一番风顺的过程,不是所有数据都可以直接喂给模型。
机器学习:构建自动根据数据开展学习的模型的技术。可以分为“传统机器学习” 和 “深度机器学习”。 传统机器学习
选自 Alexgkendall.com 作者:Alex Kendall 机器之心编译 参与:候韵楚、黄小天 深度学习使计算机视觉得以蜕变。如今,绝大多数问题的最佳解决方案是基于端到端的深度学习模型,尤其是当卷积神经网络倾向于开箱即用后便深受青睐。但这些模型主要为大型黑箱,其透明度很差。 尽管如此,我们仍旧在深度学习领域获得了显著成果,即研究人员能通过一些数据以及使用基本的深度学习 API 所编写的20 余行代码来获得大量容易得到的成果。虽然这些成果很有突破性,但我认为它们往往过于理想化,且缺乏原则性理解
原文:http://alexgkendall.com/computer_vision/have_we_forgotten_about_geometry_in_computer_vision/ 作者: Alex Kendall 编译: KK4SBB 如今,深度学习已颠覆计算机视觉领域,端到端的深度学习模型几乎是任何问题的最佳解决方案。尤其是卷积神经网络,因为它效果拔群而广受欢迎。可是,这些深度学习模型都像是一个个黑盒子,盒子内的奥秘仍然不为人所知。笔者认为,现在的研究人员只是简单地写少量代码来调用深度学习
论文名称:A Survey on Deep Learning Architectures for Image-based Depth Reconstruction
2022年10月7日,瑞典乌普萨拉大学的研究者在预印本网站bioRxiv上发布论文“Combining molecular and cell painting image data for mechanism of action prediction”。作者利用化合物结构信息(摩根指纹)和细胞形态信息(五通道细胞绘制图像)建立模型,预测化合物的作用机制。结果显示,在两种数据上进行训练与单独的数据训练相比,具有明显的加性/协同效应,整合多个数据源有益于MoA预测。
论文题目:MVSNet: Depth Inference for Unstructured Multi-view Stereo, (ECCV2018 Oral)
国防科技大学计算机学院刘杰今天为大家带来的主题是:AI赋能基于网格离散的科学与工程计算,它主要分五个方面:
📷 向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程 公众号:datayx 在大数据和人工智能技术加持下,不同行业各种新兴的风险控制手段也正在高速发展。但这些风险信息散落在互联网的海量资讯中,若能从中及时识别出风险事件并挖掘出潜在的风险特征,能够大幅提升识别和揭示风险的能力。而风险事件以文本的形式存在,需要采用自然语言理解模型实现风险事件的高精度智能识别,其本质是属于一个文本分类任务。 NLP(自然语言处理)作为人工智能领域皇冠上的“明珠”,其技术的科研创新一直精进不休。而文本分类在自然
当你想进行预测的时候,使用深度学习要比其他机器学习技术更快更有效。 深度学习是一门快速发展的学科,它将数据中高层次化的模式建模成复杂的多层网络。因为这是建模一个问题最一般的方法,深度学习拥有这解决大部分机器学习和人工智能领域问题的潜力。类似微软、谷歌这样的公司使用深度学习来解决诸如语音识别,图像识别,三维物体识别,和自然语言处理等领域的难题。 然而,深度学习需要进行大量的计算来构建一个有用的模型。到目前为止,计算成本和可用性限制了其实际应用。此外,研究人员缺乏理论基础和将深度学习运用到实际问题之中的经验知识
📷 来源:专知本文为论文介绍,建议阅读5分钟本文从监督学习开始,最终目的是通过提出新的理论框架和实用工具,阐明深度神经网络在生成式建模和自适应数据分析中的泛化性能。 📷 为什么在小数据集上训练的具有大
原作:Matt Bell 安妮 编译自 Hacker Noon 量子位 出品 | 公众号 QbitAI 你一定不想错过这个全球最大的公开3D数据集。 本文作者为Matt Bell,是3D扫描解决方案提
目前自动驾驶的核心技术是LiDAR(激光雷达),一种运用雷达原理,采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”,激光雷达技术越先进,视觉感知的精准程度越高,这是自动驾驶得以实现的底层技术基础。
AI 科技评论按:深度神经网络(DNN)作为机器学习的基础,为图像识别、图像分割、机器翻译等诸多领域取得突破性进展做出了重大贡献,然而研究人员始终都无法完全理解支配 DDN 的基本原理。其中,泛化是预测和理解 DNN 在未见过样本上的性能的重要指标,而理解泛化的一个重要概念便是泛化鸿沟(generalization gap)。基于此,谷歌的这篇 ICLR 2019 论文提出使用跨网络层的标准化边际分布作为泛化鸿沟的预测因子,对边际分布与泛化之间的关系进行了实证研究,结果表明边际分布的一些基本统计量可以准确地预测泛化鸿沟。谷歌发表文章对该论文进行了介绍,AI 科技评论编译如下。
内容来源:2018 年 01 月 05 日,资深算法专家张俊林在“2018 移动技术创新大会”进行《深度学习在CTR预估业务中的应用》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。
人类的视觉系统具有非凡的能力,可以从2D投影中理解3D世界。即使在包含多个移动物体的复杂环境中,人也能够对物体的几何形状和深度的排序进行可行的解释。长期以来,计算机视觉领域都在研究如何通过2D图像数据计算重建场景的几何特征,来实现和人类类似的能力,但在许多情况下,仍然难以实现具备充分鲁棒性的重建。
标题:IDA-3D: Instance-Depth-Aware 3D Object Detection from Stereo Vision for Autonomous Driving
全局视觉定位是指利用单张图像,根据已有的地图,估计相机的绝对姿态(位置和方向)。这种技术可以应用于机器人和增强/虚拟现实等领域。这篇文章的主要贡献是提出了一种利用姿态标签来学习场景的三维几何信息,并利用几何信息来估计相机姿态的方法。具体来说,作者设计了一个学习模型,它可以从图像中预测两种三维几何表示(X, Y, Z坐标),一种是相机坐标系下的,另一种是全局坐标系下的。然后,通过将这两种表示进行刚性对齐,就可以得到与姿态标签匹配的姿态估计。这种方法还可以引入额外的学习约束,比如最小化两种三维表示之间的对齐误差,以及全局三维表示和图像像素之间的重投影误差,从而提高定位精度。在推理阶段,模型可以实时地从单张图像中估计出场景的三维几何信息,并通过对齐得到姿态。作者在三个常用的视觉定位数据集上进行了实验,进行了消融分析,并证明了他们的方法在所有数据集上都超过了现有的回归方法的姿态精度,并且可以实时地从单张图像中估计出场景的三维几何信息,并通过对齐得到姿态。
文主要的目标读者是机器学习爱好者或数据科学的初学者,以及对学习和应用机器学习算法解决实际问题抱有浓厚兴趣的读者。 面对大量的机器学习算法,初学者通常会问自己一个典型的问题:「我该使用哪一种算法?」有很多因素会影响这一问题的答案,比如: 数据的大小、质量及性质 可用计算时间 任务的急迫性 数据的使用用途 在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好。我们并不提倡一步到位,但是我们确实希望根据一些明确的因素为算法的选择提供一些参考意见。 机器学习算法速
选自sas 机器之心编译 参与:黄小天、蒋思源、吴攀 本文主要的目标读者是机器学习爱好者或数据科学的初学者,以及对学习和应用机器学习算法解决实际问题抱有浓厚兴趣的读者。面对大量的机器学习算法,初学者通常会问自己一个典型的问题:「我该使用哪一种算法?」有很多因素会影响这一问题的答案,比如: 数据的大小、质量及性质 可用计算时间 任务的急迫性 数据的使用用途 在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好。我们并不提倡一步到位,但是我们确实希望根据一些明确
导语:初学者都很疑惑,在这么多算法当中,到底到一个算法才能很好的解决自己所遇到的问题呢?这事实上取决于很多种因素。 首先是数据的大小和质量 可用的计算时间 你问题解决的紧急程度 你想用这个数据达到的
数据猿导读 电脑逐渐可以去做一些我们想不到的事。我不会用替代人力这样的字眼。因为目前来讲,科技取代人类还非常远。最重要的是机器帮助我们从无聊、繁琐的事情中脱身。 作者:尹相志 如今,随着社会不断发展,
世界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日 的科技预言家,从地震云的传说再到科学家猛攻的地震预测
斯坦福大学的研究人员最近开发了一种基于深度学习的系统,可以通过卫星图像预测大豆产量。
上一篇文章,我们讨论了深度神经网络如何从一张图像中预测深度。特别是,我们证明了这个问题可以自监督只使用视频和几何约束。这种方法高度可扩展,甚至可以工作在未校准的摄像头或自动驾驶常见的多摄像头装备。
---- 新智元报道 编辑:Ellie 桃子 【新智元导读】近日,Nature子刊发表Meta最新研究成果,揭示目前的语言模型与人类大脑的差异,或将为开发更强大的生成式AI提供启示。 1000亿个神经元,每个神经元有8000个左右的突触,大脑的复杂结构为人工智能研究带来启发。 当前,多数深度学习模型的架构,便是一种受生物大脑神经元启发的人工神经网络。 生成式AI大爆发,可以看到深度学习算法在生成、总结、翻译和分类文本的能力越来越强大。 然而,这些语言模型仍然无法与人类的语言能力相匹配。 恰恰预
数据挖掘、深度学习以及其他机器学习的模型、算法在过去几年一直保持快速发展,研究人员不断提出了大量优秀的模型、算法等,在实验条件下,模型和算法的准确度、处理速度等性能不断提高。一些模型和算法也被应用于实践中,获得了很好的效果。我们从 2019 年 KDD 的录用论文中选取了几篇重点阐述技术实践和突破的文章进行分析和介绍。结合具体行业的特点,例如在线学习系统原始数据异构性强、医疗行业专业词汇可理解性差、气象数据稳定性差以及在线推荐系统智能化需求提升等,研究人员对经典的模型和算法进行了改进和参数调整,以适应具体的场景、满足应用的需要。
本文介绍的是CVPR2020 oral论文《Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing》,作者来自明略科技。
来源:机器之心 参与:黄小天、蒋思源、吴攀 校对:谭佳瑶 本文长度为4000字,建议阅读6分钟 本文针对算法的选择为你提供一些参考意见。 本文主要的目标读者是机器学习爱好者或数据科学的初学者,以及对学习和应用机器学习算法解决实际问题抱有浓厚兴趣的读者。面对大量的机器学习算法,初学者通常会问自己一个典型的问题:「我该使用哪一种算法?」有很多因素会影响这一问题的答案,比如: 数据的大小、质量及性质 可用计算时间 任务的急迫性 数据的使用用途 在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法
给一个庞大的GPU集群,在实际的应用中,现有的大数据调度器会导致长队列延迟和低的性能,该文章提出了Tiresias,即一个GPU集群的调度器,专门适应分布式深度学习任务,该调度器能够有效率的调度并且合适地放置深度学习任务以减少他们的任务完成时间(JCT(Job Completion Time)),一个深度学习任务执行的时间通常是不可预知的,该文章提出两种调度算法,基于局部信息的离散化二维Gittins索引(Discretized Two Dimensional Gittins index)以及离散化二维LAS,对信息不可知并且能够降低平均的JCT,在实验中JCT能够快5.5倍,相比于基于Apache YARN的资源管理
领取专属 10元无门槛券
手把手带您无忧上云