多发性硬化症 (MS) 是一种使人衰弱、无法治愈和发展的中枢神经系统疾病,对个人的生活质量产生负面影响。据估计,每五分钟就有一个人被诊断出患有 MS,到 2020 年将达到 280 万例,并且 MS 在女性中的患病率是男性的 2 到 4 倍。磁共振成像(MRI)在疾病诊断和随访中起着至关重要的作用。但是,人工注释成本高、耗时且容易出错。基于机器学习的自动方法可以在跟踪 MS 病变时引入客观性,并提高效率。但是,用于机器学习方法训练图像的可用性是有限的。没有完全描述病理学的异质性的公开可用数据集。此外,MRI 扫描仪供应商、配置、成像软件和医务人员的变化导致成像过程的显著变化。在从多个医疗中心收集图像时这些差异会加剧,这表示了基于 ML 的 MS 检测模型的显著分布偏差,从而降低了自动化模型在真实情况下的适用性和稳健性。开发稳健的 MS 病变分割模型对于提高越来越多的 MS 患者可获得的医疗护理的质量和吞吐量是必要的。降低自动化模型在现实条件下的适用性和稳健性。开发稳健的 MS 病变分割模型是非常必要的,这给越来越多的多发性硬化症患者提高了医疗服务的质量。
迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。
互联网时代,假新闻铺天盖地,而且极具迷惑性,因此假新闻检测任务对逻辑的判断,以及常识的学习都需要很高的要求。今天和大家分享『虚假新闻检测』相关研究进展,包括创新点、改进点等
对语义分割来讲基于卷积神经网络的方法,依赖像素级ground-truth标记,但是对未知领域可能泛化效果并不好。因为标记过程是沉闷和耗时的,开发将源ground truth标记到目标域引起了很大的关注。本文我们提出一种对抗训练方法在语义分割的内容中进行域适配。考虑语义分割作为结构输出包含源域和目标域的空间相似性,在输出空间中,我们采用对抗训练。为了进一步增强适配模型,我们构建一个多层对抗网络,在不同特征级别上有效的执行输出空间域适配。一系列的实验和消融研究在不同域适配下进行,包括合成到真实和跨城市场景。我们表明提出的方法在精度是视觉质量方面,超过了现有的最先进的方法。
对于医学的任务而言,最重要的因素就是Big Data,而且是Big Good Data,数据的质量控制是非常重要的。唐晓颖团队的一个重要工作就是研究用自动化的方法对不精准的标注进行校正。
论文Scoring Sentence Singletons and Pairs for Abstractive Summarization发表于2019年自然语言处理顶级会议ACL,本文将对其进行详细解读,这是原文链接(https://arxiv.org/pdf/1906.00077.pdf),此外作者还公布了论文代码。
由于为语义分割注释像素级标签非常费力,因此利用合成数据是一个很有吸引力的解决方案。然而,由于合成域与真实域之间存在域间的差异,用合成数据训练的模型很难推广到真实数据中去。在本文中,我们考虑到两个域之间的根本区别作为纹理,提出了一种适应目标域纹理的方法。首先,我们利用风格转换算法对合成图像的纹理进行多样性处理。生成图像的各种纹理防止分割模型过度拟合到一个特定的(合成)纹理。然后通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,我们通过大量的实验分析了在程式化数据集上训练的模型的属性。
申磊,中国科学院计算技术研究所智能信息处理重点实验室17级直博生。目前研究兴趣为自然语言处理和对话系统。参与发表EMNLP论文一篇,以第一作者身份发表ACL2019论文。
机器之心报道 编辑:袁铭怿、陈萍 唱歌配什么音乐?这次 AI 说了算。 谷歌继续向生成音频领域发起挑战! 不同于前几天自家研发的文本生成音乐模型 MusicLM,可以生成各种音乐,这次他们最新发布的 SingSong(两项研究仅隔了四天),是一个可以生成器乐来伴奏输入人声的系统,可为音乐家和非音乐家提供一种新方式来创作以他们自己的声音为特色的音乐。 论文地址:https://arxiv.org/pdf/2301.12662.pdf 论文主页:https://storage.googleapis.com/s
本文分享论文『Incremental-DETR: Incremental Few-Shot Object Detection via Self-Supervised Learning』,由新国立&哈工大提出 Incremental-DETR 进行基于自监督学习的增量 Few-Shot 目标检测,性能SOTA!
AI 科技评论按:虽然ACL 2017已经落下帷幕,但对精彩论文的解读还在继续。下面是 AI 科技评论在ACL现场记录的Zhilin Yang的报告。Zhilin Yang 是卡耐基·梅隆大学计算机学院语言技术研究院的一名博士生,William W. Cohen和Ruslan Salakutdinov两位大牛的高徒。 目前,QA对数据集的获取需要人工标注,这往往代价比较大。Z Yang他们提出了一种半监督的Generative Domain-Adaptive Nets模型,通过引入GAN和domain ta
2014年Ian Goodfellow首次提出Generative adversarial networks (生成对抗网络)简称GANs,生成对抗网络就开始在计算机视觉领域得到广泛应用,成为对有用的视觉任务网络之一,也是如今计算机视觉热点研究领域之一,其已经出现的应用领域与方向如下:
官方公布的Fast R-CNN在COCO test-dev数据集上的mAP@.5为35.9%,mAP@[.5,.95]为19.7;
选自arxiv 作者:Lijun Wu, Yingce Xia 等 机器之心编译 参与:吴攀 生成对抗网络(GAN)与神经机器翻译(NMT)是当前人工智能研究的两个热门领域。近日,中国科学技术大学与微
今天解读的论文发表在 NeurIPS2020,它从全新的角度打开GNN黑箱模型。从贝叶斯学派的代表方法——概率图模型的角度对图神经网络加以解释。它的强大之处在于生成的解释具有丰富的统计信息,能够以条件概率的形式自然的表达出节点之间的依赖关系。
VMAF是目前比较好用的质量评价模型。但是在图像/视频压缩,视频增强等领域,可能需要一定的质量评价模块作为损失函数指导网络的训练。VMAF作为不可微的质量评价模型,无法直接作为损失函数,在这样的前提下,Darren等人提出使用神经网络去模拟VMAF的分数,使得该质量评价模块可以直接应用于其他网络的训练过程当中。
机器学习模型的一种分类方式就是将模型分为分类模型和生成模型,GAN 的出现使得生成模型一度大火,GAN 也开始被应用于各个领域,但是生成模型并不只是 GAN。除了 GAN 相关的模型,其他的生成模型也是很多人在研究的方向,AAAI 中收录的 1500 多篇文章中就有 100 多篇直接以「生成」命名的文章。本文对其中一些重要论文进行了解读。
https://www.cnblogs.com/podolski/p/17388602.html
多雾天气给户外摄像监控系统带来了很多困难。在雾天,介质的光学衰减和散射效应会使场景辐射产生明显的畸变和退化,使其变得嘈杂和难以分辨。针对这一问题,本文提出了一种基于颜色和深度域的目标检测方法。为了防止错误传播问题,我们在训练过程之前清除深度信息,并从数据库中删除错误样本。采用区域自适应策略自适应地融合颜色域和深度域的决策。在实验中,我们评估了深度信息对雾天目标检测的贡献。通过与其他方法的比较,实验验证了多域自适应策略的优越性。
GANcraft由英伟达和康奈尔大学合作完成,它是一个无监督3D神经渲染框架,可以将大型3D块状世界生成为逼真图像。
在文本检测任务中,较少出现字符重合的情况(重合的字符人也认不出来啊),所以基于分割思想的文本检测算法也能得到很好的效果。
值得一提的是,来自中科院、华为诺亚方舟实验室等机构的论文获得了最佳长论文;一篇来自南京理工大学论文获得了杰出论文奖。除此之外,还有很多华人学者都是获奖论文的作者。由此可见,国内研究者在 NLP 领域还是取得非常不错的成绩。
关注公众号,发现CV技术之美 本文分享收录于 ICCV2021 Oral 的一篇论文『Who’s Waldo? Linking People Across Text and Images』,在本文中,
近日,计算机视觉顶会 CVPR 2020 接收论文结果公布,从 6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%。本文介绍了上海交通大学被此顶会接收的一篇论文《Deep Image Harmonization via Domain Verification》。
图像合成 (image composition) 是图像处理的常用操作,把前景从一张图上剪贴下来粘贴到另一张图上,获得一张合成图。合成图可以用来获取感兴趣的目标图像,也可以用于数据增广,有着广泛的应用的前景。但通过这种方式得到的合成图存在诸多问题,比如前景的大小或位置不合理、前景和背景看起来不和谐等等。我们的工作侧重于解决合成图中前景和背景不和谐的问题。具体来说,在合成图中,前景和背景是在不同的拍摄条件 (比如时刻、季节、光照、天气) 下拍摄的,所以在亮度色泽等方面存在明显的不匹配问题。图像和谐化 (image harmonization) 旨在调整合成图中的前景,使其与背景和谐。
本文是对计算所冯洋组完成,被 AAAI2020 录用的论文《Modeling Fluency and Faithfulness for Diverse Neural Machine Translation》进行解读,相关工作已开源。
到目前为止,我已经给各位介绍了各种各样的端到端立体匹配算法,当这些算法在处理与其训练集的特性类似的图像时,大多能够取得非常不错的匹配结果。然而,如果待匹配的图像与训练时使用的图像在特性上存在显著差异,这些算法的效果就会大幅下降,这就是所谓的“领域转换问题(Domain Shift Issue)”。
从毫无存在感到无人不谈,大型语言模型(LLM)的江湖地位在这几年发生了巨变。这个领域的发展令人目不暇接,但也正因如此,人们难以了解还有什么难题有待解决以及哪些领域已有成熟应用。
目标检测是计算机视觉中最基本的任务之一,也是许多视觉应用的关键组成部分,包括实例分割、人体姿态分析、视觉推理等。
IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布,旷视研究院 16 篇论文被收录(其中含 6篇 Oral 论文),研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。本文把 16 篇论文汇在一起,逐篇做了亮点集锦式的抢先解读。 01 论文名称:DPGN: Distribution Propagation Graph Network for Few-shot Learning 论文链接:https://arxiv.org/abs/2003.14247 关键词:小样本学习,图网络
机器之心报道 编辑:小舟、杜伟 如何解释深度神经网络对于人工智能的发展具有重要的作用,也吸引了越来越多学界和业界人士的注意。在这篇长达 134 页的博士论文中,一位来自牛津大学的计算机科学博士生对这一课题进行了深入的探讨,带我们走进深度神经网络的世界。 近年来,深度神经网络正在计算机视觉、自然语言处理和语音识别等多种领域发挥着重要作用,推动了人工智能的发展。但是,深度神经网络仍存在一些局限性,例如这些模型的决策过程通常无法向用户解释。 但同时,在医疗、金融、法律等各个领域,了解人工智能系统决策制定背后的原因
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。
今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割。
有一项重要的技术,通常用于自动驾驶、医学成像,甚至缩放虚拟背景:“语义分割。这是将图像中的像素标记为属于N类中的一个(N是任意数量的类)的过程,这些类可以是像汽车、道路、人或树这样的东西。就医学图像而言,类别对应于不同的器官或解剖结构。
保罗.沃克在《速度与激情7》的拍摄途中不幸出车祸去世,这一度给当时电影的正常上映蒙上了阴影。但是后来大家都知道,不仅电影在延期上映之后火遍了全球,而且我们在荧屏上惊喜地看到保罗还“活着”!
交通标志检测对于无人驾驶系统来说是一项具有挑战性的任务,尤其是多尺度目标检测和检测的实时性问题。在交通标志检测过程中,目标的规模变化很大,会对检测精度产生一定的影响。特征金字塔是解决这一问题的常用方法,但它可能会破坏交通标志在不同尺度上的特征一致性。而且,在实际应用中,普通方法难以在保证实时检测的同时提高多尺度交通标志的检测精度。 本文提出了一种改进的特征金字塔模型AF-FPN,该模型利用自适应注意模块(adaptive attention module, AAM)和特征增强模块(feature enhancement module, FEM)来减少特征图生成过程中的信息丢失,进而提高特征金字塔的表示能力。将YOLOv5中原有的特征金字塔网络替换为AF-FPN,在保证实时检测的前提下,提高了YOLOv5网络对多尺度目标的检测性能。 此外,提出了一种新的自动学习数据增强方法,以丰富数据集,提高模型的鲁棒性,使其更适合于实际场景。在100K (TT100K)数据集上的大量实验结果表明,与几种先进方法相比,本文方法的有效性和优越性得到了验证。
AI时代,不同的行业都有自己的智能客服,比如银行智能客服、导购智能客服、后期服务支持智能客服等。训练客服机器人需要利用高质量、大量业务场景问答对(QA)作为语料进行训练,但是梳理问答对语料将会耗费大量人力成本。能否做到QA问答对的自动生成呢?答案是肯定的。
视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件。现有的方法主要通过事件检测和事件字幕两个步骤来解决问题。这种二阶段的方式使生成的段落的质量高度依赖于事件建议(event proposal)检测的准确性,然而事件建议检测也是一项具有挑战性的任务。
3D人体姿态与形态估计CVPR 2020的一篇论文笔记,VIBE: Video Inference for Human Body Pose and Shape Estimation(CVPR 2020)
视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。
图像重构(IR)对物理与生命科学领域的图像应用软件来说至关重要,其目的在于根据 ground truth 图像抽取出的的各类信息对图像进行重构。
【新智元导读】图像修复(Image inpainting)是一个已经被广泛研究的计算机视觉问题,即恢复图像中缺失的部分。斯坦福大学CS230课程的Mark Sabini等人提出“Image outpainting”,比图像修复更进一步,能从一个图像片段“推断”出外延的部分,补全成整个画面。这篇论文获得了CS230期末poster的第一名,效果非常惊艳。
本文介绍一项IBM欧洲研究所的研究工作。作者首次将提示学习用于化合物逆向合成预测,在标注提示断开位置上进行监督学习,训练出的断开感知模型在断开预测方面性能具有一定提升。同时利用自动标注模型对断开感知模型进行扩展,提升了模型的鲁棒性,并通过实验证明了断开感知模型在酶促反应中的有效性。该模型首次使用人类设计的提示改进逆向合成,将专家知识与深度学习有效结合,在序列语言预测上比基线模型提高了39%的准确率。
本文讲述了一种基于自然语言处理的文本分类系统,通过使用朴素贝叶斯、规则引擎、主题模型等算法,实现对互联网文本的快速分类。系统具有良好的扩展性,支持快速更新,可以应用在多种场景中。
这一节将着重说明,怎样定位线上和线下指标之间的差异,对齐线下和线上指标,得到一个大致的关系。优化线下什么指标,对应的能带来线上什么指标的提升。这样可以避免模型上线的风险。因此也是指标的分析也是十分重要的一个问题。
•直接问答允许您用简单的语言提问并立即获得准确的回答。•从私有数据源中解锁知识,无论是公司内部文档还是您想添加的个人资源。•每个答案都有引用和参考文档支持,因此您始终可以信任所获得的内容。
这篇文章有4篇论文速递信息,涉及图像分类、视频分类和语义分割等方向(含一篇ICLR 2018和一篇CVPR 2018)。
近年来,图像生成技术发展迅速,越来越多的人开始关注和探索各种图像生成模型。而 Diffusion Model 作为其中的一种,其在生成高质量图像方面具有重要意义。在本次分享中,我们将探讨 Diffusion Model 的原理和实现方式。希望本次分享能够帮助大家更深入地了解这一领域的技术和方法,以及启发您进一步探索和研究。
领取专属 10元无门槛券
手把手带您无忧上云