前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【图像分割】图像分割专栏栏主自述:分割,我们究竟在研究什么?

【图像分割】图像分割专栏栏主自述:分割,我们究竟在研究什么?

作者头像
用户1508658
发布于 2019-07-27 12:14:03
发布于 2019-07-27 12:14:03
6850
举报
文章被收录于专栏:有三AI有三AI

专栏《图像分割模型》已经完结,也是时候向大家正式介绍一下自己了。趁着新专栏刚刚开始,也借此机会聊聊在我眼中,我们做的分割究竟是什么,又该怎么做。

文/编辑 | 孙叔桥

我是谁

我叫孙叔桥,从14年开始从事计算机视觉研究,先后研究过目标检测、视觉跟踪、立体匹配和图像分割四个主要领域,对基于深度学习图像处理的相关问题比较熟悉。

作为有三AI的专栏作者,我负责图像分割领域的相关文章。目前,已完结专栏《图像分割模型》,主要介绍在图像分割领域的主流网络结构及设计思想;正在进行中的专栏《图像分割应用》,旨在从应用角度分析各领域内的图像分割问题。

下面聊聊我是怎么开始计算机视觉的吧。其实,与其说是我选择了从事计算机视觉,不如说是计算机视觉找到的我。

入坑是从本科毕设开始的,题目是硕导定的,恰巧我也感兴趣,就这样一拍即合。要是早点知道这个研究方向会从本科一路陪我到博士,还火的一塌糊涂,我可能管管自己的性子,早早用功努力。

选题后不久我就去了国大做交换生,在新加坡的Universal Studio里,计算机视觉在我脑海里留下了第一批具体印象:虚拟视觉加小型过山车太爽了!飞下来救我们的变形金刚好帅!法老那个简直High翻天!

显然,在那个时候的我眼里,所有计算机+视觉的东西都属于“计算机视觉”,至于包括什么、应用领域、实现方法都还一无所知。

后来随着研究的慢慢深入,我慢慢接触了计算机视觉的几个细分领域,掌握的知识和技能也逐渐丰富。此时,计算机视觉与神经网络在我的脑海才真正算是有了点形态,其中的趣味也就慢慢显露了。

我眼中的AI和图像分割

经常有人问我,你是不是搞人工智能的啊?其实,这个问题我不知道该怎么回答。要说是吧,我做的东西其实是底层的技术,计算机视觉层面的东西,这东西我认为它自己是无法单独被称为“人工智能”的,所以我做的东西并没有人工智能这么庞大;但要说不是吧,计算机视觉确实是人工智能的重要一环,它是机器的眼睛,甚至能成为人类眼睛的延伸,确实某些应用领域下就属于人工智能。

后来,我就不纠结这个问题了。别人问我,我就回答“我做计算机视觉的”。要是提问者认为这个回答是肯定,那就是肯定;要是否定,那就是否定。

至于我为什么要做计算机视觉,我以后想不想做,倒是我经常问自己的问题。我深知,哪怕是计算机视觉随便拿出一个芝麻大的分支,也有太浩繁的知识、技巧、应用领域;以我的能力和精力,是不可能面面俱到的,我也不想。我只想用我能做到的事让日子过得轻松一些。

所以,AI和计算机视觉在我眼中,更像是夏天的空调、冬天的暖气,一个小工具罢了,更需要关注的反而是实际生活中遇到的问题和如何去解决。

目前所专注研究的图像分割恰巧是一个切入点。在我看来,图像分割所实现的功能更贴近于人类认知世界的结果。比如我们看到了一个杯子,其实是识别出了杯子所存在的整个空间,根据要实现的目的,我们选择性地是只利用“杯子”这个标签还是整个空间都利用上。举个例子,比如我们需要用杯子接水,那么只需要正确拿起杯子就可以了;但是如果要收拾桌面,则需要保证不会有其他东西砸在被子上面。这也是为什么我选择了图像分割。

即使图像分割已经是一个很具体的方向,但是其需要研究和学习的内容也非常庞杂。从传统的图像分割方法到基于深度学习的方法,其中涉及到的基础知识、网络模型、设计思想、代码实现等等,是一个交叉领域的学习过程,包括了数学、计算机、信号处理、优化等多个学科。公众号内发表的专栏更多的是让大家对这个领域有一定的了解,但是想要真正掌握图像分割的技术,还是需要实际的动手与操作的。

我与有三AI

与有三AI的相遇是个巧合,悄悄关注了很久然后就瞅准机会加入了这个“神秘组织”。组织的老大有三是个很拼的技术大神,但私下却难得的活跃和亲民。他给我们足够的自由决定要做什么,却也用每天的更新提醒我们牛人已经开始工作。很幸运能够遇到这个集体,并逐渐融入。虽然在技术的路上还任重而道远,但我相信,与同样有梦想的人一起坚持,总能做点事情。

目前已经完结的《图像分割模型》专栏面向的是有一定深度学习基础,想要入门图像分割领域的人群;正在进行的《图像分割应用》则是面向想要找到能够实际落地方法的人。后续可能会在公众号开展面向小白的介绍类文章,并配套专栏在星球内展开面向工程师们的代码研读。想了解更多图像分割领域的内容并向我们提问,欢迎大家关注”有三AI图像分割”微信群和”深度学习+图像分割”星球。

路漫漫其修远兮,吾将上下而求索。与君共勉。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
超分辨率能够克服或补偿由于图像采集系统、采集环境本身限制而导致的成像模糊、图像质量低下等问题,提升图像分辨率,为特征提取、信息识别等图像的后续处理提供重要支持。
HyperAI超神经
2024/05/13
4K0
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
在图像生成模型技术的推动下,视频生成模型在研究和应用领域取得了显著进展。这些模型通常通过从头开始训练或对预训练图像模型插入额外的时间层进行微调来实现。训练通常在混合的图像和视频数据集上进行。尽管视频建模的改进研究主要关注空间和时间层的排列方式,但先前的工作没有探究数据选择的影响。然而,训练数据分布对生成模型的影响是不可忽视的。此外,对于生成式图像建模,已经知道在大型和多样化的数据集上进行预训练,然后在小型但质量更高的数据集上进行微调,可以显著提高性能。然而,之前的视频建模方法往往借鉴了来自图像领域的技术,而对于数据和训练策略的影响,即在低分辨率视频上进行预训练再在高质量数据集上微调,还需要进一步研究。
用户1324186
2023/12/11
1.3K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
解读 | 通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率F
机器之心原创 作者:Shawn 参与:Ellen Han、黄小天、王灏 不久之前,Wenzhe Shi 等人在 arXiv 上发表了一篇名为《通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network)》的论文,机器之心海外分析师团队从多个方面对其做了解读。 论文地址:https://arxi
机器之心
2018/05/07
2.1K0
解读 | 通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率F
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
扩散模型已经在生成建模领域确立了新的基准,能够生成高质量的样本。这些模型已成为各个领域发展的基石,例如可控图像编辑[34]、图像个性化[8]、合成数据增强[24],甚至从脑信号重建图像[14, 25]。
AIGC 先锋科技
2025/01/17
1750
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
7740
视频生成领域的发展概述:从多级扩散到LLM
一种用于360度全景视频超分的单帧多帧联合网络
论文、代码地址:在公众号「3D视觉工坊」,后台回复「全景视频超分」,即可直接下载。
3D视觉工坊
2020/12/03
1.1K0
一种用于360度全景视频超分的单帧多帧联合网络
YouKu-mPLUG 最大中文视频语言数据集,助力增强多模态大型模型性能
mPLUG-video可以很好的理解视频的整体语义是“舞蹈视频”以及包含详细的视觉信息,比如“跳跃”和“扭动”等。
CV君
2023/08/31
7370
YouKu-mPLUG 最大中文视频语言数据集,助力增强多模态大型模型性能
抠图只精细到头发丝还不够,Adobe新方法能处理6000×6000的高分辨率图像
抠图是图像和视频编辑与合成的关键技术。通常,深度学习方法会以整个输入图像和相关的 trimap 作为输入,使用卷积神经网络来推断前景蒙版(alpha matte)。这种方法在图像抠图领域实现了 SOTA 结果。但是,由于硬件限制,这些方法在实际的抠图应用中可能会失败,因为现实世界中需要抠图的输入图像大多具备很高的分辨率。
机器之心
2020/09/24
6670
抠图只精细到头发丝还不够,Adobe新方法能处理6000×6000的高分辨率图像
谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%
---- 新智元报道   编辑:David 【新智元导读】谷歌、MIT联合研究,视频问答模型计算效率提升一倍。 视频是一种无处不在的媒体内容源,涉及到人们日常生活的许多方面。越来越多的现实世界的视频应用,如视频字幕、内容分析和视频问答(VideoQA),都依赖于能够将视频内容与文本或自然语言联系起来的模型。 其中,视频问答模型尤其具有挑战性,因为它需要同时掌握语义信息,比如场景中的目标,以及时间信息,比如事物如何移动和互动。这两种信息都必须在拥有特定意图的自然语言问题的背景下进行。 此外,由于视频有
新智元
2022/08/26
2390
谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%
解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
机器之心原创 作者:Angulia 参与:王灏、hustcxy、吴攀 最近,谷歌发布了一种把低分辨率图像复原为高分辨率图像的方法,参见机器之心文章《学界 | 谷歌新论文提出像素递归超分辨率:利用神经网络消灭低分辨率图像马赛克》。与最先进的方法相比,这篇论文提出了一种端到端的框架来完成超分辨率任务。它由两个卷积神经网络组成,一个是描述低分辨率图像骨架的优先网络(prior network),一个是用于优化细节特征的调节网络(conditioning network)。这种方法强调了细节特征恢复上的提升,并以
机器之心
2018/05/07
1.3K0
解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。
CV君
2021/11/18
2.4K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
低分辨率图像中目标检测(附论文下载)
论文地址:https://arxiv.org/pdf/2201.02314.pdf
计算机视觉研究院
2023/08/24
3890
低分辨率图像中目标检测(附论文下载)
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
机器之心
2025/02/14
1310
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
源码地址:https://github.com/icey-zhang/SuperYOLO
计算机视觉研究院
2024/03/13
2.9K0
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
RestoreDet:低分辨率图像中目标检测
论文地址:https://arxiv.org/pdf/2201.02314.pdf
计算机视觉研究院
2022/01/28
1K0
RestoreDet:低分辨率图像中目标检测
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
超分辨率(SR)方法指的是从低分辨率输入生成高分辨率图像或视频的过程。这些技术几十年来一直是研究的重要课题,早期的 SR 方法依赖于空间插值技术。虽然这些方法简单且有效,但上转换图像的质量受到其无法生成高频细节的能力的限制。随着时间的推移,引入了更复杂的方法,包括统计、基于预测、基于块或基于边缘的方法。然而,最显著的进步是由新兴的深度学习技术,特别是卷积神经网络(CNNs)带来的。尽管卷积神经网络(CNNs)自 20 世纪 80 年代以来就存在,但直到 20 世纪 90 年代中期,由于缺乏适合训练和运行大型网络的硬件,它们才开始在研究社区中获得广泛关注。
用户1324186
2024/03/20
3730
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
【深度学习】基于深度学习的超分辨率图像技术一览
SR取得了显著进步。一般可以将现有的SR技术研究大致分为三大类:监督SR,无监督SR和特定领域SR(人脸)。
Twcat_tree
2023/11/25
4600
【深度学习】基于深度学习的超分辨率图像技术一览
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
自从Stable Diffusion和Midjourney爆火之后,人们见识到了人工智能技术在图片生成领域的强大实力。
新智元
2023/09/09
4110
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
信息增强的图像超分辨率重建
单图像超分辨率(SISR)的任务是旨在从其低分辨率版本重建出高质量的图像。基于CNN的网络在性能方面取得了显著的成功。然而,CNN的归纳偏置限制了SISR模型捕获长距离依赖性的能力。它们的固有局限性源于参数依赖的感受野扩展和不同层中卷积算子的核大小,这可能会忽略图像中的非局部空间信息。
Srlua
2025/01/02
1330
信息增强的图像超分辨率重建
从网络设计到实际应用,深度学习图像超分辨率综述
图像超分辨率(SR)是指从低分辨率(LR)图像中恢复高分辨率(HR)图像的过程,是计算机视觉和图像处理中一种重要的图像处理技术。它在现实世界中有着广泛的应用,如医学成像、监控和安全等。除了改善图像的感知质量,它还有助于改善其它计算机视觉任务。总的来说,由于单个 LR 图像通常对应多个 HR 图像,因此这个问题比较具有挑战性。以往的文献中提到了多种经典的 SR 方法,包括基于预测的方法、基于边缘的方法、统计方法、基于 patch 的方法和稀疏表征方法等。
机器之心
2019/03/12
7770
从网络设计到实际应用,深度学习图像超分辨率综述
推荐阅读
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
4K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
1.3K0
解读 | 通过高效的子像素卷积神经网络实现实时的单一图像和视频超分辨率F
2.1K0
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
1750
视频生成领域的发展概述:从多级扩散到LLM
7740
一种用于360度全景视频超分的单帧多帧联合网络
1.1K0
YouKu-mPLUG 最大中文视频语言数据集,助力增强多模态大型模型性能
7370
抠图只精细到头发丝还不够,Adobe新方法能处理6000×6000的高分辨率图像
6670
谷歌、MIT「迭代共同认证」视频问答模型:SOTA性能,算力少用80%
2390
解读 | 谷歌像素递归超分辨率研究:怎么消灭低分辨率图像马赛克?
1.3K0
CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!
2.4K0
低分辨率图像中目标检测(附论文下载)
3890
Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务
1310
SuperYOLO:多模态遥感图像中的超分辨率辅助目标检测(附源代码)
2.9K0
RestoreDet:低分辨率图像中目标检测
1K0
IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述
3730
【深度学习】基于深度学习的超分辨率图像技术一览
4600
人人都是电影「导演」!MSRA联合北大等高校提出:视频、电影、短视频生成模型
4110
信息增强的图像超分辨率重建
1330
从网络设计到实际应用,深度学习图像超分辨率综述
7770
相关推荐
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文