🔍 在2023年,YOLO(You Only Look Once)技术在计算机视觉领域成为炙手可热的明星。从实时处理速度到准确率的大幅提升,YOLO在众多领域展现了其非凡的实力。本文将深入探讨YOLO的原理,实现方式,以及它如何在众多竞争技术中脱颖而出。无论你是AI初学者还是领域大佬,都能从这篇文章中获得有价值的洞见。关键词:计算机视觉,实时检测,YOLO算法,深度学习,AI技术,模型优化。
开发一个卷积神经网络(CNN)的成本通常是固定的。在获得更多资源时,我们通常会按比例进行扩展,以便获得更优的准确性。例如,ResNet可以通过增加层数从ResNet-18扩展到ResNet-200,最近,GPipe 网络通过将基准 CNN 模型扩展四倍,在 ImageNet Top-1 上获得了 84.3% 的准确度。在模型扩展方面的操作通常是任意增加 CNN 的深度或宽度,或者在更大输入图像分辨率上进行训练和评估。虽然这些方法确实提高模型了准确性,但它们通常需要繁琐的手工调整,而且还不一定能找到最优的结构。换言之,我们是否能找到一种扩展设计方法来获得更好的准确性和效率呢?
癌症是人类主要的死亡原因之一,仅次于心脏病[A]。美国2017年近60万人死于癌症。乳腺癌在癌症排行榜中排名第二,也是女性最常见的疾病。组织学检查通常是患者癌症治疗过程中的转折点。如果常规的乳房X射线检测到异常肿块,则将进行活检以便进一步确诊。但是,复查和评估活检玻片所需的时间很长,可能会给患者带来巨大的压力。一种能够识别癌组织并减少误诊率的有效算法可使患者更早开始治疗并改善患者预后效果。
深度神经网络在计算机视觉任务中取得了显著的成功。对于输入图片,现有的神经网络主要在空间域中操作,具有固定的输入尺寸。然而在实际应用中,图像通常很大,必须被降采样到神经网络的预定输入尺寸。尽管降采样操作可以减少计算量和所需的通信带宽,但它会无意识地移除冗余和非冗余信息,导致准确性下降。受数字信号处理理论的启发,我们从频率的角度分析了频谱偏差,并提出了一种可学习的频率选择方法,可以在不损失准确性的情况下移除次相关的频率分量。在下游任务中,我们的模型采用与经典神经网络(如ResNet-50、MobileNetV2和Mask R-CNN)相同的结构,但接受频域信息作为输入。实验结果表明,与传统的空间降采样方法相比,基于静态通道选择的频域学习方法可以实现更高的准确性,同时能够减少输入数据的大小。具体而言,在相同的输入尺寸下,所提出的方法在ResNet-50和MobileNetV2上分别实现了1.60%和0.63%的top-1准确率提升。当输入尺寸减半时,所提出的方法仍然将ResNet-50的top-1准确率提高了1.42%。此外,我们观察到在COCO数据集上的分割任务中,Mask R-CNN的平均精度提高了0.8%。
文章来源:https://zhuanlan.zhihu.com/p/91719437
包括8351张狗图像,分为训练(6680)、验证(835)和测试(836)数据集,以及13233 张人脸。
安妮 编译自 苹果机器学习博客 量子位 出品 | 公众号 QbitAI 在手机、平板和可穿戴设备不断普及的今天,手写识别比以往任何时候都重要。但这并非易事,拿汉字来说,让移动设备识别大量手写汉字字符还是个挑战。 今天,苹果机器学习博客发表文章《Real-Time Recognition of Handwritten Chinese Characters Spanning a Large Inventory of 30,000 Characters》,介绍了苹果如何在iPhone、iPad和Apple Wat
受Transformer模型在自然语言处理(NLP)应用中的成功启发,A.Dosovitskiy、Dosovitski等人介绍了用于计算机视觉(CV)应用的视觉Transformer(ViT)。视觉Transformer模型在ImageNet数据集上显示出77.9%至81.3%的Top-1准确率,并已用于许多下游图像识别任务,如分类、目标检测和分割。
深度学习在推荐系统上的运用,具体用了卷积神经网络(CNN)提取文本特征,融合PMF模型进行推荐。 具体论文见http://dm.postech.ac.kr/~cartopy/ConvMF/ 用户对项目评分数据的稀疏是推荐系统质量恶化的主要因素之一。为了处理稀疏性问题,已经提出了几种推荐技术,其另外考虑辅助信息以提高评估预测的准确性。特别是,当评级数据稀少时,基于文档建模的方法通过额外使用文本数据(如评论,摘要或概要)提高了准确性。然而,由于单词模型的固有局限性,它们难以有效地利用文档的上下文信息,这导致对文
本文提出了一种新的上下文感知推荐模型——卷积矩阵因式分解(convmf),将卷积神经网络(cnn)与概率矩阵因式分解(pmf)相结合。因此,convmf捕获了文档的上下文信息,进一步提高了评级预测的准确性。我们对三个现实数据集的广泛评估表明,即使在评级数据非常稀疏的情况下,convmf仍显著优于最先进的推荐模型。我们还证明convmf成功地捕获了文档中单词的细微上下文差异。
机器之心报道 机器之心编辑部 来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一样快速推断,并有 ViT 一样强大的性能。 由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大? 近期一些工作试图设计 CNN-Transformer
最近对深卷积神经网络 (CNNs) 的研究主要集中在提高计算机视觉数据集的精确度上。对于给定的精度级别, 通常可以用不同的 CNN 体系结构来实现了该精度级别。而具有更少参数的 CNN 体系结构具有以下几个优点:
本文分享一篇 ICCV2021 论文:『Rethinking Spatial Dimensions of Vision Transformers』。
16S rRNA 扩增子测序已被广泛应用于微生物组研究,其中一个至关重要的步骤就是对相应序列(OTU 或者 ASV)进行分类学注释。虽然已经有大量的注释算法被开发出来,但是我们最普遍用到的仍是朴素贝叶斯分类器(NBC)。追溯其历史,RDP(Ribosomal Database Project)首先使用了NBC 算法[1]来对序列进行分类注释,证明了16S rRNA 序列可以进行属水平分类。很多研究也证明 NBC 在标记基因序列分类上的效果确实十分稳健,比如 QIIME2 内置的 q2-feature-classifier[2] 分类器。
选自CISUC 作者:Filipe Assunção 等 机器之心编译 参与:程耀彤、李泽南 在为特定任务构建神经网络算法时,想要达到最佳性能需要大量的设计和手动调整。葡萄牙科英布拉大学计算设计和可视化实验室的研究者们利用进化算法的策略提出了深度进化网络结构表征(DENSER),可以自动进行多层深度神经网络的结构设计和参数调优,在没有先验知识的情况下,该方法生成的神经网络达到了业内最佳性能。 论文:DENSER: Deep Evolutionary Network Structured Representa
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一样快速推断,并有 ViT 一样强大的性能。 由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大? 近期一些工作试
在过去的几年里,运动图像 (MI) 脑电图 (EEG) 信号的处理已被吸引到开发脑机接口 (BCI) 应用程序中,因为这些信号的特征提取和分类由于其固有的复杂性和倾向于人为它们的属性。BCI 系统可以提供大脑和外围设备之间的直接交互路径/通道,因此基于 MI EEG 的 BCI 系统对于控制患有运动障碍的患者的外部设备似乎至关重要。目前的研究提出了一种基于三阶段特征提取和机器学习算法的半监督模型,用于 MI EEG 信号分类,以通过更少的深度特征来提高分类精度,以区分左右手 MI 任务。在所提出的特征提取方法的第一阶段采用斯托克韦尔变换从一维 EEG 信号生成二维时频图 (TFM)。接下来,应用卷积神经网络 (CNN) 从 TFM 中寻找深度特征集。然后,使用半监督判别分析(SDA)来最小化描述符的数量。最后,五个分类器的性能,包括支持向量机、判别分析、在所提出的特征提取方法的第一阶段采用斯托克韦尔变换从一维 EEG 信号生成二维时频图 (TFM)。接下来,应用卷积神经网络 (CNN) 从 TFM 中寻找深度特征集。然后,使用半监督判别分析(SDA)来最小化描述符的数量。最后,五个分类器的性能,包括支持向量机、判别分析、在所提出的特征提取方法的第一阶段采用斯托克韦尔变换从一维 EEG 信号生成二维时频图 (TFM)。接下来,应用卷积神经网络 (CNN) 从 TFM 中寻找深度特征集。然后,使用半监督判别分析(SDA)来最小化描述符的数量。最后,五个分类器的性能,包括支持向量机、判别分析、k近邻、决策树、随机森林,以及它们的融合比较。SDA 和提到的分类器的超参数通过贝叶斯优化进行优化,以最大限度地提高准确性。所提出的模型使用 BCI 竞赛 II 数据集 III 和 BCI 竞赛 IV 数据集 2b 进行验证。所提出方法的性能指标表明其对 MI EEG 信号进行分类的效率。
对多任务运动想象脑电图(EEG)信号进行有效分类是一种解码大脑运动意图的方法,有助于实现准确高效的多维脑机交互。然而,由于脑电信号空间分辨率低、被试脑电信号差异较大等固有局限性,传统解码方法的准确性和鲁棒性在实际应用中有待进一步提高。
FixEfficientNet 是一种结合了两种现有技术的技术:来自 Facebook AI 团队的 FixRes [2] 以及由 Google AI 研究团队首先提出的EfficientNet [3]。FixRes 是 Fix Resolution 的缩写形式,它尝试为用于训练时间的 RoC(分类区域)或用于测试时间的裁剪保持固定大小。EfficientNet 是 CNN 尺度的复合缩放,可提高准确性和效率。本文旨在解释这两种技术及其最新技术。
摘要:氮(N)是植物自养的重要特征,是影响陆地生态系统植物生长的主要养分,因此不仅具有根本的科学意义,而且还是作物生产力的关键因素。对冠层氮浓度(N%)进行及时的非破坏性监测需要快速且高度准确的估算,通常使用400-2500 nm光谱区域中的光谱分析法对其进行量化。然而,由于冠层结构混杂,从冠层光谱中提取一组有用的光谱吸收特征来确定N%仍然具有挑战性。深度学习是一种统计学习技术,可用于从冠层光谱中提取生化信息。我们评估了一维卷积神经网络(1D-CNN)的性能,并将其与两种最新技术进行了比较:偏最小二乘回归(PLSR)和高斯过程回归(GPR)。我们利用8年(2009年至2016年)整个新西兰的奶牛场和丘陵农场的大型,多样化的田间多季节(秋季,冬季,春季和夏季)光谱数据库(n = 7014)来开发特定季节和特定于频谱区域(VNIR和/或SWIR)的1D-CNN模型。独立验证数据集(未用于训练模型)的结果表明,一维CNN模型提供的准确度(R2 = 0.72; nRMSE%= 14)比PLSR(R2 = 0.54; nRMSE%= 19)和GPR(具有R2 = 0.62;nRMSE%= 16)。基于1D-CNN的特定季节模型显示出明显的差异(测试数据集为14≤nRMSE≤19),而测试数据集的所有季节组合模型的性能仍然更高(nRMSE%= 14)。全光谱范围模型显示出比特定光谱区域模型(仅VNIR和SWIR)更高的准确性(15.8≤nRMSE≤18.5)。此外,与PLSR(0.31)和GPR(0.16)相比,使用1D-CNN得出的预测更精确(不确定性更低),平均标准偏差(不确定区间)<0.12。这项研究证明了1D-CNN替代传统技术从冠层高光谱光谱中确定N%的潜力。
论文名称: A survey of image semantics-based visual simultaneous localization and mapping Application-oriented solutions to autonomous navigation of mobile robots 作者: Linlin Xia, Jiashuo Cui, Ran Shen, Xun Xu, Yiping Gao and Xinying Li
算法该如何分辨这只狗可能属于哪个品种?当然小伙伴们可以训练自己的卷积神经网络来对这张图片进行分类,但是通常情况下我们既没有GPU的计算能力,也没有时间去训练自己的神经网络。但是,全世界的各个研究团队(例如牛津,谷歌,微软)都拥有足够的计算能力,时间和金钱,而且以前可能已经解决过一些类似的问题。我们该如何利用他们已经完成的工作呢?现在来让我们了解一个重要的概念——转移学习。
本文介绍了一种适应性跟踪方法,可以在不降低准确性的情况下提高深度跟踪器的速度。该方法通过使用廉价(cheap)特征处理简单帧,使用昂贵(expensive)的深度特征处理复杂帧,从而显著降低了前向传递成本。作者使用强化学习方法训练了一个代理来决定何时使用哪种特征,同时还展示了学习所有深度层可以实现接近实时的平均跟踪速度。该方法在近50%的时间内提供了100倍的加速,表明了适应性方法的优势。
最近,Vision Transformer在图像分类、语义分割和目标检测等各种计算机视觉任务中取得了显著的成功,并取得了明显优于CNN的性能提升。然而,从真实场景的角度来看,CNN仍然主导着视觉架构 部署。
关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2207.05501.pdf 计算机视觉研究院专栏 作者:Edison_G 来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉Transformer,即Next-ViT。Next-ViT能像CNN一样快速推断,并有ViT一样强大的性能。 《转自机器之心》 由于复杂的注意力机制和模型设计,大多数现有的视觉T
脑机接口(BCI)系统可以记录并处理大脑信号并将其转换为输出命令,其可用于各种应用场景,如辅助技术,神经康复和认知增强等。在各种用于脑信号记录的技术中,脑电图(EEG)是BCI研究中研究最多的方法。而基于EEG的认知BCI,旨在评估和增强诸如注意力等认知功能。 之前的研究更多的关注于选取合适的特征,以将其用来对注意力程度进行分类。用于监视专注精神状态的现有技术方法主要与EEG频带中的特定频段有关。大量的研究调查了注意力引起的beta,alpha 和不同频段之间能量比值的变化。总体而言,很多研究认为像beta这样的高频段活动增加是一种注意唤醒的指标,另外一些研究表明θ和β的能量比值、α和θ能量的降低也表明较高的专注程度。 深度学习近年来在语音识别及图像识别领域取得了非常突出的表现,因其可以自动提取相关特征用于分类任务,近年来将深度学习技术应用于EEG数据的研究也逐渐增多。但是深度学习技术应用于认知BCI的研究目前还较少。近期,来自新加坡的研究团队在Journal of Neural Engineering杂志发表题目为《Inter-subject transfer learning with end-to-end deep convolutional neural network for EEG-based BCI》研究论文,其提出了一种深度学习框架,利用单通道EEG信号来检测被试的注意力状态,可以显著提高被试间注意力检测任务的准确性。 材料与方法 1.数据
目前提高CNN精度的方法,主要是通过任意增加CNN深度或宽度,或使用更大的输入图像分辨率进行训练和评估。
ImageNet是预训练和评估计算机视觉模型的主要数据集。与其他分类数据集不同,在ImageNet上,从头开始训练模型,而不做迁移学习。一般来说,从零开始的训练更加困难,因为需要更高的学习率、更强的正则化和更大的Epoch。因此,ImageNet上的优化过程对不同的超参数和所使用的体系结构更加敏感。
https://github.com/youngwanLEE/CenterMask
最近,有一篇论文提出了一种基于语法的结构化CNN代码生成器,用《炉石传说》(HearthStone)基准数据集进行实验的结果表明:
【新智元导读】神经结构自动搜索是最近的研究热点。谷歌大脑团队最新提出在一种在移动端自动设计CNN模型的新方法,用更少的算力,更快、更好地实现了神经网络结构的自动搜索。
情感分析是一种自然语言处理技术,旨在识别和理解文本中表达的情感、情绪和情感倾向。它利用计算机算法和模型来分析文本中的情感表达,以确定文本的情感状态,例如正面、负面或中性。情感分析可以帮助我们理解人们在文本中表达的情感态度,从而揭示用户对产品、服务、事件或主题的情感倾向和观点。 情感分析在自然语言处理领域具有重要性和广泛应用。首先,情感分析可以帮助企业了解用户对其产品和服务的情感反馈。通过分析用户在社交媒体、在线评论和调查问卷中的情感表达,企业可以了解用户对其产品的喜好、满意度和不满意度,从而进行改进和优化。 其次,情感分析在舆情监测和品牌管理中发挥关键作用。通过分析公众对特定事件、品牌或产品的情感反馈,可以及时了解公众对品牌形象的看法,从而进行舆情应对和品牌形象的管理。此外,情感分析在社交媒体挖掘、市场调研和消费者洞察方面也具有广泛的应用。通过分析用户在社交媒体平台上的情感表达,可以了解用户对不同产品、话题和事件的看法和情感态度,为市场调研和推广活动提供有价值的信息。 本文旨在介绍情感分析的概念和定义,强调情感分析在自然语言处理领域的重要性和应用广泛性。同时,我们将探讨情感分析的方法和技术,分析其在不同领域的应用,并讨论情感分析面临的挑战和未来发展方向。
这张图清楚说明了image classification, object detection, semantic segmentation, instance segmentation之间的关系. 摘自COCO dataset (https://arxiv.org/pdf/1405.0312.pdf)
自从Alexnet赢得2012年的ImageNet竞赛以来,CNNs(卷积神经网络的缩写)已经成为深度学习中各种任务的事实算法,尤其是计算机视觉方面。从2012年至今,研究人员一直在试验并试图提出越来越好的体系结构,以提高模型在不同任务上的准确性。近期,谷歌提出了一项新型模型缩放方法:利用复合系数统一缩放模型的所有维度,该方法极大地提升了模型的准确率和效率。谷歌研究人员基于该模型缩放方法,提出了一种新型 CNN 网络——EfficientNet,该网络具备极高的参数效率和速度。今天,我们将深入研究最新的研究论文efficient entnet,它不仅关注提高模型的准确性,而且还关注模型的效率。
本文首发于 【集智书童】,白名单账号转载请自觉植入本公众号名片并注明来源,非白名单账号请先申请权限,违者必究。
在安全关键的实时应用中部署深度神经模型具有挑战性,特别是在资源有限的设备上,如自动驾驶汽车或虚拟/增强现实头戴式设备。这主要是由于巨大的计算复杂性和庞大的内存/存储需求。一种有效的策略是通过知识蒸馏来训练轻量级架构,该策略能够将大模型中学到的信息压缩到小模型中。
人工智能(AI)和机器学习(ML)在过去十年中取得了爆炸式的增长。在计算机视觉中,这种增长背后的关键驱动力是神经网络的重新出现,尤其是卷积神经网络(CNNs)和最近的视觉Transformer。尽管通过反向传播训练的神经网络是在20世纪80年代发明的,但它们被用于更小规模的任务,如字符识别。直到AlexNet被引入ImageNet竞赛,神经网络reshape人工智能领域的潜力才得以充分实现。
作者:Hongzheng Chen, Cody Hao Yu, Shuai Zheng, Zhen Zhang, Zhiru Zhang, Yida Wang
目标检测系列: 目标检测(object detection)系列(一) R-CNN:CNN目标检测的开山之作 目标检测(object detection)系列(二) SPP-Net:让卷积计算可以共享 目标检测(object detection)系列(三) Fast R-CNN:end-to-end的愉快训练 目标检测(object detection)系列(四) Faster R-CNN:有RPN的Fast R-CNN 目标检测(object detection)系列(五) YOLO:目标检测的另一种打开方式 目标检测(object detection)系列(六) SSD:兼顾效率和准确性 目标检测(object detection)系列(七) R-FCN:位置敏感的Faster R-CNN 目标检测(object detection)系列(八) YOLOv2:更好,更快,更强 目标检测(object detection)系列(九) YOLOv3:取百家所长成一家之言 目标检测(object detection)系列(十) FPN:用特征金字塔引入多尺度 目标检测(object detection)系列(十一) RetinaNet:one-stage检测器巅峰之作 目标检测(object detection)系列(十二) CornerNet:anchor free的开端 目标检测(object detection)系列(十三) CenterNet:no Anchor,no NMS 目标检测(object detection)系列(十四)FCOS:用图像分割处理目标检测
空中图像中的物体检测已成为一个动态且关键的研究领域,主要关注通过空中平台(如卫星、无人机或飞机)捕获的高分辨率图像中物体的识别和定位。这种技术在众多领域得到应用,包括但不限于城市规划,精确农业,灾害管理,以及军事监视。
人工智能正在各个领域大放异彩,不断扩充应用的版图!在手术室也显示出了新的希望!新的研究表明,机器学习可以在150秒以内诊断出脑肿瘤,所需时间仅仅是人类专家的一小部分,而且准确率与人类专家平分秋色!
本文中将简单总结YOLO的发展历史,YOLO是计算机视觉领域中著名的模型之一,与其他的分类方法,例如R-CNN不同,R-CNN将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)不同,YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要 You Only Look Once。
来源:DeepHub IMBA 本文约3400字,建议阅读6分钟 本文为你简单总结YOLO的发展历史。 本文中将简单总结YOLO的发展历史,YOLO是计算机视觉领域中著名的模型之一,与其他的分类方法,例如R-CNN不同,R-CNN将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)不同,YOLO将任务统一为一个回归问题。也就是相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要 You Only Look Once。 目标检测 我们人类只需要看一眼
股票市场预测由于其非线性、高度波动性和复杂性,一直是个复杂的问题。近年来,深度学习在许多领域占据了主导地位,在股市预测方面取得了巨大的成功和普及。本文以深度学习技术为重点,对其应用于股市预测研究进行结构化和全面的概述,介绍了股市预测的四个子任务及股市预测主流模型,并分享了一些关于股市预测的新观点及未来的几个方向。
虽然大多数的特征策略都与领域相关,并且必须针对每个应用程序进行专门调整。但特征工程是操纵原始数据和提取机器学习特征的过程,探索性数据分析 (EDA) 可以使用特征工程技术来可视化数据并在执行机器学习任务之前更好地识别模式和异常值。这是数据科学的重要一步,可以确保特定机器学习应用程序的预期结果。
我们利用计算机视觉技术和卷积神经网络(CNN)为这个项目创建分类算法,并确定棋子在棋盘上的位置。最终的应用程序会保存整个图像并可视化的表现出来,同时输出棋盘的2D图像以查看结果。
这是卷积神经网络学习路线的的第二十二篇文章,要介绍的是2019年Google Brain的大作EfficientNet,论文全名为EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks。
对于识别、检测、语义分割、人体姿势检测等富有挑战性的任务,当前最佳性能通常是通过卷积神经网络(CNN)取得的。有证据表明,这些方法成功背后的关键特征是过度参数化(over-parametrization),其有助于找出良好的局部最小值。但与此同时,过度参数化导致大量冗余,并且从统计学角度看,由于过度参数化增加的参数过多,它或许会阻碍泛化。
领取专属 10元无门槛券
手把手带您无忧上云