首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >偷窥了阿里的图像搜索架构,干货分享给你!

偷窥了阿里的图像搜索架构,干货分享给你!

作者头像
博文视点Broadview
发布于 2023-05-19 10:49:17
发布于 2023-05-19 10:49:17
60600
代码可运行
举报
运行总次数:0
代码可运行

👆关注“博文视点Broadview”,获取文末赠书

进入21世纪以来,伴随着互联网的高速发展,通过图像和视频来进行需求表达越来越成为大家的习惯。

图像搜索与识别算法使得图像视频内容得以结构化和数字化,以便可以在各种检索和分析引擎中被最大限度地挖掘和利用。

阿里巴巴研发出的移动端以图搜图应用——拍立淘,使用户可以通过拍摄照片,在手机淘宝上迅速找到同款及相似商品,是图像搜索与识别领域极具代表性的落地产品。

因为拍立淘,我们可以在不知道商品品牌、名字等信息的情况下搜索到想要的同类品。

那么,拍立淘的架构设计是怎样的?它是如何将图像搜索与识别算法落地应用的呢?

小编从《深度学习图像搜索与识别(全彩)》一书中“偷窥”到它的架构设计,分享给你!

以下内容节选自《深度学习图像搜索与识别(全彩)》一书!


--正文--

作为电商场景的以图搜图 App,拍立淘于2014年首次上线,现已经成为拥有数千万日活用户的应用。随着业务的发展,也逐步建立了稳定的、可扩展的视觉搜索架构。

下图展示了拍立淘的整个图像搜索架构,分为离线和在线处理流程

(图1  图像搜索架构)

离线处理主要是指每天生成图像引擎索引的整个过程。

具体过程为,首先构建离线图像选品,通过目标检测在选品图像上提取感兴趣的商品,然后对商品进行特征提取,再通过图像特征构建大规模索引库,并放入图像搜索引擎等待查询。执行完成后,以一定频率更新索引库。

在线处理主要是指用户上传查询图片后,对图像的实时处理到返回最终图像列表的在线步骤。与离线处理相似,给定查询图像后,首先预测其具体的商品类目,然后提取图像目标区域的特征,再基于相似性度量在索引引擎中搜索,最后通过重排序返回搜索结果。

01

类目预测模块

1.图像选品构建

淘宝上有大量不同来源的商品图像,包括商品主图、SKU图、拆箱图等,涵盖了电子商务各个方面的图像。

我们需要从这些海量图像中选择用户相对感兴趣的图像作为宝贝图像进行索引。也就是根据图像附带的类目等属性以及图像质量过滤整个图像库。

由于淘宝上存在太多相同或高度相似的宝贝图像,不过滤会导致最终的搜索结果出现大量相同的商品宝贝,使得用户体验不佳。因此,我们添加了图像选品过滤模块,每天定时选择和删除重复或高度相似的商品图像,并优化索引文件。

2.基于模型和搜索融合的类目预测

考虑到一定的视觉和语义相似性,淘宝类目是基于叶子类目的层次化的类目体系。

类目体系不仅涉及技术问题,也涉及关于消费者认知的商业问题。

目前,我们在拍立淘中先预测图像的类目到14个大类目之一,如服饰、鞋、包等,以缩小图像库的搜索空间。可以采用基于模型和基于搜索的方式来进行类目预测(识别)。

对于基于模型的预测模块,我们采用GoogLeNet V1网络结构来权衡高精度和低延迟,使用包含不同商品类目标签的图像集进行训练。

这里使用单标签分类问题的算法(书中第3章介绍过),作为模型训练的输入图像,根据常用设置将每个图像的大小调整为256像素×256像素,随机裁剪为227像素×227像素 ,使用Softmax 损失函数作为分类任务的损失函数。

对于基于搜索的预测模块,我们不直接训练分类模型,而是利用一个特征模型(参考第6章)和一个待检索数据库完成基于搜索的加权KNN分类。

每当用户输入一张待分类图片,基于搜索的分类方法会先对该图片进行特征提取,然后利用该特征在待检索的数据库中,找出与其最相似的K个图片,根据这些图片的类目标签对输入图片进行预测。

具体来说,我们收集了2亿张附带真实类别标签的图像对  作为参考图像库,训练一个通用类目的特征模型对参考图像库离线提取通用特征并构建索引。预测时,对查询图像提取通用特征,并在图像参考集中检索Top 30的结果。通过查询图像的Top 30个邻居,再根据每个  的类目标签  加权投票,以预测待查询图像  的标签  。其中,加权函数  为查询图像  与  的距离函数。

为了提高类目预测的准确性,我们将基于模型和基于搜索的结果再一次加权融合。

其中,基于搜索的方法利用了特征的判别能力,纠正了部分混淆的类目,结合分类模型的优势提高了类目预测的精度。总的来说,我们的方法使类目预测的精度提高了2%以上。

02

目标检测和特征联合学习

接下来主要介绍基于用户点击行为的检测和特征联合学习方法。

在拍立淘图像搜索场景下,主要挑战来自用户和商家图像之间的巨大差异。

商家的图片通常是高质量的,是在受控环境下用高端相机拍摄的。然而,用户的查询图像通常是用手机摄像头拍摄的,并且可能存在光照、模糊和复杂的背景等问题。

为了减少复杂的背景影响,系统需要具备在图像中定位主体目标并提取主体特征的能力。

下图说明了用户在查询图像过程中主体检测对检索结果的重要性。

(图2  图中的第一行是没有进行主体检测的检索结果,明显受到了背景干扰;第二行显示了采用主体检测的检索结果,有非常显著的改进效果)

为了在没有背景干扰的情况下使用户实拍图像和商家的索引图像特征保持一致,我们提出了一个基于度量学习的分支网络CNN框架,来联合学习主体检测框和特征表示。

我们最大程度地利用用户点击行为反馈,来挖掘难样本数据。

通过用户点击图像构造有效的三元组,使得能够在不需要进一步对边界框进行标注的情况下,联合学习到对象的检测框和特征表示。

1.三元组挖掘

书中的第6章介绍过用三元组损失函数来学习特征的相似度度量。

在我们的场景中,给定一个输入图像  ,首要问题是利用CNN图像特征  可靠地匹配来自用户和卖家的不同源图像。

这意味着需要拉近查询图像  与其同款宝贝图像  之间的距离,并拉远查询图像  与不同款宝贝图像  之间的距离。

因此,这里采用三元组排序损失函数:

其中,L2表示两个向量之间的L2标准化距离,  是Margin参数  。   是需要学习的CNN参数,可以通过端到端的训练学习到。

这里的主要问题是如何挖掘较难的三元组样本。

一种简单的选择是从与查询图像相同的类目中选择正样本图像,从其他类目中选择负样本图像。但是,负样本图像与查询图像相比,存在较大的视觉差异,导致训练过程中三元组排序损失函数很容易为零,没有贡献任何损失。

因此,我们采用用户点击数据来挖掘较难的三元组样本,如下图所示。

(图3  使用用户点击数据来挖掘三元组样本示意图)

在图像检索场景下,很大一部分用户会在返回列表中点击同款的商品图像,这意味着点击的图像  可以被视为查询图像的正样本图像,未点击图像  可以作为难负样本图像,它们类似于查询图像但属于非同款宝贝图像。

然而,未点击的图像仍然可能是与查询图像具有同款宝贝的图像,因为当许多同款的宝贝图像被返回时,用户只会点击结果中的一个或两个。所以要过滤未点击且与查询图像具有同款宝贝的图像,查询图像  的负样本图像  计算如下:

其中,  为特征的距离函数,  为距离阈值。为了计算该距离,我们采用了多特征融合方法,结合了局部特征、不同版本特征和ImageNet预训练的通用特征等,从而更准确地发现噪声负样本。

同样,为了得到更精确的正样本,我们采用了类似的方法来过滤正样本图像。

为了扩展小批量中的所有可用三元组数据来增加更多训练数据,我们在小批量中获取的三元组之间共享所有负样本图像。

通过共享负样本,可以在进入损失层之前生成  个三元组,如果不采用共享机制,则生成  个三元组。为了进一步减少训练图像中的噪声,我们对原来的三元组排序损失函数  进行了改进:

其中,改进的损失函数是针对同一查询图像的所有三元组样本计算平均损失,这样可以最大程度地减少噪声三元组的影响。

通过查询图像层面的三元组损失函数,学习CNN 特征,从而将用户的实拍图像和商家的高质量图像映射到同一特征空间,使得不同来源的图像能够更可靠地匹配。

2.Deep ranking框架

如何处理图像中的背景噪声并检测出主体对象?

参考书中第4章关于检测的介绍,一种直接的方法是部署现成的主体检测算法,如Faster R-CNN或SSD。

然而,这种方法时延较长而且需要大量边界框的标注。

这里,我们提出两个分支的联合网络模型来同时学习检测和特征表示,下图所示是分支网络模型结构。

(图4  两个分支的深度联合网络模型,用于主体检测和特征学习。上面是主体检测分支,下面是特征学习分支)

如何学习这个联合模型的参数呢?

我们以之前挖掘的  三元组为监督信息,在Deep ranking框架下学习该联合模型,这样一来,可以通过三元组正负样本度量关系来学习出判别特征,同时,根据分支结构回归出对特征判别起到重要作用的对象主体掩膜。

在不需要边界框标注的情况下,主体掩膜通过分支结构以类似注意力的机制被学习出来(参考第3章中的细粒度识别内容)。

总体来说,Deep ranking框架如下图所示。

(图5  Deep ranking框架为以  为输入的3个深度联合模型组成,使用三元组进行网络训练,联合学习出主体检测区域和判别特征)

具体做法是,Deep ranking框架下的每个深度联合模型(图4)都共享参数,检测的掩膜函数  先利用检测分支回归出矩形坐标  ,再使用阶跃函数  表示,如下面公式所示:

主体边界框区域是输入图像  与  按位点乘得到的。然而,阶跃函数  是不可微的。为了端到端地训练,我们可以用Sigmoid函数  来逼近阶跃函数,当K足够大时使其可微化。

需要注意的是,这里只需要弱监督的用户点击数据,不需要依赖边界框的标注进行训练,这大大降低了人力资源成本,提高了训练效率。

03

图像索引和检索

1.10亿级的大规模图像检索引擎

为提高响应速度,我们使用大规模二值引擎进行查询和排序。一个实时稳定的搜索引擎是非常重要的,因为每天都有数以千万计的用户在使用拍立淘的视觉搜索服务。因此,我们采用Multi-shards和Multi-replications引擎架构,如下图所示,它不仅可以快速响应大量用户查询,而且具有很好的可扩展性。

(图6  Multi-shards和Multi-replications引擎架构)

Multi-shards:单机内存无法存储这么多的特征数据,因此特征被存储到多个节点上。对于单次查询,将从每个节点检索出的Top-K结果合并起来,得到最终的结果。

Multi-replications:单个特征数据库无法应对大量的查询流量,特征数据库被复制多份,从而将查询流量分流至不同的服务器集群上,以降低用户的平均查询时间。

在每个节点,使用两种类型的索引:粗筛选和精排序。

粗筛选采用的是一种改进的基于二值特征(CNN 特征二值化)的二值倒排索引(二值引擎的内容可以参考第7章)。以图像ID为关键字、二值特征为值,通过汉明距离计算,可以快速滤除大量不匹配数据。然后,根据返回的图像数据的二进制编码,对最近邻进行精排序。

精排序用于更精确的排序,根据附加元数据(如视觉属性和特征)对粗筛选出的候选项重新排序。

这一过程相对较慢,部分原因是元数据以非二进制形式存储,另一个原因是元数据的存储开销太大,无法将其全部载入内存中,所以缓存命中率是影响性能的关键因素。

通过粗筛选和精排序,可以达到无损精度的召回结果,并大幅提升检索效率。

2.质量感知的结果重排序

对于返回的商品列表,研究发现,即使是精准的同款结果,也不能保证它们是最能激发用户点击和购买的商品,所以最后会根据商品列表里每个商品的价格、好评度、用户画像等其他信息重排序。

考虑到最初的结果是通过表观相似度获得的同款结果,我们会进一步利用语义信息对Top-60的结果进行重新排序,包括使用销量、转化率、点击率、用户画像等。

我们利用GBDT+LR对不同维度的相关描述特征进行集成,将最终得分归一化到[0,1],这既保证了表观相似度,也保证了各维度的语义重要性。

重排序依据质量信息在保持整体表观相似性的同时,对相对质量差的图像进行精炼改善,获得更符合用户意图的商品图像。

至此,拍立淘的整个图像搜索架构的大概设计就基本介绍完了,如果你想了解更多细节,可阅读《深度学习图像搜索与识别(全彩)》一书。

参考文献:

[1] Shaoqing Ren, Kaiming He, Ross B Girshick,et al. Faster R-CNN: Towards Real-Time Object Detection with Region ProposalNetworks. IEEE Transactions on Pattern Analysis and MachineIntelligence(T-PAMI), 2017:1137–1149.

[2] Wei Liu, Dragomir Anguelov, Dumitru Erhan,et al. SSD: Single Shot MultiBox Detector. In European Conference on ComputerVision (ECCV), 2016:21–37.

[3] YanhaoZhang, Pan Pan, Yun Zheng,et al. Visual Search at Alibaba. In Proceedings of the 24th InternationalConference on Knowledge Discovery and Data Mining (SIGKDD), 2018:993-1001

[4] Yushi Jing, David C Liu, Dmitry Kislyuk,et al. Visual Search at Pinterest. In Proceedings of the 21th InternationalConference on Knowledge Discovery and Data Mining (SIGKDD), 2015:1889–1898

[5] Christian Szegedy, Wei Liu, Yangqing Jia,et al. Going deeper with convolutions. In IEEE Conference on Computer Visionand Pattern Recognition(CVPR), 2015:1–9.

[6] Jiang Wang, Yang Song, Thomas Leung, etal. Learning Fine-Grained Image Similarity with Deep Ranking. In IEEEConference on Computer Vision and Pattern Recognition(CVPR), 2014:1386–1393.

[7] OlgaRussakovsky, Jia Deng, Hao Su, et al. ImageNet Large Scale VisualRecognition Challenge. (2014). arXiv:arXiv:1409.0575, 2014.

▊《深度学习图像搜索与识别(全彩)》

潘攀 著

  • 首度剖析基于深度学习的亿级图像检索技术平台
  • 深度分析计算机视觉重要算法原理与应用场景
  • 阐述构建大规划图像搜索平台思路、技巧与落地经验

图像搜索和识别是计算机视觉领域一个非常重要且基础的题目。本书对构成图像搜索和识别系统的各个算法基础模块一一做了介绍,并在最后一章以拍立淘为例说明了各个模块是怎样一起工作的。针对每个算法模块,本书不仅深入浅出地解释了算法的工作原理,还对算法背后的演进机理和不同方法的特点进行了说明,在第2章至第8章最后均提供了经典算法的PyTorch 代码和相关参考资料。

本书既适合图像搜索和识别领域的初学者,也适合在某个单一任务方面有经验但是想扩充知识面的读者。

(京东限时活动,快快扫码抢购吧!)

互动赠书

在本文下方留言区留下你与图像搜索的故事,我们将随机选取1位小伙伴,赠送《深度学习图像搜索与识别(全彩)》一书。

活动截止时间:2021.5.17

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连

 热文推荐  
从 Netflix 到 Alibaba,Spring Cloud 更好了?
学会这款数据分析工具,被各大名企高薪哄抢!
数据工作者必备工作技能:数据治理
Power BI中的AI语义分析应用


▼点击阅读原文,获取本书详情~
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
大厂技术实现 | 图像检索及其在淘宝的应用 @计算机视觉系列
图像检索任务指的是,给定查询图像,从图像数据库中找到包含相同或相似实例的图像。典型应用之一就是电商商品检索,如淘宝拍立淘,只需要用户随手拍照即可精准检索,提高了电商购物的体验。本篇我们来看看淘宝拍立淘背后的实现方案和依托的计算机视觉技术。
ShowMeAI
2021/11/24
3K0
大厂技术实现 | 图像检索及其在淘宝的应用 @计算机视觉系列
微信扫物上线,全面揭秘扫一扫背后的识物技术!
12月23 日,微信扫物  iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行
风间琉璃
2019/12/27
12.7K1
落地图像搜索与识别算法,阿里资深算法专家有话可讲
进入21世纪以来,伴随着互联网的高速发展,通过图像和视频来进行需求表达越来越成为大家的习惯。图像搜索与识别算法使得图像视频内容得以结构化和数字化,以便可以在各种检索和分析引擎中被最大限度地挖掘和利用。 阿里巴巴研发出的移动端以图搜图应用——拍立淘,使用户可以通过拍摄照片,在手机淘宝上迅速找到同款及相似商品,是图像搜索与识别领域极具代表性的落地产品。 因为拍立淘,我们可以在不知道商品品牌、名字等信息的情况下搜索到想要的同类品。 那么,拍立淘的架构设计是怎样的?它是如何将图像搜索与识别算法落地应用的呢? 最近,
博文视点Broadview
2023/05/19
7000
落地图像搜索与识别算法,阿里资深算法专家有话可讲
Magiclens:新一代图像搜索技术及产品形态
“MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions” 是一项关于图像检索的新研究。这项研究的核心在于,通过使用大型多模态模型和大型语言模型,能够将图像对中的隐含关系(如网页上的"内部视图")显式化。MagicLens 是一种自监督的图像检索模型,支持开放式指令。这些模型基于一个关键的新见解:自然出现在同一网页上的图像对包含广泛的隐含关系,并且可以通过合成指令来使这些关系明确化。
用户3578099
2024/05/27
3850
Magiclens:新一代图像搜索技术及产品形态
CVPR 2022 | 南大提出:Structured Sparse R-CNN:单阶段端到端场景图生成器
本文介绍我们在场景图生成 (Scene Graph Generation, SGG) 领域的工作——Structured Sparse R-CNN for Direct Scene Graph Generation。本工作将端到端稀疏目标检测器引入场景图生成领域,并提出了相应的关系建模组件和训练策略。该模型在 Visual Genome, Open Image V4/V6 数据集上取得了 SOTA 效果。论文和代码及模型已经开源:
Amusi
2022/04/18
1K0
CVPR 2022 | 南大提出:Structured Sparse R-CNN:单阶段端到端场景图生成器
微信AI从识物到通用图像搜索的探索揭秘
作者:lincolnlin,腾讯 WXG 专家研究员 微信识物是一款主打物品识别的 AI 产品,通过相机拍摄物品,更高效、更智能地获取信息。2020 年,微信识物拓展了更多识别场景,上线了微信版的图片搜索。本篇文章将与大家分享微信识物从识物拓展到通用图像搜索领域的发展过程。 微信识物 以上小视频简单介绍了识物的产品形态,它对微信扫一扫的扫封面能力进行了升级。打开微信扫一扫,左滑切换到“识物”功能,对准想要了解的物品正面,可以获取对应的物品信息,包括物品百科、相关资讯、相关商品。在微信识物发布不久,也
腾讯技术工程官方号
2020/12/07
3.9K0
ECCV 2020 亮点摘要(上)
与我的CVPR2020帖子类似,为了了解今年会议的总体趋势,我将在这篇博客文章中总结一些引起我注意的论文(列出一些),并对整个会议进行概括。
LiveVideoStack
2021/01/06
4950
阿里深度学习实践
近年来,随着大数据在互联网的蓬勃发展,很多人工智能的技术、应用像雨后春笋般涌现出来,如谷歌、Facebook、阿里、腾讯、百度等用得非常广泛,且各种应用都通过深度学习的方法推出。阿里巴巴这几年在深度学习方面颇有建树,特在“2015杭州·云栖大会”开设了深度学习专场,邀请七位专家从图形、图像、安全、声音、语音等方面全面介绍了阿里巴巴利用深度学习技术、应用,以及分析包装深度学习技术的经验方法。 华先胜:基于深度学习的大规模图像搜索、理解和人脸识别技术 阿里巴巴搜索事业部研究员华先胜在“2015杭州·云栖大会”
机器学习AI算法工程
2018/03/13
1.1K0
他山之石 | 阿里多模态知识图谱探索与实践
随着知识图谱技术的发展,其在电商、医疗、金融等领域得到了越来越广泛的应用。在过去的几年间,我们团队一直致力于探索知识图谱在新零售问答和直播场景的应用,提出了阿里小蜜新零售多模态知识图谱AliMe MKG(AliMe指图谱建设时期团队的名称阿里小蜜,MKG是多模态知识图谱的缩写)。本次报告将介绍过去一年多我们在多模态知识图谱方面的探索与实践工作,主要分为以下三个方面:
NewBeeNLP
2022/11/11
1.3K0
他山之石 | 阿里多模态知识图谱探索与实践
图像内容的「深度」理解及其应用
本文作者:朱晓龙博士,2015 年毕业于香港大学,主攻计算机视觉和机器学习方向,涉及物体检测,位姿估计,人脸特征点定位,3D 视觉等课题。本科期间参与北京大学智能车环境感知项目,基于 LIDAR 的图像理解工作发表在机器人顶级会议上。2015 年底加入腾讯,在 TEG 内部搜索部工程平台中心参与深度学习平台的开发与应用。长按以下二维码,在腾讯KM上查看本文 Introduction: 交互方式决定未来 云对雨,雪对风,晚照对晴空。——《声律启蒙》 随着设备的迭代,数据的形态也越来越丰富。PC 时代的键
腾讯技术工程官方号
2018/01/26
3.4K0
基于深度学习的行人重识别研究综述
AI 科技评论按:本文为浙江大学罗浩为 AI 科技评论撰写的独家稿件,得到了作者本人指点和审核,在此表示感谢。 前言:行人重识别(Person Re-identification)也称行人再识别,本文简称为ReID,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。 在监控视频中,由于相机分辨率和拍摄角度的缘故,通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下,ReID就成为了一个非常重要的替代品技
企鹅号小编
2018/02/06
3.3K0
基于深度学习的行人重识别研究综述
AAAI 2020 | 上交大:基于图像查询的视频检索,代码已开源!
本篇文章介绍上海交通大学 BCMI 实验室在AAAI 2020 上的一项工作,A Proposal-based Approach for Activity Image-to-Video Retrieval。
马上科普尚尚
2020/05/13
2.5K0
AAAI 2020 | 上交大:基于图像查询的视频检索,代码已开源!
【犀牛鸟论道】深度哈希方法及其在移动视觉搜索中的应用
1. 简介 移动视觉搜索技术是多媒体搜索领域中一个前沿的研究课题。近年来,移动设备的飞速发展,改变了互联网上图像和视频等视觉内容的产生,以及人们检索和观看的方式。移动设备的便携性和无处不在的网络接入能力使其逐渐成为主要的互联网图像和视频内容的访问和查询入口。而移动设备上丰富的传感器原件,也使得移动视觉搜索的过程更加自然、有效——用户可以直接通过拍摄图像和视频进行搜索。因此,移动视觉搜索具有巨大的市场需求和应用前景。但是,不同于传统的桌面搜索,移动视觉搜索主要面临如下挑战:1)查询图像\视频受拍摄环境干扰严重
腾讯高校合作
2018/03/21
1.3K0
【犀牛鸟论道】深度哈希方法及其在移动视觉搜索中的应用
最佳实践|用腾讯云AI图像搜索打造属于自己的拍立淘
最近,在一个论坛交流会上, 有嘉宾提出自己运营多年的微信小程序商城经常收到用户反馈:自己在逛街时候发现别人穿的好看的衣服,很难通过关键字定位到具体的商品,如果能拍照定位相关的商品就好了,问目前小程序里面能否实现这样的功能。作为一名软件开发者, 日常网购也有类似的体会。如果能在小程序里集成商品搜索的功能,就能大大提升用户的体验,嘉宾的问题引发我极大的兴趣。
腾讯云AI
2022/09/08
1.2K2
最佳实践|用腾讯云AI图像搜索打造属于自己的拍立淘
从头开始构建图像搜索服务
一张图片胜过千言万语,甚至N行代码。网友们经常使用的一句留言是,no picture, you say nothing。随着生活节奏的加快,人们越来越没有耐心和时间去看大段的文字,更喜欢具有视觉冲击性的内容,比如,图片,视频等,因为其所含的内容更加生动直观。 许多产品是在外观上吸引到我们的目光,比如在浏览购物网站上的商品、寻找民宿上的房间租赁等,看起来怎么样往往是我们决定购买的重要因素。感知事物的方式能强有力预测出我们想要的东西是什么,因此,这对于评测而言是一个有价值的因素。 然而,让计算机以人类的方式理解图像已经成为计算机科学的挑战,且已持续一段时间了。自2012年以来,深度学习在图像分类或物体检测等感知任务中的效果慢慢开始超越或碾压经典方法,如直方梯度图(HOG)。导致这种转变的主要原因之一是,深度学习在足够大的数据集上训练时,能够自动地提取有意义的特征表示。
用户3578099
2019/08/16
8820
QQ浏览器搜索中的智能问答技术
每天给你送来NLP技术干货! ---- ---- 分享嘉宾:姚婷 腾讯 专家研究员 编辑整理:王惠灵 合肥工业大学 出品平台:DataFunTalk 导读:智能问答是人工智能领域中一个比较受关注的方向,目前广泛应用于各种垂直或综合的搜索引擎、智能客服、智能助手以及智能手机、车载音箱等。本次分享的主题是QQ浏览器搜索中的智能问答技术,主要分为以下几个部分: 1.背景介绍 智能问答在搜索中的应用 搜索中的Top1问答 2.关键技术 搜索问答的技术框架 KBQA:基于知识图谱的问答 DeepQA:基于搜索+机器
zenRRan
2022/09/14
1.6K0
QQ浏览器搜索中的智能问答技术
构建可以查找相似图像的图像搜索引擎的深度学习技术详解
来源:DeepHub IMBA本文约3400字,建议阅读7分钟本文为你介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现。 在本文中将介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现,本文提供有关在图像检索任务中使用的推荐方法的背景信息。阅读本文后你将有能够从头开始创建类似图像的搜索引擎的能力。 图像检索(又名基于内容的图像检索Content-Based Image Retrieval 或 CBIR)是任何涉及图像的搜索的基础。 上图来自文
数据派THU
2022/03/04
1.2K0
CVPR2021 Oral | HOTR:不再需要后处理!Kakao Brain提出端到端Human-Object交互检测模型
Human-Object Interaction(HOI)检测是识别图像中“人-物-交互”的任务,涉及到:1)交互作用中的主体(人)和目标(对象)的定位;2)以及交互标签的分类。 大多数现有的方法都通过检测人和对象实例,然后单独推断检测到的每一对实例的关系来间接解决这个任务。
CV君
2021/11/10
1.2K0
CVPR2021 Oral | HOTR:不再需要后处理!Kakao Brain提出端到端Human-Object交互检测模型
人脸识别技术全面总结:从传统方法到深度学习
自七十年代以来,人脸识别已经成为了计算机视觉和生物识别领域被研究最多的主题之一。基于人工设计的特征和传统机器学习技术的传统方法近来已被使用非常大型的数据集训练的深度神经网络取代。在这篇论文中,我们对流行的人脸识别方法进行了全面且最新的文献总结,其中既包括传统方法(基于几何的方法、整体方法、基于特征的方法和混合方法),也有深度学习方法。
机器之心
2019/03/06
1.2K0
人脸识别技术全面总结:从传统方法到深度学习
业界总结 | BERT的花式玩法
BERT在工业界落地已经很普遍了,主要在搜索、推荐和NLP中广泛应用,我将自己运用BERT的心得总结如下:
对白
2022/04/01
6640
业界总结 | BERT的花式玩法
推荐阅读
相关推荐
大厂技术实现 | 图像检索及其在淘宝的应用 @计算机视觉系列
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验