图片辨别_图片辨别字体_图片文字是辨别 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

小孩都看得懂的 GAN

本文是「小孩都看得懂」系列的第十八篇，本系列的特点是内容不长，碎片时间完全可以看完，但我背后付出的心血却不少。喜欢就好！

02

task8 GAN text-to-image

https://www.tensorflow.org/api_docs/python/tf/layers/batch_normalization https://www.tensorflow.org/programmers_guide/variableshttps://www.tensorflow.org/programmers_guide/variables https://www.tensorflow.org/api_guides/python/reading_data#Multiple_input_pipelines

02

您找到你想要的搜索结果了吗？

是的

没有找到

TensorFlow从1到2（十二）生成对抗网络GAN和图片自动生成

上一篇中介绍的VAE自动编码器具备了一定程度的创造特征，能够“无中生有”的由一组随机数向量生成手写字符的图片。这个“创造能力”我们在模型中分为编码器和解码器两个部分。其能力来源实际上是大量样本经过学习编码后，在数字层面对编码结果进行微调，再解码生成图片的过程。所生成的图片，是对原样本图的某种变形模仿。

06

看完立刻理解 GAN！初学者也没关系

前言 GAN 从 2014 年诞生以来发展的是相当火热，比较著名的 GAN 的应用有 Pix2Pix、CycleGAN 等。本篇文章主要是让初学者通过代码了解 GAN 的结构和运作机制，对理论细节不做过多介绍。我们还是采用 MNIST 手写数据集（不得不说这个数据集对于新手来说非常好用）来作为我们的训练数据，我们将构建一个简单的 GAN 来进行手写数字图像的生成。认识 GAN GAN 主要包括了两个部分，即生成器 generator 与判别器 discriminator。生成器主要用来学习真实图像

05

GID：旷视提出全方位的检测模型知识蒸馏 | CVPR 2021

论文: General Instance Distillation for Object Detection

04

开发 | 看完立刻理解GAN！初学者也没关系

AI 科技评论按：本文原作者天雨粟，原文载于作者的知乎专栏——机器不学习，经授权发布。前言 GAN 从 2014 年诞生以来发展的是相当火热，比较著名的 GAN 的应用有 Pix2Pix、CycleGAN 等。本篇文章主要是让初学者通过代码了解 GAN 的结构和运作机制，对理论细节不做过多介绍。我们还是采用 MNIST 手写数据集（不得不说这个数据集对于新手来说非常好用）来作为我们的训练数据，我们将构建一个简单的 GAN 来进行手写数字图像的生成。认识 GAN GAN 主要包括了两个部分，即生成器 ge

深度 | Yoshua Bengio AIWTB大会解读深度生成模型：让机器具备无监督学习能力

机器之心报道演讲者：Yoshua Bengio 参与：吴攀、蒋思源面向开发者的世界上最大的人工智能主题在线演讲与对话大会 AI WITH THE BEST（AIWTB）于 2017 年 4 月 29-30 日在 AIWTB 官网上通过在线直播的方式成功举办。作为第三届 AI WITH THE BEST 华语社区独家合作伙伴，机器之心在前两天接连整理报道了生成对抗网络（GAN）的提出者 Ian Goodfellow 和联想 AI 实验室负责人徐飞玉的精彩演讲。今天，我们将呈现的是著名深度学习学者 Yosh

太吓人！人工智能领域的巨头开始“造假”，人类肉眼根本分辨不出真伪！

本文介绍了人工智能领域的巨头英伟达在AI技术方面的神奇和强大，通过自主学习方法，机器可以自主想象和脑补出各种逼真的图像，甚至难以分辨真伪。这一技术让人们对AI的学习能力与日俱增，同时引发了人们对于AI技术的担忧和质疑，未来还有什么是可以相信的？

深度学习中的怪圈

大数据文摘作品，转载要求见文末作者：Carlos E. Perez 编译 | saint，一针牛津大学的机器学习先驱Nando de Freitas刚刚在自己的最新推文中推荐了这篇关于“深度学习怪圈”的文章。本文作者将人类自我认知的怪圈与深度学习的算法怪圈相联系，“自我创造”这一似乎是“人类思想”独有的属性，似乎正在成就一些难以置信的深度学习成果。最终，我们将自我觉知、自我创造，陷入自我参照的小小奇迹幻影中。而这种自我参照的机制，如同描述思想独有的属性。 — Douglas Hofstadter 怪

09

ICLR 2020 | 加密算法也可以不那么复杂：上交大提出面向中层特征隐私保护的复数神经网络

深度神经网络的训练和推断过程中，往往伴随着数据集信息的泄露。随着各类机器学习服务的发布和推广，用户通常只需要在本地对数据进行预处理、提取浅层特征后，发送到第三方平台或云端进行进一步的学习。但该过程中，用户的隐私数据面临着巨大的泄露风险：攻击者可以通过对第三方平台所收集到的中层特征进行攻击，恢复出用户的输入数据，如人脸信息、指纹信息等。因此，研究者希望提出一种新型隐私保护机制，使得即使攻击者知道神经网络内部参数，也无法从中层特征恢复出输入数据。

03

sigmoid function和softmax function

「学习内容总结自 couesera 和 udacity 的深度学习课程，部分截图来自 coursera 的课件」

01

HarmonyOS实战—滑动事件的三个动作

1. 滑动事件的三个动作接口名：TouchEventListener 滑动事件里面分为三个动作：按下不松，移动，抬起。 PRIMARY_POINT_DOWN：按下不松。 POINT_MOVE：移动。 PRIMARY_POINT_UP：抬起。方法返回值： true 表示继续执行后面的动作。 false 表示不会继续执行后面的动作。涉及到如下三个动作，根据用户按下位置和松下位置，就可以辨别用户是上、下、左、或右滑动。 [在这里插入图片描述] 如：可以辨别出用户是向右滑动（简称：右滑） [在这里插入图片描

02

Adobe公布新成果，用AI识别照片是否被修

为了有效控制假视频和图片的传播，全球最大的修图和音视频剪辑软件公司Adobe也透露表示其或将提出一定的反制措施。

02

基础目标检测算法介绍：CNN、RCNN、Fast RCNN和Faster RCNN

每次丢了东西，我们都希望有一种方法能快速定位出失物。现在，目标检测算法或许能做到。目标检测的用途遍布多个行业，从安防监控，到智慧城市中的实时交通监测。简单来说，这些技术背后都是强大的深度学习算法。

02

[安卓]QQ透明头像教程

因为到现在很多网友都不会制作和上传QQ透明头像，所以我决定再发一波教程，让不知道的小伙伴们再学习学习！需要用的软件麻烦请到链接下载 PS软件汉化: http://pan.baidu.com

08

Generative Adversarial Network

这里我们将建立一个对抗生成网络（GAN）训练MNIST,并在最后生成新的手写数字。

02

自动驾驶汽车眼中的世界是什么样的？

摘自：网易科技自从诞生以来，计算机就一直生活在一个充满1和0的世界，不厌其烦地处理着 if-then和and-or语句。一种为自动驾驶汽车研发的技术可能会改变这一切。它将赋予机器人通过视觉理解这个世界的能力，更有可能是机器人自我意识的第一步。我们称这项技术为“深度学习”，一种基于神经网络算法模仿大脑运行的科技。尽管目前研究者们在许多领域应用了深度学习，如语音识别等等，视觉识别才是和深度学习最相关的一个。自动驾驶汽车更是其中最热门的研究领域。简单标签为了让自动驾驶汽车能够在我们的城镇和乡村中穿梭自如

09

学界 | 最小二乘GAN：比常规GAN更稳定，比WGAN收敛更迅速

选自Github 机器之心编译参与：蒋思源近来 GAN 证明是十分强大的。因为当真实数据的概率分布不可算时，传统生成模型无法直接应用，而 GAN 能以对抗的性质逼近概率分布。但其也有很大的限制，因为函数饱和过快，当判别器越好时，生成器的消失也就越严重。所以不论是 WGAN 还是本文中的 LSGAN 都是试图使用不同的距离度量，从而构建一个不仅稳定，同时还收敛迅速的生成对抗网络。项目地址：http://wiseodd.github.io/techblog/2017/03/02/least-square

08

实用，小物体检测的有监督特征级超分辨方法 | ICCV 2019

**论文: Better to Follow, Follow to Be Better: Towards Precise Supervision of Feature

04

人工智能的未来在于数据

据美国著名杂志《连线》（WIRED）网站2015年11月报道，Google开源机器学习系统TensorFlow表明人工智能的未来依赖于数据，而不是软件。 Google在11月宣布开放其人工智能搜索引擎的源代码，CrowdFlower的创始人兼首席执行官Lukas Biewald认为这不是免费软件运动的胜利，而是数据的胜利。他认为当谈到人工智能时，真正的价值不在于软件或算法，而在于使它变得更加聪明所需要的数据。（1）让机器更加聪明 TensorFlow是一种基于深度学习的人工智能系统。通过将数据输入到巨大神

05

图像填充不怕区域大！MSRA等提出协同调制生成对抗网络

编者按：图像填充是深度学习领域内的一个热点任务。尽管现有方法对于小规模、稀疏区域的填充可以取得不错的效果，但对于大规模的缺失区域始终无能为力。为解决这一问题，微软亚洲研究院提出了协同调制生成式对抗网络——一种通用的方法，跨越了条件与无条件图像生成领域之间的鸿沟。

02

基于stm32和ov7725的智能循迹车

IN1IN2控制一个轮子，IN3IN4控制另外一个。这里使用的是直流电机，控制如下：

02

李彦宏：AI不会跟我们抢饭碗，而是帮我们更好地端饭碗

---- 新智元报道编辑：编辑部【新智元导读】ChatGPT横空出世，让许多人惊呼AI将取代人类。百度CEO李彦宏直言AI抢不走你的饭碗，不发明不创造不进步，是人类最大的威胁。生成式人工智能的火爆出圈，再次引发全球对人工智能发展的广泛关注，更让人们体会到大模型对人工智能发展的重要意义。在5月18日天津举办的第七届世界智能大会上，百度CEO李彦宏发表了题为《大模型改变人工智能》的演讲。李彦宏表示，「我不担心大模型会导致人类工作机会减少。」「人类最大的危险，最大的不可持续，并不是创新带来的不

07

CVPR2022 | 动作识别框架新范式 STRM，用最小的样本获得最高的精度

我们提出了一种few-shot动作识别框架STRM，它在学习高阶时间表示的同时，增强了特定类特征的区分能力。我们的方法的重点是一个新的时空增强模块，它将空间和时间上下文与专用的局部帧级别和全局帧级别特征丰富子模块聚合在一起。局部帧级别的扩展捕获基于外观的动作特征。另一方面，全局帧级扩展明确编码了广泛的时间上下文，从而捕获了随时间推移的相关对象特征。然后，利用得到的时空丰富表示来学习查询和支持动作子序列之间的关系匹配。我们进一步在帧级丰富的特征上引入query类相似性分类器，通过在所提出的框架中的不同阶段加强特征学习来增强特定类特征的可区分性。在四个不同的少样本动作识别数据基准上进行了实验：Kinetics、SSv2、HMDB51和UCF101，我们所提的方法达到最佳水平。

00

AAAI 2020 | 上交大：基于图像查询的视频检索，代码已开源！

本篇文章介绍上海交通大学 BCMI 实验室在AAAI 2020 上的一项工作，A Proposal-based Approach for Activity Image-to-Video Retrieval。

02

journal of neuroscience：面孔的神经表征与眼动模式相协调

眼球运动是人类视觉功能如何完成的一个信号。近期大量的研究持续验证了在面孔识别过程中特征视觉采样的策略。然而这些个体差异是否反映在特殊的神经差异上目前尚没有研究报告。为探讨该问题本研究首先记录了观察者在面孔再认过程中的眼动数据；其次通过EEG数据获得了他们的面孔辨别神经反应 (neural face discrimination response)。实验结果发现在面孔再认阶段，注视点固定时间更长的面部特征诱发的面部辨别神经反应更大。该模式在不同的被试中 (eye lookers vs.mouth lookers) 同样被发现，且在注视点首次固定在兴趣位置时这种模式就会出现。本研究表明，眼球运动在视觉处理过程中起着重要的作用，可以为神经系统提供判断特定观察者的判断信息，并且面孔身份的有效处理涉及特质，而不是整个面孔。该研究由来自瑞士的Stacchi, Ramon, Leo和Caldara 完成，发表在杂志the journal of neuroscience上。

01

基于Tensorflow的Quick Draw图像分类

Google的“Quick Draw”数据集是一个开源的数据集。该数据集共有345个类别，共5000万张图片，所有这些图片都是由参与挑战的1500万名用户在20s或者更短的时间内绘制完成。

02

AI是万能的吗？当前AI仍面临的难题是什么？

【导读】谈到人工智能（特别是计算机视觉领域），大家关注的都是这一领域不断取得的进步，然而人工智能到底发展到什么程度了？AI 已经成为万能的了吗？Heuritech 的 CTO Charles Ollion 希望通过他的文章可以揭露一些当前的真实情况。接下来就让我们一起看看这位作者都谈了什么内容吧！

02

骗人还是文字强！MIT最新研究：DeepFake换脸还不如编辑动动笔

---- 新智元报道编辑：袁榭好困【新智元导读】最近MIT的一项研究显示，费时费力的DeepFake换脸大法甚至还不如单纯的文字假消息能唬人。 DeepFake，自面世以来就被列为了潜在的「坏AI」。不论是著名的「加朵换头色情片」，还是各种用DeepFake变声的银行转账骗局，DeepFake的相关消息似乎都摆脱不了负面背景。不过MIT的最新研究表明，伪造文字信息的破坏力要远高过伪造的图片或视频。这与传播领域的旧观点相反，过往学界认为当同一版本的内容以视频而不是文本形式呈现时，人们会更容易被

04

电视液晶屏好坏测试工具(分辨率4k测试工具)

现在的智能电视屏幕越大越薄，且许多品牌的电视都打着4K屏幕的旗号，但你真的买对电视了吗？对于大屏智能电视来说，屏幕真的很重要，在选购需要必须确定电视屏幕无坏点漏光现象，非伪4K电视屏。今天当贝市场小编分享的这两款工具，能一键辨别电视屏幕真伪4K，是否有坏点漏光等现象。

03

翻车现场：我用pytorch和GAN做了一个生成神奇宝贝的失败模型

神奇宝贝已经是一个家喻户晓的动画了，我们今天来确认是否可以使用深度学习为他自动创建新的Pokemon。

01

骗人还是文字强！MIT最新研究：DeepFake换脸还不如编辑动动笔

---- 点击上方↑↑↑“OpenCV学堂”关注我来源：公众号新智元授权【导读】最近MIT的一项研究显示，费时费力的DeepFake换脸大法甚至还不如单纯的文字假消息能唬人。 DeepFake，自面世以来就被列为了潜在的「坏AI」。不论是著名的「加朵换头色情片」，还是各种用DeepFake变声的银行转账骗局，DeepFake的相关消息似乎都摆脱不了负面背景。不过MIT的最新研究表明，伪造文字信息的破坏力要远高过伪造的图片或视频。这与传播领域的旧观点相反，过往学界认为当同一版本的内容以视频而不是文本

05

判别式模型（Discriminative model）

在机器学习领域判别模型是一种对未知数据 y 与已知数据 x 之间关系进行建模的方法。判别模型是一种基于概率理论的方法。已知输入变量 x ，判别模型通过构建条件概率分布 P(y|x) 预测 y 。

03

引用次数最多的七篇深度学习论文出自谁手？Hinton、Yoshua榜上有名（理解/泛化/迁移篇）

编者按：我们通常都会学习前辈或大牛的经典作品，而引用次数自然也成为了论文的一个重要标杆。在 GitHub 上，大神 @Terryum 整理了一份精心编写的论文推荐列表，其中包含了在深度学习领域中引用次数最多的前100篇论文（自2012年起）。囿于篇幅限制，AI 研习社整理编译了理解/泛化/迁移领域的七篇论文，并增加了论文的概要，方便读者快速了解。有一些深度学习论文，无论它们属于哪个应用领域，都值得仔细研习。文章在精不在多，AI 研习社提供的这些文章，都被认为是值得一读的优秀论文。 █ 背景除此列表之

08

深度学习

对于一些特定的环境，采用浅层神经网络对图片识别具有比较大的误差（例如：对于图片中狼和狗的辨别，对于狼而言，在不同的环境下或者不同的姿势拍的图片具有明显区别，但是如果狼和狗都在同一个环境下得到的图片，有可能十分的相似，采用浅层分类有可能具有很大的误差，因此，如何选取特征是一个重点），这个时候需要采用深度学习。

01

深度学习基础学习 | 为什么要进行特征提取

在计算机中，图片以有序的多维矩阵进行存储，按颜色分为灰度图片用二维数组存储图片的像素值，和彩色图片用三维数组存储图片的三个通道颜色的像素值。

02

CVPR 2022 | 大幅减少零样本学习所需的人工标注，马普所和北邮提出富含视觉信息的类别语义嵌入

来源：机器之心本文约2900字，建议阅读10+分钟VGSE模型能够发掘与人工标注属性互补的视觉特征。来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络，提高了类别嵌入在视觉空间的完备性，对零样本学习中类别之间的知识转移有重要促进作用。零样本学习旨在模仿人类的推理过程，利用可见类别的知识，对没有训练样本的不可见类别进行识别。类别嵌入（class embeddings）是描述类别语义和视觉特征的向量，能够实现知识在类别间的转移，因而在零样本学习中发挥着不可替代的作用。零样本分类图解如上图所示

02

CVPR 2022 | 大幅减少零样本学习所需的人工标注，马普所和北邮提出富含视觉信息的类别语义嵌入

机器之心专栏作者：北京邮电大学、马普所来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络，提高了类别嵌入在视觉空间的完备性，对零样本学习中类别之间的知识转移有重要促进作用。零样本学习旨在模仿人类的推理过程，利用可见类别的知识，对没有训练样本的不可见类别进行识别。类别嵌入（class embeddings）是描述类别语义和视觉特征的向量，能够实现知识在类别间的转移，因而在零样本学习中发挥着不可替代的作用。零样本分类图解如上图所示，由于属性（attributes）能够被不同类别共享，促进了

03

看图识数辨大小，人类独有的“数字感”被机器无意中学习了

也许我们都记不清了，因为这种直观的数字感是却是人类和动物与生俱来的优势。与计算机不同的是，当我看到2只小猪或者2个小鸭子和数字符号2在一起时候，我们可能不需要计算就会知道，它们都有一个共同点——“2”这个抽象概念。

01

SEO外链建设形式有哪些?

外链建设对于大连网站优化有着重要作用，一个优质的外链可以快速的提高网站的曝光度和转换率。那么，外链建设的形式有哪些呢？我们一起来学习一下吧！

03

SEO外链建设形式有哪些?

外链建设对于大连网站优化有着重要作用，一个优质的外链可以快速的提高网站的曝光度和转换率。那么，外链建设的形式有哪些呢？我们一起来学习一下吧！

01

如何才能够更好地理解运营中的内容概念呢？

1、互联网上随处可见的文字、图片、视频甚至音频都可以称为内容，但更深一步说，其实所有用户感觉到的事物都叫内容。也就是说，内容是指用户可感知到的一切事物，不仅包括用户所看到的普通内容，也包括UI、ICO（图标）、缓冲界面等内容。很多人可能并不明白内容是什么，简单地说，一款产品100%都是由内容构成的。不论产品是电商类的还是社交类的，都完全由文字、UI、图片等组成。

04

当AI被“蒙蔽”，犯罪分子能做些什么？

我曾见过你们人类绝对无法置信的事物；我看见战舰在猎户星座边缘被击中，燃起熊熊火光；我看见C射线划过天国之门，闪耀在无边的幽暗中；然而所有片段，所有瞬间，都将湮没于时间的洪流；就像泪水消逝在濛濛雨中。 ——《银翼杀手》在被强制“退役”前，人工智能复制人Roy发出的这段独白，成为了为世人所铭记的一段经典台词。星际、战舰、光明、幽暗……所有的恢弘与奇观，在时间面前不过是沧海一粟。当我们用肉眼来审视这个世界时，AI机器人也通过“眼中所见”来感受整个寰宇。与人类眼中的世界不同，AI能将亿万年时光的

08

沈向洋创造清华历史，成为史上首位视频聘任的清华教授，呼吁进行可解释的AI研究

去年11月沈向洋离职微软后，就在本周前几天，沈向洋续聘清华，在清华的title是清华大学高等研究院双聘教授。

01

验证码的未来：扒一扒reCAPTCHA的那些事

reCAPTCHA的诞生及意义 CMU（卡耐基梅隆大学）设计了一个名叫reCAPTCHA的强大系统，让电脑去向人类求助。具体做法是：将OCR（光学自动识别）软件无法识别的文字扫描图传给世界各大网站，用以替换原来的验证码图片；那些网站的用户在正确识别出这些文字之后，其答案便会被传回CMU。 reCAPTCHA是利用CAPTCHA的原理（CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试），借助于人类大脑对难以识别的字符的辨别能力，进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说，reCA

05

hackerone漏洞挖掘之云存储任意文件上传

在挖掘hackerone的项目时，发现了一个公开的S3列表。使用了ARL和fofa收集资产，在挖掘此类的云安全漏洞的时候，可以重点关注一些子域名前缀。快速辨别它是否存在公开访问的一个情况

06

CVPR 2022 | 大幅减少零样本学习所需的人工标注，提出富含视觉信息的类别语义嵌入（源代码下载）

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 来自北京邮电大学、马普所等机构的研究者提出了类别嵌入发掘网络，提高了类别嵌入在视觉空间的完备性，对零样本学习中类别之间的知识转移有重要促进作用。转自《机器之心》零样本学习旨在模仿人类的推理过程，利用可见类别的知识，对没有训练样本的不可见类别进行识别。类别嵌入（class embeddings）是描述类别语义和视觉特征的向量，能

02

Diverse Image-to-Image Translation via Disentangled Representations

摘要：图像到图像的翻译主要学习两个视觉域之间的映射关系。主要有两个挑战：1）缺少对齐的成对的训练数据2）和对于一个输入图片的多种可能输出。这篇文章中，提出了基于解开表示disentangled representation的，在没有成对训练数据情况下，产生多样的输出。为了实现多样性，将图片分解为两个空间：一个域不变的内容空间来捕捉不同域之间的共享信息，和属性空间的特殊域。此模型从给定图片中提取解码的内容特征以及从属性空间中采样的属性向量来在测试阶段产生多样性图片。为了解决数据不成对问题，我们提出了一个新的基于解开表示的交叉循环一致性损失cross-cycle consistency loss。质量评估显示在没有成对训练数据的情况下我们能生成多样真实的图片。在量化比较中，我们用用户学习来评价真实性以及用感知距离度量来评价多样性。在MNIST-M和LineMod数据集上的应用性与其他先进算法的比较中具有有竞争力的表现。

01

独家 | 如何戏弄人脸识别系统

本文通过对人脸识别系统的攻击揭示了该系统的脆弱性和漏洞所在，并对人脸识别系统在人类社会中的广泛使用的现状提出了建设性的意见与建议。

03

最高资助150万！用来教AI识别海豚、狐狸、兔子、海龟......

背鳍就是识别每一头中华白海豚的「身份证」。过去，科学家们出海拍到海豚后，会先「抠图」，把照片里的海豚背鳍部分抠出来，跟数据库里的背鳍做对比，肉眼辨别出哪只是A0001，哪只是A0002。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭