Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何用 Python 脚本批量下载 Google 图像?

如何用 Python 脚本批量下载 Google 图像?

作者头像
王树义
发布于 2018-08-22 09:46:12
发布于 2018-08-22 09:46:12
2K00
代码可运行
举报
文章被收录于专栏:玉树芝兰玉树芝兰
运行总次数:0
代码可运行

(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)

问题

如何用Python和深度神经网络识别图像?》一文中,我给你展示了如何用深度学习,教电脑区分机器人瓦力和哆啦a梦。

很快就有用户在后台留言,问:

老师,我想自己训练一个图片分类器,到哪里去批量下载带标注的训练图像呢?

说说我写教程的时候,是如何找图片的吧。

最大的图片库,当然就是 Google 了。

在 Google 图像栏目下,键入"Walle"。

怎么样?搜索结果很符合需求吧。

你不但找到了一批高质量图片,而且它们的标注, Google 都帮你打好了。

下面一步,自然就是把这些图片下载下来了。

我让学生实际动手做,每个人找两个与别人不同的图像集合,尝试根据教程做深度学习分类。

我提供给他们的方案(几款不同的 Chrome 浏览器插件),效果都不好。

有的才下了几张,就停工,甚至把浏览器整崩溃了。

有的下载图片,都是重复的。

学生告诉我,经验证,最简单有效的方法,是一张张手动点击下载……

这显然不是正经办法。

痛点

渴望从 Google 图片库高效批量获得优质带标注图像,不会是个案。

这个大众痛点,真的没有人尝试解决吗?

今天,一个偶然的机会,我发现了一个特别棒的 Github 项目,叫做 google-images-download

Github repo 链接在这里。

项目发布至今,只有短短5个月的时间,星标数量居然已经上了2000,看来确实非常受欢迎。

google-images-download 是个 Python 脚本。

使用它,你可以一条命令,就完成 Google 图片搜索和批量下载功能。

而且,这工具还跨平台运行,Linux, Windows 和 macOS 都支持。

简直是懒人福音。

安装

google-images-download 安装很简单。

以 macOS 为例,只需要在终端下,执行以下命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install google_images_download

安装就算完成了。

当然,这需要你系统里已经安装了 Python 环境。

如果你还没有安装,或者对终端操作命令不太熟悉,可以参考我的《如何安装Python运行环境Anaconda?(视频教程)》一文,学习如何下载安装 Anaconda ,和进行终端命令行操作。

尝试

进入下载目录:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd ~/Downloads

我们尝试下载一些图片。

《我不是药神》里面有个叫谭卓的女演员,演的不错。可是我一开始,把她当成郝蕾了。

咱们尝试下载一些谭卓的图片吧。

终端里面执行:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
googleimagesdownload -k "谭卓" -l 20

解释一下,这里的 -k 指的是 "keyword",也就是“关键词”,后面用双引号括起来要查找的关键词。

你可以看出,使用中文关键词,也没问题。

后面的 -l ,指的是"limit",也就是图片数量限定,你需要指定自己要下载多少张图像。

本例中,我们要20张。

下面是执行过程:

执行完毕。

可以看到,下载过程中,发生了一个错误。

但程序依然锲而不舍,帮我们把下载流程运行完毕。

我们看看结果。

下载的图片都存放在 ~/Downloads/downloads/谭卓 下面,google-images-download 非常贴心地,为我们建立子目录。

我们在 Finder 里打开看看:

看了半天,有的照片,还是跟郝蕾分不大清楚。

为了彻底分清两位女演员,我们再下载 200 张郝蕾的照片吧。

仿照刚才的命令,我们执行:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
googleimagesdownload -k "郝蕾" -l 200

然后……就报错了:

解决

遇到问题,不要慌。

你得认真看看错误提示。

注意其中出现了一个关键词:chromedriver

这是个什么东西呢?

我们回到 google-images-download 的 github 页面,以 chromedriver 为关键词进行检索。

你会立即找到如下结果:

原来如果你要的图片数量超过100张,那么程序就必须调用 Selenium 和 chromedriver 才行。

Selenium 在你安装 google-images-download 的时候,已经自动安装好了。

你只需要下载 chromedriver ,并且指定路径。

下载链接在这里。

请根据你的操作系统类型,选择合适的版本:

我选的是 macOS 版本。

下载后,压缩包里面只有一个文件,把它解压,放在 ~/Downloads 目录下。

然后,执行:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
googleimagesdownload -k "郝蕾" -l 200 --chromedriver="./chromedriver"

这里 --chromedriver 参数,用来告诉 google-images-download ,解压后 chromedriver 所在路径。

这回机器勤勤恳恳,帮我们下载郝蕾的照片了。

200张图片,需要下载一会儿。请耐心等待。

下完了。

中间也有一些报错,部分图片没有正确下载。

好在,这对总体结果没有太大影响。

为了保险起见,建议你设置下载数量时,多设置一些。

给自己留出安全边际嘛。

咱们打开下载后的目录 ~/Downloads/downloads/郝蕾 看看:

这回,你能分清楚她俩不?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉树芝兰 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
爬一爬那些年你硬盘存过的“老师”
最近在Github发现一个基于google浏览器的爬虫项目,此项目是由美国大神2018年开源的。这个开源项目不需要使用者再去手写核心爬虫,只需要下载安装,然后传入一些配置参数即可。重要的能做到google图片的无限量爬取,只有不想爬的图片,没有爬不到的。下来就介绍一下这个牛逼的开源项目。
AI科技大本营
2019/03/12
6480
爬一爬那些年你硬盘存过的“老师”
一键下载QQ空间相册,微博相册,知乎回答图片,豆瓣图片,instagram图片
之前分享过如何批量下载知乎回答图片,这里再做个整理,一键下载QQ空间相册,微博相册,知乎回答图片,豆瓣图片,instagram图片。
苏生不惑
2021/04/22
2.2K0
一键下载QQ空间相册,微博相册,知乎回答图片,豆瓣图片,instagram图片
快速构建深度学习图像数据集,微软Bing和Google哪个更好用?
译者 | Serene 编辑 | 明明 【AI 科技大本营导读】在本文中,作者将利用微软的 Bing Image Search API 来建立深度学习图像数据集。Bing Image Search API 是微软 Cognitive Services 的一个组成部分,主要是帮助用户在视觉、语言、文本等手机应用和软件中应用AI。相比较,利用 Google Images 来构建自己的数据集是一个乏味且需要手动的过程,主要原因是因为多年前,谷歌关停了自己的图像搜索 API ,然而,我们需要的是一个通过查询能够
AI科技大本营
2018/04/26
1.8K0
快速构建深度学习图像数据集,微软Bing和Google哪个更好用?
用Python批量下载DACC的MODI
本人初次尝试用Python批量下载DACC的MODIS数据,记下步骤,提醒自己,数据还在下载,成功是否未知,等待结果中。。。。。。
py3study
2020/01/16
8700
用Python批量下载DACC的MODI
如何用Python和深度神经网络寻找近似图片?
给你10万张图片,让你从中找出与某张图片最为近似的10张,你会怎么做?不要轻言放弃,也不用一张张浏览。使用Python,你也可以轻松搞定这个任务。
王树义
2018/08/22
1.1K0
如何用Python和深度神经网络寻找近似图片?
如何批量下载域名证书文件??
腾讯云域名管理列表(https://console.cloud.tencent.com/domain/all-domain) 如果管理的域名比较多,又希望批量下载证书时就比较麻烦,因为当前产品功能并未提供批量下载功能。所以今天分享一下,如果来批量下载证书凭证列表。
研究僧
2023/03/21
4K0
Python制作桑基图(我承认我低估了这个教程)
这是一幅别人文章里的图,大致的意思就是左边和右边之间的联系,最大的作用就是看着舒服,至于看的清不清楚我是真不知道。
一个有趣的灵魂W
2020/09/15
3.4K0
Python制作桑基图(我承认我低估了这个教程)
如何用Python智能批量压缩图片?
本文一步步为你介绍,如何用Python自动判断多张图片中哪些超出阈值需要压缩,且保持宽高比。如果你想了解Python图像处理的基础知识,欢迎动手来尝试。
王树义
2018/08/22
1.8K0
如何用Python智能批量压缩图片?
如何用Python和深度神经网络识别图像?
(由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。)
王树义
2018/08/22
1.2K0
如何用Python和深度神经网络识别图像?
零基础可上手 | 手把手教你用Cloud AutoML做毒蜘蛛分类器
近日,一名叫Matt Fraser的小哥用Cloud AutoML制作了一个分类器,能识别分类澳大利亚的各种毒蜘蛛。
量子位
2018/07/24
1.2K0
零基础可上手 | 手把手教你用Cloud AutoML做毒蜘蛛分类器
YouGet 批量下载视频,以B站为例
贴上我需要下载的地址:https://www.bilibili.com/video/av71335007
暖月寒星
2020/05/22
5.8K0
Python批量下载XKCD漫画只需20行命令!
XKCD是一个流行的极客漫画网站,其官网首页有一个 Prev 按钮,让用户导航到前面的漫画。如果你希望复制该网站的内容以在离线的时候阅读,那么可以手动导航至每个页面并保存。但手动下载每张漫画要花较长的时间,你可以用python写一个脚本,在几分钟内完成这件事!
PHP开发工程师
2021/05/08
1.1K0
Python批量下载XKCD漫画只需20行命令!
Node 转录组数据库批量下载指南
随着转录组研究的深入,研究人员需要从转录组数据库中获取大量的 RNA 测序数据以支持基因表达、选择性剪接等分析。除了我们常用的 GEO(基因表达总库)和 ArrayExpress 数据库,还有一些数据库可以获得 RNA 测序数据比如 Node 转录组数据库 (National Omics Data Encyclopedia, 国家组学数据百科全书:多组学大数据共享平台,Node 数据库)。在本文中,我们将详细介绍 Node 转录组数据库的特点及其批量下载方法,帮助您高效获取所需数据。
叶子Tenney
2025/03/24
1450
Node 转录组数据库批量下载指南
如何用Python和深度神经网络识别图像?
视觉 进化的作用,让人类对图像的处理非常高效。 这里,我给你展示一张照片。 如果我这样问你: 你能否分辨出图片中哪个是猫,哪个是狗? 你可能立即会觉得自己遭受到了莫大的侮辱。并且大声质问我:你觉得我智商有问题吗?! 息怒。 换一个问法: 你能否把自己分辨猫狗图片的方法,描述成严格的规则,教给计算机,以便让它替我们人类分辨成千上万张图片呢? 对大多数人来说,此时感受到的,就不是羞辱,而是压力了。 如果你是个有毅力的人,可能会尝试各种判别标准:图片某个位置的像素颜色、某个局部的边缘形状、某个水平位置的连
企鹅号小编
2018/01/15
1.5K0
如何用Python和深度神经网络识别图像?
如何用卷积神经网络构建图像?
这张图片其实是由一个叫人工智能的程序生成的。是不是看起来很真实?非常不错,不是吗?
AI研习社
2019/07/23
9090
如何用卷积神经网络构建图像?
13 个有趣的 Python 高级脚本
每天我们都会面临许多需要高级编码的编程挑战。你不能用简单的 Python 基本语法来解决这些问题。在本文中,我将分享 13 个高级 Python 脚本,它们可以成为你项目中的便捷工具。如果你目前还用不到这些脚本,你可以先添加收藏,以备留用。
周萝卜
2023/08/21
3010
13 个有趣的 Python 高级脚本
13 个有趣的 Python 高级脚本!
每天我们都会面临许多需要高级编码的编程挑战。你不能用简单的 Python 基本语法来解决这些问题。在本文中,我将分享 13 个高级 Python 脚本,它们可以成为你项目中的便捷工具。如果你目前还用不到这些脚本,你可以先添加收藏,以备留用。
快学Python
2023/08/31
1K0
13 个有趣的 Python 高级脚本!
自己动手写工具:百度图片批量下载器
开篇:在某些场景下,我们想要对百度图片搜出来的东东进行保存,但是一个一个得下载保存不仅耗时而且费劲,有木有一种方法能够简化我们的工作量呢,让我们在离线模式下也能爽爽地浏览大量的美图呢?于是,我们想到了使用网络抓取去帮我们去下载图片,并且保存到我们设定的文件夹中,现在我们就来看看如何来设计开发一个这样的图片批量下载器。
Edison Zhou
2018/08/20
1.8K0
自己动手写工具:百度图片批量下载器
Mac 图像批量压缩 调整尺寸
「图压」是一款专为高效工作者设计的免费批量图片压缩利器!支持 Windows 和 macOS 两大操作系统。这款工具能在几乎不损害画质的情况下大幅度地压缩图片的体积,可以非常快速有效地批量减小文件大小。
obaby
2023/02/22
1.4K0
GitHub 10大热门顶级 Python 项目
相当长时间里,世界各地的开发人员在他们的大多数项目中都偏爱用 Python。它的易用性、实时和非实时系统中的效率,以及广泛的包集合,这些只是开发人员喜欢 Python 的部分原因。
McGL
2020/10/30
1.8K0
GitHub 10大热门顶级 Python 项目
推荐阅读
相关推荐
爬一爬那些年你硬盘存过的“老师”
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验