Python webscraping:使用urllib时图像不完整

文章/答案/技术大牛

发布

2回答

、

我正在尝试使用Python和BeautifulSoup检索图像。我设法获得了图像的完整url，但当我使用urllib.urlretrieve(imagelink, filename)时，它会检索图像，但图像是不完整的，只有3.2kb。真实的图像(我得到了很多图像)平均在800kb左右。它遍历和下载所有的图像，但没有一个是可见的，并且文件大小都相同。不过，完整的<e

浏览 19提问于2017-01-27得票数 2

回答已采纳

1回答

Webscrape w/o美汤

、、、、

一般来说，我对web scraping和python是个新手，但是我有点纠结于如何纠正我的函数。我的任务是抓取以特定字母开头的单词的站点，并返回匹配的单词列表，最好使用正则表达式。import urllib fhand = urllib.urlopen(website).read() line = fhand.strip() if line.star

浏览 0提问于2016-12-03得票数 0

2回答

conn.commit() SQL中的Python无效语法

、、

当我试图插入数据时，我无法理解为什么conn.commit会吐出无效的语法。import urllib.request as urllibimport pyodbc host = "www.skat.dk" hdata = 'host',host,'IP:',dest request =

浏览 0提问于2019-10-18得票数 0

1回答

ConnectionError: HTTPSConnectionPool(host='www.google.com'，port=443)：

、、、

请注意，我正在使用虚拟env "Webscraping“。from urllib.parse import urlencode, urlparse, parse_qs from requests) 文件"c:\users\appdata\local\programs\python\python37\webscraping\lib\site-packages\requests\api.py"，

浏览 1提问于2018-10-29得票数 0

1回答

用Python从打开的Safari会话中提取cookie

、、、、

我可以很容易地使用urllib2进行网络抓取，但是，当然，您必须登录到这个网站才能获得数据。我尝试在Python中执行一种登录类型方法，但我无法让它工作。我的另一个选择是从Safari会话导出cookie，这样我就可以运行我的webscraping脚本来获取我需要的数据。有人知道如何将cookie从Safari会话导出到Python以访问网站数据吗？

浏览 0提问于2015-07-30得票数 1

回答已采纳

1回答

Selenium webdriver在意外退出后无法重新启动

、、、

在几天前的最后一次使用之后，我还没有能够启动python的selenium webdriver的实例。根据错误信息，我上次使用它时它意外退出，现在，在重启我的macbook后，卸载并重新安装chromedriver/selenium： brew rmtree chromedriver && brew install/webscraping/env/lib/python3.5/site-packages/

浏览 5提问于2016-09-06得票数 0

2回答

已安装的包，但rpm -q显示未安装

、、

我已经使用yum在我的RHEL7.7服务器上安装了python2-urllib3-1.10.2-7.el7软件包：并成功安装。现在，当我运行rpm -q python2-urllib3时，它会显示软件包没有安装。如何知道问题在哪里，请解决。下面是输出的快照：输出

浏览 0提问于2020-05-30得票数 1

回答已采纳

5回答

使用crontab运行selenium (python)

、、、

我有一个python脚本，它使用下一行selenium调用chrome。ff = webdriver.Chrome('/home/user01/webScraping/CollectAndGo/chromedriver') python脚本是从shell脚本调用的。python /home/user01/webScraping/CollectAndGo/cgcom.py

浏览 8提问于2014-05-28得票数 18

回答已采纳

10回答

python从url保存图像

、、、

当我使用python通过urllib2请求或urllib.urlretrieve从url保存图像时，我遇到了一个问题。也就是说，图像的url是有效的。我可以使用浏览器手动下载它。但是，当我使用python下载映像时，文件将无法打开。我使用Mac预览来查看图像。谢谢!更新：def downloadImage(self): request = <e

浏览 3提问于2015-05-14得票数 99

回答已采纳

1回答

webkitbrowser注入javascript修改输入文本值时出错

、、、、

我在使用Python2.7中的WebkitBrower从网页获取输入文本的值时遇到了问题。下面是示例代码： user_agent='Mozilla/5.0 (compatible; MSIE 9.0; TOB 6.11; Windows NT 6.1; WOW64;

浏览 2提问于2015-01-01得票数 1

回答已采纳

1回答

Python 3-如何使用TKINTER从web检索图像并在GUI中显示？

、、、

我想要一个功能，当一个按钮被点击，它将从网页上使用URLLIB的图像，并显示在一个图形用户界面使用TKINTER。 self.txt['yscrollcommand'] = sb.set s

浏览 0提问于2011-05-22得票数 4

回答已采纳

1回答

Urllib2 HTTPS截断响应

、、、

我正在尝试使用urllib2.urlopen (实际上，我使用的是mechanize，但这是mechanize调用的方法)获取页面，当我获取页面时，得到的响应不完整；页面被截断。这个问题发生在我拥有的另一台Arch Linux机器上，但不是在使用Python3 (3.3.0)时。这个问题似乎与有关。我在唯一一个允许我使用urllib2 ()的在线Python解释器上测试了它，它可以像预期的那样工作

浏览 0提问于2012-11-05得票数 2

回答已采纳

1回答

同时尝试刮两个页面时出错- Python，bs4

、、

在下面的代码中，我尝试只使用一个链接来实现它，但最终，我将对所有这些链接使用一个循环。from urllib.request import urlopenimport csv 我得到了一个错误：文件跟踪(最近一次调用)：文件"/Users/

浏览 1提问于2020-04-15得票数 0

3回答

使用Python和BeautifulSoup (将网页源代码保存到本地文件中)

、

我使用的是Python2.7+ BeautifulSoup 4.3.2。print city 这只是测试的第一阶段，所以它有点不完整。但是，当我运行它时，它给出了一条错误消息。似乎使用urllib2.urlopen

浏览 0提问于2014-02-05得票数 64

回答已采纳

4回答

正在下载图片

我使用urllib2.build_opener()从特定url的相应url.But下载图像，我得到了一个错误。当我检查该url时，我发现没有图像。如何检查是否有镜像？\lib\urllib2.py", line 395, in open File "D:\Program Files\PythonD:\Program Files\Python\lib\u

浏览 0提问于2010-02-22得票数 2

1回答

app擦除应用程序找不到正确的HTML容器

、

这是我的第一个webscraping应用程序类型。下面是我的代码：from urllib.request import urlopen as uReq runfile('/Users/Mohit/Documents/Python</em

浏览 10提问于2018-03-01得票数 0

1回答

[Python-Webservice]：如何在Flask上返回和消费XML格式

、、

我目前正在使用flask用python创建一个RESTful webservice。现在，在将使用/实现webservice的客户端，我希望获得XML (或JSON)格式的输出。此外，我更喜欢在输出中使用XML格式，但同样，我不知道该如何做。所以我希望有人能给我点子。if __name__ == "__main__":import urllib2 server = "htt

浏览 0提问于2012-03-23得票数 1

回答已采纳

1回答

当试图捕获404错误时，'HTTPResponse‘对象没有属性'type’

、

我有一些代码可以从API中提取不完整的URL，并将它们附加到基本URL中。我试图扩展这一点，以测试每个URL，以确保它不会导致404在打印出屏幕。我查看了关于如何在python3中使用urllib的其他答案，并认为我已经正确地完成了一切，但是，标题中出现了错误。 testurl=urllib.request.urlopen("http://www.googl

浏览 0提问于2019-01-02得票数 2

回答已采纳

1回答

抓取时保存网页中的图像/表格

、、

URL towardsdatascience.com 我不知道如何在其中包含有关表/图像的信息 <div class="sparkline" style="widthsparkline-year-label">2019</span><span class="sparkline-year-label selected-year">2020</span></div></

浏览 15提问于2020-11-08得票数 0

1回答

Python hashlib提供了一些图像文件的意外散列

、、

使用md5sum检查终端中的文件会产生正确的散列。这段代码显示了我是如何获得md5散列的：import urllib urllib.urlretrieve("https://farm4.staticflickr.com

浏览 13提问于2017-03-15得票数 0

点击加载更多