Wget:抓取网页时保存URL

文章/答案/技术大牛

发布

1回答

我使用wget的问题是，一些网页以/结尾，但它们被wget保存为/index.html。因此，当我从html文件路径重新构建URL时，相应的页面并不存在。有没有一种方法可以用wget保存页面的原始URL和HTML内容？谢谢。

浏览 24提问于2020-01-31得票数 0

1回答

通常，我使用GNU wget递归抓取网站。但是我想为不同的语言获取一些有很多Unicode URL的网站，我想把Unicode保存在文件名中。(下面是一个例子。)wget有命令行开关--local-encoding和--remote-encoding，但它们似乎不支持Windows的本机文件系统编码UTF-16。我认为这是因为wget是为*nix设计的，它从来没有将UTF-16作为文件名的系统编码，而wget的Windows端口不是正式的。还有其他工具可以在Windo

浏览 0提问于2016-03-21得票数 1

2回答

为什么谷歌仍然没有索引我的!#网页？

我们的网站没有得到索引的谷歌搜索引擎。有些网页是索引的，有些网页没有索引。我怎样才能解决这个问题。请帮帮我们。

浏览 0提问于2016-03-23得票数 -1

1回答

如何使用wget抓取网站直到保存了300个html页面

我想用Ubuntu中的wget递归地抓取一个网站，并在下载了300页之后停止它。我只保存页面的html文件。目前，我使用的命令是：我希望代码以某种方式计数本地-DIR中的html文件，如果计数器显示300，停止爬行。有这样的事吗？

浏览 0提问于2020-03-14得票数 1

回答已采纳

3回答

如何使用wget下载xhtml网页

、、、

您好，当我尝试右击并将页面另存为网页时，网页将保存为.xhtml。但是，当我尝试使用wget或curl下载它时，它被下载为.html。和.xhtml一样，有没有下载的方法？我真的需要它。

浏览 6提问于2015-10-01得票数 2

2回答

如何使用php自动抓取web文件？

、、、、

我希望这些网页被抓取，并保存在数据库中作为原始的html。到目前为止，我正在使用CURL来删除这些页面。每次我访问index.php时，它都会删除一个页面url并将其保存在数据库中。

浏览 2提问于2013-05-03得票数 2

回答已采纳

1回答

wget和PDFFileReader -无法读取格式错误的PDF文件

、、、、

我正在尝试从希腊卫生部的每日报告中抓取新冠肺炎的数据，这些数据以PDF格式发布在网上。我使用wget下载它们，然后使用PyPDF2从它们抓取数据： import wget wget.download('https://eody.gov.gr/wp-contentcovid-gr-daily-report-23-09-2020.pdf') 但它返回以下错误： PyPDF2.utils.PdfReadError: Could no

浏览 24提问于2021-01-21得票数 0

回答已采纳

2回答

facebook页面抓取需要登录

我正在抓取facebook页面数据，但要访问所有数据，我需要登录到我正在使用的帐户。import wgeturl = "https://www.facebook.com/hellomeets/events" htmlText = "\n".join(f.

浏览 4提问于2015-06-17得票数 2

2回答

简单的wget标题抓取器如何将需要的结果拆分到一个文件中

、、、、

我有这个bash脚本，它使用wget来抓取网页标题，如果我按原样运行它，它工作得很好，我给它一个url，它会在终端中显示结果。问题是我希望能够将其保存到文件中，但前提是结果与指定的单词完全匹配，如INEEDTHISSTRINGstring=$1"/search/" wget --qui

浏览 0提问于2014-12-07得票数 0

1回答

用wget从URL列表中只抓取jpg的

我试图使用wget从urls列表中只抓取..jpg。我尝试过wget -r -A.jpg http://url.com/page1，但它下载了整个网站。我还看到了这个示例，用于抓取urls列表wget -i download-file-list.txt，所以我尝试了这个wget -i -A.jpg download-file-list.txt，但是它只是下载

浏览 4提问于2013-12-03得票数 1

回答已采纳

6回答

保存整个网页

、

我想“爬行”某些网站的兴趣，并保存为“完整的网页”，包括样式和图像，以便为他们建立一个镜像。当然，我可以很容易地用fopen("http://website.com", "r")或fsockopen()用php读取文件，但主要的目标是保存完整的网页，以便在网页宕机的情况下，它仍然可以供其他人使用，就像“编程时间机器”:) 有没有一种方法可以做到这一点，而无需阅读和保存页面上的每个链接？

浏览 13提问于2009-11-12得票数 3

回答已采纳

2回答

保存在使用casperjs抓取网页时获得的表数据

、、、、

使用casperjs抓取网页时，保存表数据的最佳方法是哪一种？使用ajax请求来php，然后将其存储在mysql db中。

浏览 0提问于2013-09-22得票数 3

回答已采纳

1回答

wget:识别中断的出站链接

wget的S --spider选项可以简单地识别出断开的内部链接：我尝试用-H扩展它以查找断开的出站链接我能想到的一个解决办法是使用网站的sitemap.xml (如果有可用的话)来获取整个域的URL集，并将它们反馈给wget，这样我就可以限制爬行深度：| hred -xcr loc

浏览 0提问于2022-08-16得票数 2

1回答

使用wget爬行特定的URL

、、

我试图从一个网站抓取链接，然后使用下载管理器下载文件。我试过：我不知道如何使用wget或正则表达式来保存所需的链接！

浏览 4提问于2016-04-19得票数 1

回答已采纳

3回答

使用Chickenfoot保存PDF文件

我正在写一个网络爬虫使用鸡脚，并需要保存PDF文件。我既可以单击页面上的链接，也可以抓取PDF的URL并使用我看到火狐的“打开file.pdf”对话框，但不能点击“确定”按钮来实际保存文件我尝试过使用其他方法下载这些文件(wget、python的urllib2、twill)，但是PDF文件都是门控的，所以这些方法都不起作用。任何帮助都是非常感谢的。

浏览 1提问于2010-12-04得票数 0

1回答

使用nodejs下载外部网站(包括资源)

、、

就像我在web浏览器中选择文件->保存时发生的事情一样。基本上我想复制的功能是(尽管这不能正确下载css和图像) 背景是我想在一个外部网站上执行Javascript。由于跨域策略，这(正确地)是不可能的。

浏览 1提问于2015-06-16得票数 0

5回答

谷歌(搜索引擎)对asp.net页面的索引建议

、

我正在为我工作的学院开发一个课程传单系统，传单存储在一个数据库中，主键为course_code。我希望传单，理想情况下，由谷歌索引，我将如何实现这一点，假设我在asp.net 2.0开发的系统。

浏览 2提问于2008-12-04得票数 4

回答已采纳

5回答

PHP中的文件下载脚本

我不知道这是否可能。我有一个大约250个链接的网页，每个单独的行。我最初的想法是使用fopen()来获取文件，但它没有太大帮助，因为它需要提供文件的名称才能读取/下载。这些都是可点击的链接--可以把它想象成一个带有文件链接的目录浏览。有没有办法遍历该页面上的这些链接并下载它们所指向的文件？

浏览 0提问于2011-10-18得票数 0

回答已采纳

1回答

为什么ruby不能用wget将文件保存到特殊路径？

、、、、

如果我在终端使用wget：它起作用了。但如果我用红宝石做的话：# Or它将文件保存到当前路径，但不保存到编辑(添加python模式)impo

浏览 4提问于2017-01-10得票数 2

1回答

Nutch不获取graph.facebook响应

、、、、

，我不能抓取Facebook的API响应.Everything中的链接，当我爬行其他网页时工作得很好。我使用Nutch 2.2.1，Hbase 0.9作为存储，Solr用于索引。fields=friends%7Bfeed%7Bpermalink_url%7D%2Cname%7D&access_token=<MY_ACC_TOKEN>Fetcher: throug

浏览 3提问于2017-11-07得票数 0

回答已采纳

点击加载更多