腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3821)
视频
沙龙
1
回答
Wget
:
抓取
网页时
保存
URL
我使用
wget
的问题是,一些网页以/结尾,但它们被
wget
保存
为/index.html。因此,当我从html文件路径重新构建
URL
时,相应的页面并不存在。有没有一种方法可以用
wget
保存
页面的原始
URL
和HTML内容?谢谢。
浏览 24
提问于2020-01-31
得票数 0
1
回答
Windows工具递归下载保留Unicode文件名的网站
、
、
、
通常,我使用GNU
wget
递归
抓取
网站。 但是我想为不同的语言获取一些有很多Unicode
URL
的网站,我想把Unicode
保存
在文件名中。(下面是一个例子。)
wget
有命令行开关--local-encoding和--remote-encoding,但它们似乎不支持Windows的本机文件系统编码UTF-16。我认为这是因为
wget
是为*nix设计的,它从来没有将UTF-16作为文件名的系统编码,而
wget
的Windows端口不是正式的。还有其他工具可以在Windo
浏览 0
提问于2016-03-21
得票数 1
2
回答
为什么谷歌仍然没有索引我的!#网页?
我们的网站没有得到索引的谷歌搜索引擎。有些网页是索引的,有些网页没有索引。我怎样才能解决这个问题。请帮帮我们。
浏览 0
提问于2016-03-23
得票数 -1
1
回答
如何使用
wget
抓取
网站直到
保存
了300个html页面
我想用Ubuntu中的
wget
递归地
抓取
一个网站,并在下载了300页之后停止它。我只
保存
页面的html文件。目前,我使用的命令是:我希望代码以某种方式计数本地-DIR中的html文件,如果计数器显示300,停止爬行。有这样的事吗?
浏览 0
提问于2020-03-14
得票数 1
回答已采纳
3
回答
如何使用
wget
下载xhtml网页
、
、
、
您好,当我尝试右击并将页面另存为
网页时
,网页将
保存
为.xhtml。但是,当我尝试使用
wget
或curl下载它时,它被下载为.html。和.xhtml一样,有没有下载的方法?我真的需要它。
浏览 6
提问于2015-10-01
得票数 2
2
回答
如何使用php自动
抓取
web文件?
、
、
、
、
我希望这些网页被
抓取
,并
保存
在数据库中作为原始的html。 到目前为止,我正在使用CURL来删除这些页面。每次我访问index.php时,它都会删除一个页面
url
并将其
保存
在数据库中。
浏览 2
提问于2013-05-03
得票数 2
回答已采纳
1
回答
wget
和PDFFileReader -无法读取格式错误的PDF文件
、
、
、
、
我正在尝试从希腊卫生部的每日报告中
抓取
新冠肺炎的数据,这些数据以PDF格式发布在网上。我使用
wget
下载它们,然后使用PyPDF2从它们
抓取
数据: import
wget
wget
.download('https://eody.gov.gr/wp-contentcovid-gr-daily-report-23-09-2020.pdf') 但它返回以下错误: PyPDF2.utils.PdfReadError: Could no
浏览 24
提问于2021-01-21
得票数 0
回答已采纳
2
回答
facebook页面
抓取
需要登录
我正在
抓取
facebook页面数据,但要访问所有数据,我需要登录到我正在使用的帐户。import
wget
url
= "https://www.facebook.com/hellomeets/events" htmlText = "\n".join(f.
浏览 4
提问于2015-06-17
得票数 2
2
回答
简单的
wget
标题
抓取
器如何将需要的结果拆分到一个文件中
、
、
、
、
我有这个bash脚本,它使用
wget
来
抓取
网页标题,如果我按原样运行它,它工作得很好,我给它一个
url
,它会在终端中显示结果。问题是我希望能够将其
保存
到文件中,但前提是结果与指定的单词完全匹配,如INEEDTHISSTRINGstring=$1"/search/"
wget
--qui
浏览 0
提问于2014-12-07
得票数 0
1
回答
用
wget
从
URL
列表中只
抓取
jpg的
我试图使用
wget
从urls列表中只
抓取
..jpg。 我尝试过
wget
-r -A.jpg http://
url
.com/page1,但它下载了整个网站。我还看到了这个示例,用于
抓取
urls列表
wget
-i download-file-list.txt,所以我尝试了这个
wget
-i -A.jpg download-file-list.txt,但是它只是下载
浏览 4
提问于2013-12-03
得票数 1
回答已采纳
6
回答
保存
整个网页
、
我想“爬行”某些网站的兴趣,并
保存
为“完整的网页”,包括样式和图像,以便为他们建立一个镜像。当然,我可以很容易地用fopen("http://website.com", "r")或fsockopen()用php读取文件,但主要的目标是
保存
完整的网页,以便在网页宕机的情况下,它仍然可以供其他人使用,就像“编程时间机器”:) 有没有一种方法可以做到这一点,而无需阅读和
保存
页面上的每个链接?
浏览 13
提问于2009-11-12
得票数 3
回答已采纳
2
回答
保存
在使用casperjs
抓取
网页时
获得的表数据
、
、
、
、
使用casperjs
抓取
网页时
,
保存
表数据的最佳方法是哪一种? 使用ajax请求来php,然后将其存储在mysql db中。
浏览 0
提问于2013-09-22
得票数 3
回答已采纳
1
回答
wget
:识别中断的出站链接
wget
的S --spider选项可以简单地识别出断开的内部链接:我尝试用-H扩展它以查找断开的出站链接我能想到的一个解决办法是使用网站的sitemap.xml (如果有可用的话)来获取整个域的
URL
集,并将它们反馈给
wget
,这样我就可以限制爬行深度:| hred -xcr loc
浏览 0
提问于2022-08-16
得票数 2
1
回答
使用
wget
爬行特定的
URL
、
、
我试图从一个网站
抓取
链接,然后使用下载管理器下载文件。我试过:我不知道如何使用
wget
或正则表达式来
保存
所需的链接!
浏览 4
提问于2016-04-19
得票数 1
回答已采纳
3
回答
使用Chickenfoot
保存
PDF文件
我正在写一个网络爬虫使用鸡脚,并需要
保存
PDF文件。我既可以单击页面上的链接,也可以
抓取
PDF的
URL
并使用我看到火狐的“打开file.pdf”对话框,但不能点击“确定”按钮来实际
保存
文件我尝试过使用其他方法下载这些文件(
wget
、python的urllib2、twill),但是PDF文件都是门控的,所以这些方法都不起作用。 任何帮助都是非常感谢的。
浏览 1
提问于2010-12-04
得票数 0
1
回答
使用nodejs下载外部网站(包括资源)
、
、
就像我在web浏览器中选择文件->
保存
时发生的事情一样。基本上我想复制的功能是(尽管这不能正确下载css和图像) 背景是我想在一个外部网站上执行Javascript。由于跨域策略,这(正确地)是不可能的。
浏览 1
提问于2015-06-16
得票数 0
5
回答
谷歌(搜索引擎)对asp.net页面的索引建议
、
我正在为我工作的学院开发一个课程传单系统,传单存储在一个数据库中,主键为course_code。我希望传单,理想情况下,由谷歌索引,我将如何实现这一点,假设我在asp.net 2.0开发的系统。
浏览 2
提问于2008-12-04
得票数 4
回答已采纳
5
回答
PHP中的文件下载脚本
我不知道这是否可能。我有一个大约250个链接的网页,每个单独的行。我最初的想法是使用fopen()来获取文件,但它没有太大帮助,因为它需要提供文件的名称才能读取/下载。 这些都是可点击的链接--可以把它想象成一个带有文件链接的目录浏览。有没有办法遍历该页面上的这些链接并下载它们所指向的文件?
浏览 0
提问于2011-10-18
得票数 0
回答已采纳
1
回答
为什么ruby不能用
wget
将文件
保存
到特殊路径?
、
、
、
、
如果我在终端使用
wget
:它起作用了。但如果我用红宝石做的话:# Or它将文件
保存
到当前路径,但不
保存
到编辑(添加python模式)impo
浏览 4
提问于2017-01-10
得票数 2
1
回答
Nutch不获取graph.facebook响应
、
、
、
、
,我不能
抓取
Facebook的API响应.Everything中的链接,当我爬行其他
网页时
工作得很好。我使用Nutch 2.2.1,Hbase 0.9作为存储,Solr用于索引。fields=friends%7Bfeed%7Bpermalink_
url
%7D%2Cname%7D&access_token=<MY_ACC_TOKEN>Fetcher: throug
浏览 3
提问于2017-11-07
得票数 0
回答已采纳
点击加载更多
相关
资讯
Python网络爬虫抓取网页的含义和URL基本构成
Python网络爬虫:抓取网页的含义和URL基本构成
Python 抓取掘金数据并保存为 CSV
Python爬虫实战:抓取并保存百度云资源
PHP实现远程抓取网站图片并保存在文件中
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
智聆口语评测
活动推荐
运营活动
广告
关闭
领券