从限制视图的网站中抓取数据

是指通过技术手段获取那些对普通用户不可见或无法直接访问的网站数据。这种情况通常出现在一些需要登录、有访问权限限制或者使用了反爬虫机制的网站上。

为了从限制视图的网站中抓取数据，可以采取以下几种方法：

登录认证：如果目标网站需要登录才能访问特定页面或数据，可以使用模拟登录的方式，通过提交登录表单或使用登录接口进行认证。一些常用的登录认证方式包括基于表单的登录、Cookie认证、Token认证等。
IP代理：有些网站会根据IP地址来限制访问频率或者封禁某些IP，为了规避这些限制，可以使用IP代理来隐藏真实的访问IP，以达到绕过限制的目的。
解析渲染页面：对于使用JavaScript动态渲染的网页，可以使用无头浏览器（Headless Browser）来模拟浏览器行为，解析并渲染页面，以获取完整的数据。常用的无头浏览器包括Puppeteer、Selenium等。
API接口：有些网站提供了API接口，可以直接通过API获取数据，而不需要解析网页。通过查找网站的开发者文档或者使用抓包工具分析网站的网络请求，可以找到相关的API接口。
数据抓取框架：使用专门的数据抓取框架，如Scrapy、BeautifulSoup等，可以帮助快速构建爬虫程序，实现对目标网站的数据抓取。

需要注意的是，在进行数据抓取时需要遵守相关法律法规和网站的使用协议，尊重网站的隐私政策和数据保护规定。同时，为了避免对目标网站造成过大的访问压力，应该合理设置爬取频率和并发请求数量，以免对网站正常运行造成影响。

对于腾讯云相关产品，可以使用腾讯云的云服务器（CVM）来部署爬虫程序，使用云数据库（CDB）存储抓取的数据，使用云函数（SCF）或容器服务（TKE）来实现数据处理和分析。此外，腾讯云还提供了内容分发网络（CDN）和DDoS防护等产品，可以提高爬取效率和保障爬虫的稳定性。

更多关于腾讯云产品的介绍和详细信息，可以参考腾讯云官方网站：https://cloud.tencent.com/

爬行有限制的网页

我有一个关于从网页抓取数据的问题。有些网站对请求有限制，在这种情况下我该如何抓取？

浏览 0提问于2017-07-27得票数 2

1回答

使用最新技术从网站抓取数据的技巧

、

我试图从asp，jsp网站抓取数据，这些网站使用ajax和会话和POST变量进行数据导航和显示。我已经阅读了各种文章，所以对于数据抓取，但帮助不大，我解析了一些修改标题的网站，但大多数网站都显示了自定义标题的标题重定向。什么是正确的方式来解析来自网站的数据，这些网站启用了javascript，并且asp中的网站有视图状态变量。

浏览 1提问于2013-02-13得票数 0

回答已采纳

1回答

iPhone软件开发工具包: UITableview动态内容

、、、

我的iphone应用程序中有一个UITableview设置。目前，每一行都填充了NSMutableArray中的项。该数组从mysql数据库获取数据，我必须自己更新该数据库才能更新表视图的内容。我试图让这个表视图的填充变得更加自动化和动态化，方法是让它从html表中抓取内容并使用它，而不是使用数据库作为数据源。这是可能的吗?如果可能，有什么建议的方法吗？此外，它从哪个网站抓取内容对于不同的视图也是不同的，所以我不能为一个特定的网站定义一组解析规则。提前谢谢。

浏览 1提问于2011-11-09得票数 0

回答已采纳

2回答

从另一个网站向我拥有的网站发送MySQL查询(使用Google Chrome扩展)

、、、

我想写一个Google Chrome扩展，它可以从我不拥有的网站(www.notmysite.com)获取信息，将这些信息发送到我拥有的网站(www.mysite.com)，然后在我的网站上使用这些信息进行某种MySQL查询。例如，我希望能够从www.notmysite.com上的超文本标记语言解析出一些javascript变量，并将其插入到www.mysite.com上的MySQL数据库中。我可以将XMLHttpRequests从一个www.notmysite.com页面转换到另一个页面，但是当我尝试连接到www.mysite.com时，却遇到了跨域脚本的限制。有什么办法可以解决这个问题

浏览 0提问于2011-01-12得票数 0

回答已采纳

2回答

如何将抓取的数据发送到页面，而不等待页面加载？

、、、

我在我的Django网站上展示了一些抓取的数据..数据每小时会更改几次，因此需要更新。我使用Beautiful Soup抓取数据，然后将其发送到视图，并将其传递到上下文字典中，以将其呈现在网站上。问题是，抓取功能需要一些时间才能工作，因此，在该功能完成工作之前，网站不会加载。我怎样才能让它加载得更快？数据网站上没有API。

浏览 16提问于2021-01-28得票数 0

1回答

PYTHON:如何使用BeautifulSoup将表解析为pandas数据帧

、、、、

我正在尝试从疾控中心网站上抓取最近7天新冠肺炎报告病例的数据。我试着通过名称，id，类来查找这个表，它总是以类型返回。当我打印抓取的数据时，我也无法在html中手动定位表格。不知道我到底做错了什么。导入数据后，我需要填充pandas数据框以供稍后用于绘图，并将数据表导出为csv。

浏览 1提问于2020-10-18得票数 1

1回答

java.io.IOException:服务器返回URL的HTTP响应代码503 :错误

、

我从网站获取HTML代码，然后用Java解析它，从而从网站中抓取数据。我现在既使用java.net.URLConnection，也使用java.net.URL。这是我用来从某个网站获取超文本标记语言代码的代码(可以在上找到，根据我的需要稍作编辑)： public static String getURL(String name) throws Exception{ //Set URL String s = ""; URL url = new URL(name); URLConnection spoof = url.openConnection

浏览 4提问于2014-01-30得票数 1

1回答

Android:如何从特定网页检索有问题的数据？

、、、、

多年来，我一直使用.NET和ShDocVw从网页上抓取数据，没有遇到任何我无法克服的问题。不过，这个网站让我打了一顿。从图书馆搜索页面上抓取书目和其他信息看起来很容易，但我看不到能够抓取的数据。通常，我只是在DOM中查找，但数据并不在那里。我做了一个视图源，但是数据不在那里。我真的很困惑。我现在正在学习安卓，这就是我想要解决我的问题的方式，但如果.NET会更容易的话……现在我会接受任何形式的帮助。网址为

浏览 3提问于2010-12-09得票数 1

1回答

使用ASP.NET MVC应用程序定期插入Azure数据库

、、、

我想知道如何实现一个解决方案来检索我抓取的数据，并将其用于在ASP.NET MVC应用程序中显示。当前的实现抓取数据并将其从控制器显示到视图，然而，通过这样做，由于在处理查看具有抓取的数据的页面的请求时运行的刮取器，查看网页的请求将花费非常长的时间。有没有什么实现可以将数据检索和网站分开？目前，我有一个抓取数据的控制台应用程序抓取器类，以及一个显示数据的ASP.NET MVC应用程序。我如何才能轻松地将它们耦合在一起呢？

浏览 3提问于2016-03-16得票数 3

2回答

当href = '#‘在刮痕中时，有什么方法可以处理吗？

、、

当我从一个名为timesjob的网站上抓取所有内容时，我无法访问网站中的下一个页面，因为页面nation中的href显示为href = '#'，在这里我无法访问这样的hyperlinks.So --我无法从所有页面中抓取数据--如果可以的话，有任何方法可以解决获取精确超链接的问题。我试图访问的链接是。

浏览 10提问于2020-03-03得票数 1

回答已采纳

1回答

我的脚本会发送到很多请求吗？

、、、

我现在有一个脚本，它通过访问一个网址，然后抓取某一段信息，从网站上抓取数据。我唯一担心的是，由于大约有30,000页要刮，所以服务器可能认为它是DDoS攻击吗？最重要的是，我被建议使用台风宝石的红宝石，以完成它们基本上同时。所以我只是想知道这是否应该可以？

浏览 2提问于2014-05-20得票数 3

回答已采纳

1回答

web抓取jsoup java无法抓取全部信息

、、

我有一个信息要从一个网站上抓取。我可以把它刮掉。但并不是所有的信息都被抓取了。有如此多的数据丢失。下面的图片将帮助您进一步了解：我使用Jsoup，将其连接到URL，然后使用以下代码提取此特定数据： Document doc = Jsoup.connect("https://www.awattar.com/tariffs/hourly#").userAgent("Mozilla/17.0").get(); Elements durationCycle = doc.select("g.x.axis g.tick text"); 但在结果中，我

浏览 0提问于2018-09-12得票数 0

1回答

我是否需要为并发下载设置下载速度限制(使用cURL)，否则它们将占据相同的份额？

、、、、

我的网站(在ubuntu 10.04下运行)使用户能够从web链接中抓取文件。我是否需要设置单个文件的下载速率限制，以便所有文件都可以同时下载？另外，我是否需要设置全局下载限制(针对所有文件)，以便我的服务器连接可以处理直接从我的服务器下载文件、浏览我的网站...etc的其他请求？谢谢您:)

浏览 2提问于2011-09-22得票数 0

回答已采纳

1回答

在Chrome中使用Headless模式效率较低？

、、、、

我使用selenium +美汤(使用selenium打开包含大量javascript的页面，并使用javascript命令将其转换为BeautifulSoup对象)来从体育网站上抓取数据，但由于某些原因，我不能使用无头浏览器。当我使用chromedriver实现无头浏览器时，我几乎不会像让chromedriver打开并运行时那样抓取大量数据。有没有人有类似的问题，或者有什么建议？ def get_bs(self, url, sport_url): driver = webdriver.Chrome(executable_path='drivers/chromed

浏览 2提问于2020-05-09得票数 0

1回答

如何在android应用程序中更新信息

、、

我正在为餐馆的网站开发一个android应用程序。餐馆的数量是190家。所以(从应用程序外部)我从网站上抓取每家餐厅的信息。这些数据放在一个xml文件中。然后我将其放入我的应用程序包中。我解析了xml文件，创建了餐厅对象，并用所有餐厅填充了一个列表视图。正如您所看到的，如果向网站添加更多的餐厅，则无法使用新信息更新此xml文件。从网站更新信息的最佳方式是什么？最佳实践是什么？

浏览 0提问于2011-04-17得票数 0

1回答

忽略重定向的Python检索文件

、、

我正在开发一个程序，它使用Beautiful Soup来抓取网站，然后使用urllib来检索在网站上找到的图像(使用图像的直接URL)。我正在抓取的网站不是图像的原始主机，但确实链接到原始图像。我遇到的问题是，对于某些网站，检索www.example.com/images/foobar.jpg会将我重定向到主页www.example.com，并生成一个空的(0KB)图像。事实上，转到www.example.com/images/foobar.jpg也会重定向。在我正在抓取的网站上很有趣，图像显示正常。我在SO上见过一些例子，但它们都解释了如何在绕过重定向时从网站捕获cookie、头文件和其他

浏览 0提问于2014-03-15得票数 0

4回答

将数据从网站/服务器加载到iPhone的最佳方法

、、

我有一个自己的网站，我想写一个应用程序，从它加载数据(字符串/文本)来填充iPhone上的一个表格视图(就像一个待办事项列表)。我想随时更改我的应用程序(表视图)的内容，而不需要在app中进行更新。当应用程序启动时，它应该从我的网站抓取内容..。我应该使用FTP来做这样的事情，还是有更好的方法来加载和操作数据？

浏览 10提问于2013-08-26得票数 0

回答已采纳

2回答

如何找出蜘蛛刮过的页数

、、、

我使用Python中的Scrapy从网站上抓取数据。我成功地从网站上抓取数据，但我想知道我的蜘蛛刮了多少页。刮擦的统计数据如下：

浏览 2提问于2017-05-23得票数 0

回答已采纳

1回答

使用c++的

、、

我正计划用c++爬行一个网站。我收集了关于如何从基地抓取一个网站的信息。我使用winhttp库下载网页。我想建立自己的一个，而不是使用第三方库。我收集到的信息如下： 1.检查robots.txt，查找可以爬行的页面并查找请求时间间隔。 2.检查网站是否有sitemap.xml并从中收集信息。 3.检查所有href或url标签，并找到其中的文件夹。还有什么是我应该做的，以抓取一个完整的网站？

浏览 0提问于2018-01-22得票数 3

1回答

PHP cURL vs Python Scrapy？

、、

我已经开始使用Python Scrapy抓取网站数据，尽管我在PHP cURL方面有丰富的经验。我不知道哪个更适合抓取数据和操作返回值，以及速度和内存使用情况。 Python Scrapy中的(yield)函数应该做些什么呢？

浏览 0提问于2013-05-21得票数 0

1回答

连接到api (while：)

、

我发现了很多关于Api(youtube，BTC等)的有关刮伤数据的教程。我不明白为什么人们毫不拖延地使用这样的结构，如下所示： while True: r = request(url) 对我来说，这就像是攻击(超载)服务器。当我从html网页抓取数据时，我总是延迟请求，以避免网站禁止我或我的IP/指纹。Api的工作方式是不同的还是只是一个糟糕的实现？谢谢!

浏览 6提问于2020-05-27得票数 0

回答已采纳

3回答

同时运行python脚本和烧瓶应用程序

、

我正在尝试创建一个项目每隔5分钟就会自动从网站上抓取数据，并将其保存到db烧瓶应用程序中与用户进行交互。用户从db请求数据。抓取数据的python脚本如下所示： import os import time while True: os.system(scrape.py) time.sleep(5*60) 我最初试图在每次用户请求数据时从网站上抓取数据。但我发现它工作得太慢了。因此，现在我正在尝试制作另一个python脚本，它从网站中抓取数据并自动保存到db中。而烧瓶应用程序只需要从db获取数据。我的问题是，如何同时运行python脚本和烧瓶应用程序？或者有什么更好的方法来解决

浏览 5提问于2022-01-14得票数 -1

1回答

如何使用网页的title标签或div id +类的组合从网页中抓取文本？

、、、、

因此，这可能是一个相当广泛的问题，但我仍然是一个相当新的人，我想要一些关于如何实现这一点的意见，这样我就可以完成我的项目！我在freecodecamps“随机引价机”上工作，它使用API来拉取使用AJAX和JSON的随机报价。我想通过抓取这个网站上的所有引文来尝试超越这一点：当我浏览控制台时，我注意到所有的引号都在单独的div中，标题为“视图引用”或“视图作者”，以及格式为"b-qt qt_xxxxxx“的类，其中xxxxxx =随机6位数字。现在我根本没有使用GET请求或任何后端的经验，但我认为这可能是一个很好的垫脚石，可以理解如何从网站获取数据，然后解析它，这样我就可以利用它

浏览 14提问于2017-03-12得票数 0

4回答

使用Scrapy进行Python数据抓取

、、、

我想从一个网站上有TextFields，按钮等抓取数据。我的要求是填写文本字段并提交表单以获得结果，然后从结果页面中抓取数据点。我想知道Scrapy是否有这个功能，或者是否有人可以推荐一个Python库来完成这个任务？ (编辑) 我想从下面的网站上抓取数据：我的要求是从ComboBoxes中选择值并单击search按钮，然后从结果页面中抓取数据点。附注:我正在使用selenium Firefox驱动程序从其他网站抓取数据，但这个解决方案并不好，因为selenium Firefox驱动程序依赖于Firefox的EXE，即在运行刮板之前必须安装Firefox。火狐有时会在执行刮板的过程

浏览 1提问于2013-05-28得票数 8

回答已采纳

2回答

从整个web上抓取数据

我需要开发一个抓取工具，从整个网络上抓取产品的数据(价格，标题等)。现在，我确实有抓取的经验，但这是一个单一的网站。我不知道如何抓取整个网络。一种可能的解决方案是查询google，然后从google中出现的链接中抓取每个网站。这是一种好的方法吗？我只需要一个通用的方法，你将如何解决这个问题，因为在我看来，每个网站可能有自己的方式来表示数据。如何合并所有这些变体？有什么指导/小贴士吗？

浏览 0提问于2012-04-14得票数 1

回答已采纳

1回答

Django中间件插件与视图

、、、、

我正在学习Django，并提出了中间件的概念。我很难理解视图中包含的中间件和逻辑之间的区别。我的理解是中间件是python逻辑，它从网站主db之外的源获取数据，而视图是python逻辑从主网站db抓取？这种理解是正确的吗？如果没有，谁能帮忙解释一下？如果它是正确的，那么中间件只是一个API调用吗？

浏览 2提问于2019-04-04得票数 1

回答已采纳

9回答

appengine上的爬虫

我想在appengine.This上连续运行一个程序，程序会自动连续抓取一些网站，并将数据存储到它的database.Is中，程序有可能继续在appengine上这样做吗?或者appengine会杀死进程吗？注意:要抓取的网站不会存储在appengine上

浏览 0提问于2010-06-22得票数 5

2回答

FaceBook页面爬行

、、、

我当时正在开发一个社交媒体聚合器，我想知道是否有一种方法可以使用Java来抓取FaceBook、Twitter和其他社交媒体网站。我想从FaceBook页面中抓取特定的数据。我是否需要FaceBook或任何其他要求的特定权限？

浏览 4提问于2014-07-01得票数 2

回答已采纳

1回答

抓取网站返回错误数据

、

我正在使用快速矿工从特定的数据抓取网站。问题是，如果我尝试频繁地抓取网站，它提供的数据是错误的。如果我从其他IP地址看到相同的数据，它会显示与我在不同IP地址上抓取的数据不同的数据。有什么解决方案可以克服这个问题吗？

浏览 0提问于2012-10-19得票数 0

1回答

WebHarvest -使用身份验证抓取数据

我正在使用WebHarvest工具从几个网站抓取web数据。我已经看过了示例，但是找不到一种方法来在网站上进行身份验证，然后从网站上抓取数据。谁能举出一个通过身份验证实现web数据抓取的配置示例？如何发送登录参数，然后接收主页内容？感谢你在这方面的帮助。

浏览 9提问于2014-04-14得票数 1

2回答

python icecast/shoutcast流代理添加了流派/歌曲名称/艺术家元数据？

、、、

我正在收听3FM流，但不幸的是，它在aac/mp3/wma流中不提供音乐名称/艺术家信息。所以我想写一个简单的python代理来添加元数据到流中。元数据来自一个从3FM网站抓取JSON的定期爬虫。你知道我该从哪里开始吗？

浏览 0提问于2012-09-12得票数 1

1回答

从移动电话上的桌面(而非移动设备)获取数据

、

我正在尝试从一个网站获取数据，如下所示： $.get(wallpaperUrl, function(data) { html = $(data).find(".photo").html(); wallpaper.img = $(html).find("img").attr("src"); $('#MainPanel').css('background-image', 'url(' + wallpaper.img + ')'); }); 当在桌面上查看它时，

浏览 11提问于2017-08-28得票数 1

回答已采纳

2回答

抓取的数据包含与angular应用冲突的jquery

、、、

场景-- 我正在抓取一个网站，在我的angular应用程序中显示一个表单。我使用php来抓取这些数据，它通过rest api将html作为字符串发送给我。在我的angular应用程序中，我使用$sce.trustAsHtml(scrappedView)将字符串编译为html，并在应用程序仪表板上显示实际的表单。现在的问题是：从其他网站抓取的页面包含jQuery 1.11.0，我的应用程序使用angular 1.4。当视图加载到我的应用程序中时，表单中没有任何功能/操作。然而，在jquery应用程序中执行POC时，for运行得非常好。我的猜测是jQuery和angular由于相同的标识

浏览 0提问于2017-02-23得票数 0

1回答

当我使用粗糙的剧作家时，我需要关闭标签吗？

、、、

编辑:得到答案了。自动节流阀被限制在默认情况下。现在我需要限制它的网站页数。代码看起来像这个CONCURRENT_REQUESTS = 3 我用的是粗糙的剧作家。我想浏览一些网站。抓取蜘蛛将请求通过每个网站链接提取数据。在呈现完每个请求之后，是否需要关闭选项卡？比如使用这个： def parse(self, response): page = response.meta["playwright_page"] await page.close()

浏览 8提问于2022-06-28得票数 0

回答已采纳

1回答

如何强制facebook读取元数据？

当你从一个网站上获取一个链接，然后在你的facebook状态下发布它时，它似乎是从该页面抓取了元数据。我看到的是，如果网页有一个规范的链接到另一个网站，它似乎从另一个网站抓取元数据，有没有什么办法迫使facebook从你在facebook feed上发布的链接中读取元数据？

浏览 9提问于2012-08-14得票数 0

回答已采纳

2回答

如何使用Scrapy创建Twitter爬虫？

、、

我试过使用Scrapy从Pinterest这样的网站上抓取数据，这些网站不需要登录会话进行数据抓取，但如何使用Scrapy抓取和爬行Twitter，因为要访问Twitter追随者和其他数据，我们需要首先登录。

浏览 0提问于2014-12-18得票数 2

1回答

用计算机视觉抓取网站

、、、、

我的任务是抓取大量的网站。它们(从视觉上讲)都以类似的方式代表了我感兴趣的数据。这些网站中的每一个都有一个产品细节视图(可以这么说)。所有的视图都包含相同的信息:产品名称、价格、一些图片、描述等等. 如果我不得不抓取10个网站，我会写10个if/else或case来处理它们，但恐怕网站的数量要大得多。因此，我陷入了另一个问题。然后我发现我会用“计算机视觉”和“机器学习”。这听起来是合理的，因为有几乎相同的网站和“教学”算法如何“看到”我感兴趣的数据。到目前为止，我的策略是在无头铬(用selenium控制)中呈现每个产品细节视图，截图并将网站的视觉表示分割成块:左列、主列、右列。然后将“主”

浏览 0提问于2018-12-26得票数 0

1回答

网络抓取只会对那些有网站的人造成伤害吗？

、、、、

今天，我使用beautifulsoup4抓取了一个网站，并试图在该站点上获取大约16.000个数据。就在那之后的几分钟，那个网站就瘫痪了，几个小时都无法访问。所以..。我的问题是：网络抓取只会对那些有网站的人造成伤害吗？

浏览 0提问于2018-12-27得票数 0

回答已采纳

1回答

沸水管有任何限制吗？

、

为了数据挖掘的目的，我想使用来抓取网站的所有内容(新闻)。在锅炉的演示页中注意到：由于过去大量使用这项免费服务，每个用户的请求数量有限。钻杆库是否有任何限制，或者这个限制是用于演示页面？

浏览 4提问于2016-11-16得票数 2

回答已采纳

2回答

抓取完整的RSS源，而不仅仅是摘录

、

可能重复：基本上，我试着把一个本地新闻网站的整个提要都显示在我的网站上。我希望它能从提要中获取所有信息(包括图片)。由于一些奇怪的原因，它只允许我抓取实际内容的一部分，而不是整个页面。有没有办法抓取所有的内容？我知道我听说一些网站可能只提供一定数量的信息给他们的RSS源。这是真的吗？有办法绕过这件事吗？谢谢这是提要：

浏览 4提问于2011-08-12得票数 2

1回答

如何从网站提取数据并显示在google地图上？

、

我正在尝试创建一个类似于的网站，用户输入他们的属性标准，网站从，等网站抓取符合该标准的数据。然后，从这些网站抓取的数据显示在谷歌地图上，与该网站上显示的完全相同。谁能给我指个方向，告诉我从哪里开始？非常感谢！

浏览 3提问于2013-09-04得票数 0

1回答

从WebElement文本中删除特定单词

、、

你好，我正在使用selenium抓取一个网站，它有一个名为view的按钮，每当我刮擦它时，它都会显示输出中按钮的文本，因为它位于我从类似的<div>中抓取数据的相同的下面。 <div class="results"> <p>example</p> <a href="www.example.com" rel="nofollow" class="search-result__button button button_s">View Profile</a>

浏览 3提问于2020-02-04得票数 0

回答已采纳

2回答

是否可以在父布局中使用视图的ViewBag或模型？

我有一个.Net Core2.1网站，基本上我正在尝试访问我的共享布局中的数据，这些布局在子视图中可用。我可以从ViewBag或视图中的视图模型中获得我需要的东西--有没有办法引用它？如果没有任何想法，那么在我的布局中获取数据的最佳方法是什么？我已经看过ViewComponents，例如，但它似乎对于仅仅抓取字符串或模型之类的东西来说有点过头了。不幸的是，我不能使用会话数据来传递值。非常感谢和抱歉，如果这是一个菜鸟问题(我是.net核心的一个！)。

浏览 1提问于2019-01-18得票数 0

1回答

抓取PHP cURL和XPath，如何提高速度？

、、、

目前我正在使用PHP cURL和XPath进行抓取，但速度非常慢。每个网站都有许多使用Javascript的带有许多子页面的URL。一个网站将有30个产品类别，每个类别有大约70个子页面，每个页面上有10个项目。我用上面的代码总共刮掉了大约150个网页。一个脚本获取一个网站，并一次一个地从该页面中抓取所有URL。与此同时，另一个脚本正在运行，执行相同的操作。每个脚本获取一个URL，将数据提取到一个变量中，然后使用XPath抓取该变量，然后将值存储在DB中。许多页面使用带有微软ASP.NET视图状态的Javascript，所以需要执行许多循环才能从页面1跳到页面2，等等。一个脚本可

浏览 1提问于2011-07-25得票数 1

1回答

用wget从URL列表中只抓取jpg的

我试图使用wget从urls列表中只抓取..jpg。我尝试过wget -r -A.jpg http://url.com/page1，但它下载了整个网站。我还看到了这个示例，用于抓取urls列表wget -i download-file-list.txt，所以我尝试了这个wget -i -A.jpg download-file-list.txt，但是它只是下载html，而不是jpg图像。有没有办法给它一个HTML页面，让它只下载某种类型的图像？谢谢

浏览 4提问于2013-12-03得票数 1

回答已采纳

1回答

Bookmarklet -从其他网站抓取视频

、、

我想通过书签从其他网站(youtube.com，vimeo.com)抓取视频。我已经创建了bookmarklet。它适用于“选定的文本”和“图像”，但如何处理视频呢？有什么想法吗？提前谢谢。

浏览 1提问于2009-08-19得票数 0

3回答

如何重新爬行nutch

、

我使用的是集成了mysql的Nutch 2.1。我抓取了2个站点，Nutch成功地抓取了它们，并将数据存储到Mysql中。我使用Solr 4.0.0进行搜索。现在我的问题是，当我试图重新抓取一些网站，如trailer.apple.com或任何其他网站，它总是抓取最后抓取的网址。甚至我已经从seeds.txt文件中删除了最后一个抓取的Urls，并输入了新的urls。但是Nutch没有抓取新的Urls。谁能告诉我，我到底做错了什么？另外，请建议我任何Nutch插件，可以帮助抓取视频和电影网站。任何帮助都将是非常有用的。

浏览 1提问于2012-12-14得票数 2

1回答

TaxonomyManager.GetTree()丢失记录

、、

我目前在一个网站上工作，该网站使用TaxonomyManager抓取类别中的一组项目，并将它们显示为我们网站内的链接列表。我们注意到有一些记录没有被包括在列表中，尽管它是类别的一部分。在逐步执行我们的代码时，我注意到当数据通过GetTree()传递时，条目数量从84增加到80。我尝试在线搜索，但没有找到任何关于GetTree()丢失或截断数据的信息。 TaxonomyData taxonomyData = new TaxonomyData(); Dictionary<string, TaxonomyItemData> taxonomyFullData = ne

浏览 8提问于2018-11-24得票数 0

1回答

不能一次刮超过90页使用Curl和php？

、、

我已经为我的客户之一创建了一个刮刀，它主要用于抓取几个合作伙伴网站并获取数据。刮板一直工作到90页，一旦达到90页，就会一遍又一遍地刮。我真的很困惑为什么会发生这种事。有人能帮我解决这个问题吗？ function getFlightCharges() { $requestHeaders = requestHeaderProperties (); $sql = 'select * from F_charge where enabled = 0'; $details = DatabaseHandler::GetAll ( $sql ); foreach ( $details as

浏览 3提问于2016-10-03得票数 0

1回答

django仅在满足特定条件时才将数据保存在数据库中

、、、

我有一个python函数，可以从几个不同的网站抓取一些数据，我只想在满足特定条件的情况下将这些数据保存到我的数据库中。也就是说，仅当位置和日期字段的组合是唯一的时，才应保存抓取的数据因此，在我的视图中，我有一个新的位置变量和日期变量，基本上我只需要根据数据库中已有的值来测试值的组合。如果此组合是唯一的，则将其保存。如果不是，那就什么都不做。 class Speech(models.Model): location = models.ForeignKey(Location) speaker = models.CharField(max_lenth=100) date =

浏览 4提问于2011-09-24得票数 2

回答已采纳