api的反爬策略爬取数据 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

怎样在不使用API的前提下爬取Twitter数据？

数据挖掘、python、api、twitter、数据

由于现在Twitter API 数据爬取付费，所以我想在不使用Twitter API的情况下使用python爬取到特定关键词的Twitter数据或者Reddit数据，有什么好办法吗？

浏览 903提问于2024-01-06

2回答

如何用python爬取数据并保存到excel？

python

利用python爬取豆瓣电影排行榜（https://movie.douban.com/chart)的数据并保存到excel中。用相同代码爬取网页豆瓣top250的数据可以爬取到excel中，但将网址及相关信息改为网页豆瓣电影排行榜中的信息时便无法爬取，也找不出问题所在。以下图片为完整代码。

浏览 494提问于2021-01-09

0回答

为什么用xpath提取数据保存到数据库会带有<span class="title">xxxx</span>这样的html标签？

html、数据库、scrapy、python爬虫、title

我的本意是只想爬取xxxxx，为何标签也被爬取了呢图片

浏览 118提问于2023-08-23

1回答

在SharePoint online库中查找最近添加的文件

microsoft-graph-api、onedrive

我的要求是使用图形apis在我的整个SharePoint Online (SPO)中搜索文件。我在MS Graph Explorer中使用的查询如下所示：基本上，上面的查询是搜索标题/名称为'res1a2b3c4d5e‘的所有文档。如果我搜索任何现有的文档，这将很好地工作。如果我试图搜索在进行上述调用

浏览 2提问于2017-04-18得票数 1

1回答

php如何禁止从url直接访问网站页面？

php、搜索引擎

有些人会通过url直接访问文章页面进行抄袭，所以想禁止通过url直接访问网站的行为。再次深表感谢！

浏览 434提问于2023-02-24

2回答

你好可以把您那个爬取二手房价信息的那些个源代码发我一份不？

scrapy、数据分析、可视化

Scrapy爬取二手房信息+可视化数据分析谢谢

浏览 192提问于2021-12-30

1回答

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

search、sharepoint-2010

SharePoint2010 search中的索引数据库和属性数据库有什么不同？

浏览 5提问于2011-02-15得票数 0

回答已采纳

1回答

系统自动更新SQL Server全文索引会导致阻塞和超时

sql-server、fulltext-index

自动更新目录中的全文索引的内部系统进程(change tracking = on)需要很长时间才能完成，从而锁定了希望同时访问同一个表的其他查询。保持较小的目录大小是否有帮助，即每个目录一个表？全文目录目前有34 GB大小，其中包含一些包含大量记录的非常大的表。

浏览 22提问于2019-02-22得票数 0

回答已采纳

0回答

能否用腾讯云函数更新小程序云数据库？

云函数、serverless、微信、小程序、小程序·云开发

小程序云函数不支持python，所以想用python写腾讯云函数爬取数据更新小程序云数据库

浏览 384提问于2020-09-10

2回答

关闭浏览器或单击中止时，脚本不会停止

c#、asp.net、events

我写了一个网络爬虫，它在do while循环中调用网页，循环时间为3秒总共有7000个网站...我解析数据并将其保存在我的数据库中。我在我的数据库里看到了。我能防止这种情况吗？..现在，如果我停止webserver，这是可能的。谢谢你，并致以最良好的问候。

浏览 0提问于2010-01-22得票数 0

2回答

获取爬行信息的SharePoint接口

sharepoint、moss

我正在尝试创建一个自定义报告，它显示当前的爬网时间/持续时间，状态是完全爬网还是增量爬网。有谁知道我可以用什么API来获取这样的信息？

浏览 0提问于2009-06-01得票数 0

回答已采纳

2回答

Facebook粉丝从何而来？

facebook、facebook-page

我想知道从什么时候起Facebook上的粉丝就是粉丝了？我想出的唯一办法就是抓取粉丝页面的整个feed，然后像墙上的帖子一样追踪第一个帖子。然而，这种方法并不十分准确。有什么想法吗？

浏览 2提问于2011-05-19得票数 0

回答已采纳

2回答

我如何“获得”数据的所有酒吧/俱乐部在美国的数据库。Yelp API？

java、database、json、screen-scraping、data-mining

我要做的是创建一个美国所有酒吧的数据库。我需要这个数据库半定期更新(大约每周)，以包括新开的酒吧。 yelp api的问题是他们只返回20个结果。在我周围5英里的范围内有800多家酒吧。我如何才能现实地实现我的目标？

浏览 0提问于2011-01-18得票数 1

3回答

当添加新页面时，Nutch会自动抓取我的站点吗？

nutch

当我向网站添加新页面时，会自动爬网吗？

浏览 4提问于2009-11-25得票数 0

1回答

Sharepoint 2010搜索不会为自定义字段建立索引

search、sharepoint-2010

我正在尝试创建一个托管元数据字段，但它没有显示在我的爬网列中。它是一个自定义字段。我不确定哪里出了问题，但当我搜索时，我唯一的结果是查看与列表相关的所有项目页面。它似乎不会搜索列表项本身。我将此列添加到我的视图中，以备需要时使用，但这并不起作用。

浏览 1提问于2010-06-15得票数 1

0回答

ddproperty历史数据采集？

爬虫

之前从一个国外站看到过抓取泰国房产数据的抓取，https://www.barkingdata.com/?crawlers/ddproperty-crawler.html 不知道国内有没有谁搞过这个，要爬取18年之前的历史数据

浏览 201提问于2022-05-10

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

webserver、web-crawler

是否存在一些标准的持续时间，爬虫必须在重复命中同一服务器之间等待，以避免使服务器负担过重。如果没有，任何建议是什么可以是一个良好的等待时间爬虫被认为是礼貌的。这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

java、hadoop、nutch

请任何人让我知道，我如何才能识别更新的网址去重新抓取？当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

1回答

即使网址从seed.txt中删除，网站也会被爬行(Nutch2.1)

nutch、web-crawler

我在seed.txt中用url-1成功地执行了一次爬行，我可以在MySQL数据库中看到爬行的数据。现在，当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时，新的爬行开始于抓取步骤，并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。我尝试检查隐藏的种子文件，但没有找到，并且在我运行爬网命令的NUTCH_HO

浏览 1提问于2013-04-17得票数 1

5回答