腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
测试我的网站在程序中是如何显示的
、
、
、
、
网站不仅可以被浏览器上的用户访问,还可以被程序、机器人和
爬虫
访问。我有一个运行在上的带有
python
的网站,它具有由
python
程序通过组合、合并和循环字符串生成的非静态HTML页面。但是,它们也不是
动态
页面,因为生成这些页面不需要用户输入。
python
生成内容完全是为了方便、简洁和易于维护,并且完全由url设置。 一些搜索引擎无法对
动态
页面进行索引。我想知道这些页面是否符合“
动态
”,即它们是否可以被这类机器人为通常的元数据和内容进行爬行或索引,并且通常希望有一种方法来
浏览 5
提问于2012-01-09
得票数 0
回答已采纳
3
回答
scrapy能像Selenium一样控制和显示浏览器吗?
、
、
当我使用Selenium时,我可以看到浏览器GUI,是否可以使用scrapy或严格基于scrapy命令行?
浏览 4
提问于2015-11-03
得票数 1
回答已采纳
1
回答
爬行url \如何在node.js中获取
动态
链接
、
我正在使用js
爬虫
来抓取网站,现在我遇到了CNN,的那一部分(基于某种原因
动态
生成的urls)。事情是
爬虫
,不要真正接触脚本-我应该如何解决它?除了我的node.js
爬虫
之外,我还应该编写自己的代码吗?是否有先进的
爬虫
知道如何处理这种
动态
行为?
浏览 1
提问于2016-07-23
得票数 2
回答已采纳
1
回答
我需要饲料聚合器,建立在小规模的高性能编程语言web框架(需要建议)
、
、
、
我有不同的内容坐在不同的子领域,每一个在不同的框架和不同的数据库。 目前,我使用sqlite3实现了这一点,但我正在寻找其他(更高性能、更低占用空间)编程语言,希望它们能够更好地完成这项任务。
浏览 2
提问于2011-03-21
得票数 0
1
回答
如何在基于用户输入的
动态
构建的页面上使用Google AdSense?
、
、
、
、
我试图在具有
动态
查询参数的网页上显示广告。https://app.example.com/converter?
python
2code=print%20g&
python
3code=print(g)。
python
2code=print%20g&
python
3code=print(g)部分总是在变化。在用户URL中添加会话ID的会话ID站点的
动态
页面可能会遇到显示相关广告的问题。会话in可以增加
爬
浏览 0
提问于2021-08-26
得票数 4
1
回答
对于
动态
参数的前端路由,像
动态
seo这样的情况,prerender.io能帮上忙吗?
、
、
、
、
详细问题可在此链接中找到- 现在,在这种情况下,为不同的categoryId做搜索引擎优化似乎是不可能的,因为谷歌机器人不会在爬行时等待我的服务器响应。
浏览 1
提问于2016-04-29
得票数 0
1
回答
如何设置支持一系列
动态
URL的AdSense
爬虫
登录?
、
、
我有一个网站,主要功能
动态
内容。每一段
动态
内容都有自己的网址,如"www.example.com/page/\*/\*“ 我遇到的问题是,其中许多页面都需要用户登录。我读过关于AdSense
爬虫
登录的文章,并试图实现它。但是,我发现没有提到通配符或URL的正则表达式。据我所知,AdSense
爬虫
登录只支持静态URL。是否有任何方法来设置支持一系列
动态
URL的AdSense
爬虫
登录?
浏览 0
提问于2015-02-03
得票数 3
1
回答
Python
selenium屏幕捕获未获取整个页面
、
、
、
我正在尝试创建一个通用的网络
爬虫
,将去一个网站,并采取屏幕截图。我使用的是
Python
、Selnium和PhantomJS。问题是屏幕截图没有捕捉到页面上的所有图像。(我没有足够高的代表来发布屏幕截图)我认为这可能与
动态
内容有关,但我已经尝试了等待函数,如隐式等待和on set_page_load_timeout方法。因为这是一个通用的
爬虫
,所以我不能等待特定的事件(我想抓取数百个站点)。 有没有可能创建一个通用的网络
爬虫
来完成我正在尝试的屏幕截图?
浏览 4
提问于2014-10-06
得票数 3
2
回答
如何使用java或
Python
动态
读取网页中的流式/推送数据?
、
、
、
、
由于网站每5秒通过JavaScript更新一次表,因此无法为此编写
爬虫
程序,它是
动态
加载的。 我想要这个网页中的数据表,但我不知道如何使用Java或
Python
来实现。我已经搜索了很多,大多数答案都是关于“如何从服务器流式传输数据”这样的问题,但我想要的恰恰相反,我如何从网页读取
动态
流式/推送的数据?
浏览 19
提问于2016-08-26
得票数 0
1
回答
使用
python
的
动态
网页
爬虫
、
、
、
所以,经过4周的试验后,我来到这里,所有的问题都归结于我这个
爬虫
似乎无法阅读网页的内容,即使在所有的喧闹之后。 最初的问题是,所有的信息没有出现在一个页面上,所以使用按钮导航网站本身的内容.
爬虫
无法读取页面的原因似乎是robot.txt文件(单个页面的
爬虫
等待时间为3600页,文章大约有10页,这是可以忍受的,但如果它说100+会发生什么情况),我不知道如何绕过它或绕过它。
浏览 5
提问于2020-08-31
得票数 0
回答已采纳
2
回答
如何在MySQL数据库中存储
动态
python
字典?
、
、
、
我正在做一个小型项目的网页-
爬虫
+搜索引擎。我已经知道如何使用Scrapy框架刮取数据。现在我想做索引。为此,我发现
Python
字典是我最好的选择。我希望映射类似于对象(字符串)的名称/标题, -> 对象本身(
Python
对象)。 现在的问题是,我不知道如何在MySQL数据库中存储
动态
dict,而且我肯定想要存储这个dict!
浏览 1
提问于2015-09-01
得票数 1
3
回答
用于web抓取的旋转代理
、
、
、
、
我有一个
python
网络
爬虫
,我想在许多不同的代理服务器上分发下载请求,可能是运行squid (尽管我对其他选择是开放的)。为了让它更难,我还希望能够
动态
地更改可用代理的列表,减少一些代理,并添加其他代理。谢谢:)
浏览 0
提问于2009-12-20
得票数 10
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
1
回答
使用Codeigniter创建站点地图
、
、
、
、
如果站点上的一些页面是静态的而不是
动态
的,会发生什么? 有没有办法使用PHP抓取站点并创建一个包含结果的XML文件?
浏览 2
提问于2011-11-22
得票数 0
回答已采纳
1
回答
使用javascript对SEO友好的条件加载
、
、
、
、
我计划做一个responsive+mobile的第一个网页设计。所以我的计划是: 谁能告诉我,是否可以做SEO友好的条件加载使用Javascript?或者,我是否需要查看服务器端语言即PHP/ASP来使用设备检测加载内容?
浏览 6
提问于2012-10-18
得票数 4
回答已采纳
1
回答
Scrapy管理
动态
爬行器
、
、
我正在建设一个项目,我需要一个网络
爬虫
爬行不同的网页列表。此列表可以随时更改。这是如何用scrapy最好地实现的?我应该为所有网站创建一个
爬虫
,还是
动态
创建蜘蛛?我读过关于的文章,我猜
动态
创建爬行器是最好的方法。不过,我需要一个关于如何实现它的提示。
浏览 2
提问于2013-07-02
得票数 3
回答已采纳
1
回答
为什么我的
动态
创建的内容不能在Google中搜索
、
我的网站提供了
动态
创建的内容,
爬虫
可以看到,基于以下规范:。这样,谷歌
爬虫
用以下语法索引了大约5000个: urls 用谷歌的网站管理员工具查看我的抓取报告,我确信这些页面都被成功抓取了。请注意,我确实找到了我的通用网站,在“更多结果”下,我找到了大约40个
动态
生成的页面,但显然这不是我想要的。我想根据它们的内容(AAPL,GOOG,...)找到页面。也许,
爬虫
认为我的页面或多或少是一样的。但事实并非如此。
浏览 3
提问于2013-06-09
得票数 0
1
回答
我可以使用powershell制作一个从
动态
网页获取数据的网络
爬虫
吗?
、
我正在做一个网络
爬虫
的项目,从内部网站获取一些信息。我发现静态页面可以通过几个简单的步骤(设置cookie,然后使用Cmdlet Invoke-RestMethod)来捕获,但是
动态
页面的数据不能通过这种方式获得。此外,我发现
动态
页面上的链接并不是持续不断的,例如,它总是由jsessionid或其他东西组成,它们总是随时间而变化。 有人能给我一个提示来解决这个问题吗?
爬虫
能抓取
动态
网页吗?谢谢..。
浏览 149
提问于2017-02-13
得票数 0
1
回答
将具有
动态
生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
1
回答
适用于分层Avro文件的AWS Glue & Crawler
、
、
我们有一个读取分层Avro文件的用例,该文件的Schema在摄取过程中会
动态
更改。
浏览 13
提问于2020-06-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中使用selenium进行动态爬虫
Python爬虫——利用PhantomJS下载动态加载图片
Python新手写爬虫!尝试动态加载的电影网站爬虫
Python爬虫-适用新手(三)-动态页面实战练习
python突破爬虫动态网页障碍,爬取电影下载地址
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券