腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Python
:使用bs4解析UNICODE字符
、
、
我正在使用bs4构建一个
python
3网络
爬虫
/爬行器。每当遇到像
中文
符号这样的UNICODE代码字符时,程序就会崩溃。如何修改我的刮刀,使其支持UNICODE?
浏览 0
提问于2016-01-05
得票数 1
3
回答
如何读取包含
中文
字符的UTF-8编码文件,并在控制台上正确输出?
、
、
、
我正在写一个网络
爬虫
来获取一些
中文
网页文件。获取的文件以utf-8编码。我需要读取这些文件来做一些解析,比如提取URL和
中文
字符。但我发现,当我将文件读入std::string变量并将其输出到控制台时,
中文
字符变成了垃圾字符。我将boost::regex应用到std::string变量中,可以提取除
中文
字符以外的所有URL。P.S.我的CPP文件默认编码为ANSI码,操作系统为
中文
Win8;
浏览 1
提问于2013-11-25
得票数 5
回答已采纳
3
回答
如何在出现异常时强制刮伤退出
、
我用Scrapy写了一个
爬虫
。我发现当我的字符串有
中文
的时候,logging.error()会抛出一个异常。但
爬虫
一直在跑!我的问题是:在出现异常时,是否存在强制Scrapy停止的设置?
浏览 3
提问于2017-06-08
得票数 7
回答已采纳
1
回答
如何使用perl存储和显示ISO-8859-1和UTF8字符
、
、
、
、
我正在使用perl编写一个web
爬虫
,web
爬虫
将使用LWP和一些简单的正则表达式提取某些信息。 这些信息保存在mySQL数据库中,该数据库将在安卓设备上使用。然而,当我测试网页
爬虫
时,我意识到有些信息是用HTML数字编码(&# 20856;&# 33775 ;)用
中文
(典華),而有些信息是使用iso-8859-1编码(Zhífú)。我使用PERL::Entities库解决了
中文
部分,当我将控制台设置为utf8时可以显示该库。然而,其他字母(Zhífú)只能显示在iso-8859-1中。
浏览 4
提问于2011-09-09
得票数 3
回答已采纳
1
回答
检测网站语言(用于爬网)
、
、
、
、
我在一个
爬虫
上工作,我似乎不能正确检测网站的文本语言。有什么已知的解决方案吗?在html标签中指定语言的网站所占比例很低。
浏览 2
提问于2014-09-08
得票数 0
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
1
回答
使用
Python
获取html内容中的内容
、
、
、
中文
网站主要描述一家公司的信息。因为有很多页面包含类似的内容,所以我决定学习
Python
中的数据
爬虫
。如何使用
Python
获取这些数据?如有任何建议,将不胜感激。
浏览 0
提问于2018-06-05
得票数 2
回答已采纳
1
回答
为用户提供正确的语言
、
、
、
我正在工作的网站,提供英语和德语内容。我想向用户展示正确的语言。因此,当有人来/访问时:www.example.ch语言应为德语。www.example.com 我正在重定向到.de域。如果不是,则该网站是英文的。下面是我用来重定向的代码: $.browserLanguage(function(language, a
浏览 0
提问于2014-05-08
得票数 0
1
回答
汉字编码(UTF-8、GBK)
、
、
、
、
我有一个网络
爬虫
,可以在不同的网站上运行(在这种情况下是
中文
)。 现在,当我检索数据并将其显示在我的网站上时,所有的
中文
字符都变成了垃圾。我读过有关字符编码的文章,发现UTF-8通常是最好的编码。现在我有两个页面,一个是UTF8
中文
字符,另一个是GB18030
中文
字符。
浏览 4
提问于2015-01-14
得票数 1
4
回答
如何正确显示在
Python
中调用raw_input()的
中文
字符串?
、
、
、
我当时正试图解决
中文
编码的问题。到目前为止,我面前的唯一障碍是正确显示用户输入的raw_input()。如果用户在raw_input()中键入
中文
字符,打印name_a将显示utf-8代码点,如'/xb7‘#coding: utf-8 n=raw_input一眨眼的功夫,程序就结束了(我知道在Windows环境下
python
的特性,所以我在文件末尾加上了x = input() )。后来我删除了包含第二段代码的原始测试py文件。我在Windows XP环境下使用
浏览 1
提问于2014-01-07
得票数 2
1
回答
百度站点地图文件爬行失败
、
、
我已经向
中文
百度提交了我的网站的站点地图文件。1)使用gzip压缩的 16 sitemap文件,每个文件小于10 16,包含更少的50K url。除了百度留言“失败的
爬虫
”(抓取失败)之外,我找不到我的站点地图有什么问题。谁能提出什么是错的?或者哪里可以看到准确的错误信息,从百度为什么“失败的
爬虫
”?最后,在5月份的尝试之后,百度也将站点地图索引文件标记为“失败的
爬虫
”(但是提交后,它总是处于‘等待’状态,然后'not
浏览 3
提问于2016-10-18
得票数 0
回答已采纳
2
回答
查找一个国家的“所有”域名
、
我知道任何地方链接的页面都不能被
爬虫
等发现,所以对于这个例子,我不会关心孤立的页面。我想做的是,我想有一个TLD作为我的程序输入,我希望有一个网站的列表作为输出。
浏览 3
提问于2012-08-24
得票数 4
1
回答
将具有动态生成名称的DynamoDB表导出到S3
、
、
我将时间序列数据存储在每日生成的DynamoDB表()中。这些表的命名惯例是"timeseries_ 2019-12-20 ",其中2019-12-20为当前日期。我想以CSV格式将前一天表发送到S3桶。推荐的方法是什么?我在看AWS Glue,但不知道如何让它每天找到新的表名。也许有云观察事件的lambda函数会更好?DynamoDB表的大小不大,存储了几百个数字。
浏览 4
提问于2019-12-21
得票数 0
回答已采纳
1
回答
百度蜘蛛会理解无限滚动的页面吗?
、
、
、
问题是,
中文
搜索引擎对我们也很重要。而关于他们的英语信息非常少。因此,我的问题是:百度的
爬虫
(百度的
爬虫
)是否足够聪明,能够理解无止境的JavaScript分页,就像谷歌的机器人显然能做到的那样?
浏览 0
提问于2015-12-03
得票数 2
回答已采纳
1
回答
有哪些类似于OpenCalais或AlchemyAPI的商业平台可用于
中文
和日语的实体提取?
、
、
、
、
特别是,我希望能够提取人物、地点、电影、音乐等实体,并在广泛使用的链接数据ID(如DBpedia、Freebase或OpenCyc )中提供这些实体。
浏览 6
提问于2010-12-18
得票数 2
2
回答
使用scrapy
python
的.net框架
、
、
、
可以在
Python
框架中使用.NET框架从不同的站点抓取数据吗?我正在做我的最后一年的项目,在这个项目中,我想使用C#作为前端语言,并使用
Python
来抓取数据。
浏览 0
提问于2014-05-07
得票数 4
3
回答
将数据从PHP脚本传递到
Python
Web Crawler
、
、
、
、
我有一个
python
爬虫
,每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面,并显示
爬虫
获得的数据。我将使用php/html作为接口。无论如何,用户界面需要某种类型的按钮来触发
爬虫
程序立即抓取特定的网站(而不是等待下一次抓取迭代)。 现在,有没有一种方法可以将数据从php脚本发送到正在运行的
python
脚本?然后我在考虑使用一个共享文件,php在其中写入数据,
python
从中读取数据。但是,我需要一些方法来让
python
脚本知道,新数
浏览 1
提问于2011-03-31
得票数 1
1
回答
如果我为我的
python
脚本做了一个简单的gui,它会影响它的效率吗?
、
、
嗨,我想做一个网页
爬虫
,检查URL的数据,如果我做一个简单的Gui,使脚本更容易查找变量的数据,添加代码的gui会使我的网络
爬虫
效率降低吗? 我需要
爬虫
尽可能高效,能够尽可能快地处理数据。为这个
Python
脚本制作一个gui,会不会妨碍web
爬虫
的性能?
浏览 3
提问于2015-01-27
得票数 0
回答已采纳
1
回答
如何轻松地在远程github分支和本地分支/文件夹之间切换?
、
、
、
我用
Python
2.7编写了大量的Scrapy爬行器。我需要将它们全部转换为支持
Python
3,这种转换必须在1 go内完成。我只能在
Python
3
爬虫
做好部署准备之后才能开始使用。现在,由于“所有操作都必须保持活动状态”,我需要一个单独的
Python
3
爬虫
的远程分支。这个分支可以称为Remote-B。我手动创建了这个分支,所以整个存储库现在有两个分支: Master(Remote-A)和
Python
3
爬虫
(Remote-B),后者是主分支的一个
浏览 3
提问于2019-09-10
得票数 0
回答已采纳
1
回答
我怎么能强制停止我的
爬虫
得到一个特定的网址抓取最后一次?
、
、
、
、
我正在制作一个
爬虫
来找出最近添加的youtube视频,当我的
爬虫
到达旧视频(在前一个转弯中爬行)时,我想停止
爬虫
。我使用的不是scrapy和漂亮的汤,我使用的是
python
库。请给我推荐任何选项
浏览 9
提问于2017-06-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
Python爬虫,用第三方库解决下载网页中文本的问题
Python 爬虫(六)
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券