我有一个破烂的代码,应该能够采取电话和地址从一个网页中的表格:
import scrapy
class PeopleSpider(scrapy.Spider):
name="People"
start_urls=[
'http://canada411.yellowpages.ca/search/si/1/519-896-7080/',
]
def parse(self,response):
for people in response.css("div.person-search__table--row"):
yield
我正在尝试使用Python中的Scrapy在一些航班上运行航班搜索,然后将其导出为csv。这只是为了好玩,因为我对Scrapy有了更多的了解。
这是我所拥有的
from scrapy.item import Item, Field
from scrapy.http import FormRequest
from scrapy.spider import Spider
class DeltaItem(Item):
title = Field()
link = Field()
desc = Field()
class DmozSpider(Spide
我被指派使用python和scrapy创建一个爬虫来获取特定酒店的评论。我阅读了相当多的教程和指南,但我的代码仍然生成一个空的CSV文件。 Item.py import scrapy
class AgodaItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
StarRating = scrapy.Field()
Title = scrapy.Field()
Comments = scrapy.Field() Agoda_rev
我在seed.txt中用url-1成功地执行了一次爬行,我可以在MySQL数据库中看到爬行的数据。现在,当我尝试通过在seed.txt中用url-2替换url-1来执行另一次新的爬行时,新的爬行开始于抓取步骤,并且它试图抓取的url是seed.txt中旧的替换的url。我不确定它是从哪里拿到这个旧网址的。
我尝试检查隐藏的种子文件,但没有找到,并且在我运行爬网命令的NUTCH_HOME/ run /local中只有一个文件夹urls/seed.txt。请告诉我可能是什么问题?