我正在使用Scrapy来尝试在网站上进行搜索。我正在改变的领域是Número do Processo na ORIGEM,id 'idNumeroOriginario‘。
然而,Post方法似乎并没有改变页面上的任何内容。
下面是代码:
import scrapy
from scrapy.utils.response import open_in_browser
class MinimalSpider(scrapy.Spider):
name = 'stj-spider'
start_urls = ['https://ww2.stj.jus.b
我使用刮除来收集网站上的产品:,但是有些产品只能通过按下按钮来显示: Toon,我试着使用Roll进入按钮,但没有成功,它只收集了12个显示的第一项。如何收集这些产品的数据?
这是我的密码:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
import re
class Product(scrapy.Item):
barcode = scrapy.Field()
name = scrapy.Field()
cl
我一直在尝试从网站上抓取数据。我想从一些我不知道名字的网站上的老师那里得到信息。
每个老师在网站上都有一个遵循一定规律的页面。举个例子,这个老师Lois Bank存储在:。所以模式是老师的名字,斜杠,一个数字,破折号t。
在我尝试使用CrawlSpider使用正则表达式从主页爬行之前,因为我试图访问的页面没有链接到主页,所以它不起作用,访问它们的唯一方法是在搜索框中搜索老师的名字。
我试着写了下面的爬虫,但它不能工作:
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.linkextractors.sgml im
我想用Scrapy和Selenium从亚马逊网站上提取产品的信息。
下面的源代码连接到Amazon网站,然后通过字母"A“进行搜索。然后恢复搜索结果集的链接。但是,当我循环到每个搜索结果时,什么都不会发生(它只是连接到第一个结果)。谢谢你帮我更正这段代码。
源代码“蜘蛛”
from scrapy.contrib.spiders import CrawlSpider
from selenium import webdriver
from selenium.webdriver.support.select import Select
from time im
我需要所有的内部链接从所有网页在网站上进行分析。我搜索了很多类似的问题。我通过找到了这段代码,它给出了可能的答案。然而,这并不是提供所有可能的链接,从第二层深度的网页。生成的文件只有676条记录,而网站有1000条记录。
工作码
import csv // Done to avoid line gaps in the generated csv file
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from eylink
我声明我从未使用过Scrapy (因此我甚至不知道它是否是正确的工具)。
在网站上,我有兴趣在"INSERISCI LA PARTITA IVA/RAGIONE SOCIALE“栏中输入一个11位数字的数字代码(例如06655971007),然后点击"CERCA”。然后,我想将生成的HTML保存在一个变量中,稍后我将使用BeautifulSoup进行分析(我不应该有任何问题)。那么,我怎么做第一部分呢?
我想是这样的:
import scrapy
class Extraction(scrapy.Spider):
def start_requests(self):
我正在使用Laravel5.5,我在Product.php型号中为我的产品创造了空间:
public function scopeApproved($query)
{
return $query->where('publish', 1);
}
从laravel网站上拿来的。
然后我有下面的代码来显示我的搜索结果。
public function search()
{
$search = request('search');
$searchType = request('searchType');
if (s
我目前的抓取爬行器可以根据需要从网站上提取产品名称,但会将每个start的摘录放在一个单独的['product']列表中。我希望所有的start_url提取都放在一个单独的列表中(对于每个类类型:产品、价格等),这样我就可以在将来操作提取时调用列表中的每个产品标题。
这是我目前的爬虫:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from proj.items import projItem
class siteSpider(BaseSpider)
我正在使用这个链接:,我想帮助从亚马逊检索产品标题。我已经尝试过无数种xpath和css方法,无法检索这些项的产品标题。我在网上查看了其他人是如何做到的,但是html与这个链接上的html不同。(对不起,如果缩进关闭,尝试手动完成它的粘贴而没有适当的缩进)。
import scrapy
from scrapy import Spider
class SSDSpider(scrapy.Spider):
name = "SSD_spider"
start_urls = ['https://www.amazon.ca/ssd/s?ie=UTF8&pag
我正在尝试编写一个自动登录到的爬虫。但是,当我尝试在shell中使用scrapy.FormRequest.from_response时,我得到了错误:
No <form> element found in <200 https://www.athletic.net/account/login/?ReturnUrl=%2Fdefault.aspx>
当我在网站上检查元素时,我肯定可以看到表单,但当我尝试使用response.xpath()查找它时,它也没有在Scrapy中显示出来。有没有可能以某种方式对我的爬虫隐藏表单内容?如果是这样,我该如何修复它?