Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >电商网站商品价格获取方法_电商网站

电商网站商品价格获取方法_电商网站

作者头像
全栈程序员站长
发布于 2022-11-10 06:26:05
发布于 2022-11-10 06:26:05
3K00
代码可运行
举报
运行总次数:0
代码可运行

大家好,又见面了,我是你们的朋友全栈君。

电商网站商品价格获取

本文以苏宁易购,京东,两个电商网站,模仿说明电商网站商品价格的两种获取方法。

json形式存放,京东商品的价格以json形式存放,以以下页面为例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://item.jd.com/100000287133.html

明显价格数据并非放在前端页面里,搜索找到以下数据

查看当前的url

在浏览器中请求

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://p.3.cn/prices/mgets?callback=jQuery6054119&type=1&area=6_303_36780_0&pdtk=&pduid=1588655612&pdpin=&pin=null&pdbp=0&skuIds=J_100000287133%2CJ_5416604%2CJ_100001477751%2CJ_4741808&ext=11100000&source=item-pc

通常来说call_back包含的内容可以直接去除,将链接处理后得到

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://p.3.cn/prices/mgets?skuIds=J_100000287133
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
skuIds=J_100000287133 

#分析即可发现j_后的字符串为商品ID,对应商品详情页的链接 请求结果如下:

接下来,填充主程序。仅作为示例代码,详情数据重新处理

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import scrapy
import json
class JgSpider(scrapy.Spider):
name = 'jg'
allowed_domains = ['shouji.jd.com','p.3.cn'] #需说明的是在价格详情内域名发生了变化
start_urls = ['https://item.jd.com/100000287133.html']
def parse(self, response):
item = { 
}
contain= response.xpath("//div[@class='product-intro clearfix']")
item["title"] = contain.xpath("./div[@class='itemInfo-wrap']/div[@class='sku-name']/text()").extract_first().strip()
item["sku_num"] = contain.xpath(".//a[@class='notice J-notify-sale']/@data-sku").extract_first()
item["price_href"]='https://p.3.cn/prices/mgets?&skuIds=J_{}'.format(item["sku_num"])
yield scrapy.Request(
item["price_href"],
callback=self.price_detail,  #获取价格
meta={ 
"item":item}
)
def price_detail(self ,response):
item = response.meta["item"]
item["price"] =json.loads(response.body.decode())[0]["p"] #json数据遍历方法
print(item)

需要说明的几点:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
allowed_domains = ['shouji.jd.com','p.3.cn'] #需说明的是在价格详情内域名发生了变化
item["price_href"]='https://p.3.cn/prices/mgets?&skuIds=J_{}'.format(item["sku_num"]) #也可直接拼接

代码运行结果如下:

苏宁易购商品价格获取,与淘宝的逻辑相似存放在主页面但需要正则匹配获取。

同样以具体的某些页面为例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://product.suning.com/0070091633/10717510914.html?safp=d488778a.10038.resultsRblock.12&safc=prd.3.ssdln_502687_pro_pic01-1_0_0_10717510914_0070091633

用同样的方法找到价格

填充主程序代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import scrapy
import re
class SnSpider(scrapy.Spider):
name = 'sn'
allowed_domains = ['suning.com']
start_urls=['https://product.suning.com/0070091633/10717510914.html?safp=d488778a.10038.resultsRblock.12&safc=prd.3.ssdln_502687_pro_pic01-1_0_0_10717510914_0070091633']
def parse(self, response):
pr=re.findall('"itemPrice":"(.*?)",',response.body.decode())
print(pr)

运行结果如下

以上就是主流电商网站的商品价格获取方法,希望对大家的学习工作有所帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/187017.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年10月1日 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【scrapy】scrapy爬取京东商品信息——以自营手机为例
http://blog.csdn.net/qqxx6661/article/details/56017386
蛮三刀酱
2019/03/26
2.6K0
【scrapy】scrapy爬取京东商品信息——以自营手机为例
京东商品和评论的分布式爬虫
众所周知,爬虫比较难爬取的就是动态生成的网页,因为需要解析 JS, 其中比较典型的 例子就是淘宝,天猫,京东,QQ 空间等。所以在我爬取京东网站的时候,首先需要确 定的就是爬取策略。因为我想要爬取的是商品的信息以及相应的评论,并没有爬取特定 的商品的需求。所以在分析京东的网页的 url 的时候, 决定使用类似全站爬取的策略。 分析如图:
机器学习AI算法工程
2019/10/28
1.6K0
京东商品和评论的分布式爬虫
GitHub Action 监测京东商品价格
新建一个 GitHub 仓库,创建 main.py , notify.py 和 .github/workflows/auto.yml 三个文件,内容如下:
OhhhCKY
2022/12/28
9360
scrapy分布式浅谈+京东示例
Github:https://github.com/xbhog/scrapyRedis
xbhog
2020/12/10
6620
scrapy分布式浅谈+京东示例
爬虫 | Python学习之Scrapy-Redis实战京东图书
scrapy-Redis就是结合了分布式数据库redis,重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
猴哥yuri
2019/07/30
4400
双11套路:先升再降?看我用Python记录商品每天价格!
一年一度的双十一就快到了,各种砍价、盖楼、挖现金的口令将在未来一个月内充斥朋友圈、微信群中。玩过多次双十一活动的小编表示一顿操作猛如虎,一看结果2毛5。浪费时间不说而且未必得到真正的优惠,双十一电商的“明降暗升”已经是默认的潜规则了。打破这种规则很简单,可以用 Python 写一个定时监控商品价格的小工具。
龙哥
2020/11/19
7900
双11套路:先升再降?看我用Python记录商品每天价格!
Python爬取京东笔记本电脑,来看看那个牌子最棒
二、知识要求三、过程分析1.观察主页面和每个电脑界面的网址2.寻找每个电脑的id3.找到存放电脑的价格和评论数的信息4.爬取信息的思路四、urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化实战五、可视化结果1.运行结果2.可视化结果
小小詹同学
2019/09/26
1.4K0
Python爬取京东笔记本电脑,来看看那个牌子最棒
Java实现爬取京东手机数据
最近看了某马的Java爬虫视频,看完后自己上手操作了下,基本达到了爬数据的要求,HTML页面源码也刚好复习了下,之前发布两篇关于简单爬虫的文章,也刚好用得上。项目没什么太难的地方,就是考验你对HTML源码的解析,层层解析,同标签选择器seletor进行元素筛选,再结合HttpCLient技术,成功把手机数据爬取下来。
呆呆
2021/10/08
1.1K0
Java爬虫及分布式部署
基于HttpClient爬虫 环境 IDEA 2017.2 JDK 1.8 httpclient 4.5.4 maven 3.5.0 基本步骤 1.在maven中导入httpClient依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5.4</version> </de
待你如初见
2018/09/29
1.4K2
Scrapy_Study02
当当网的爬取也是比较容易, 但是这里需要结合scrapy-redis来实现分布式爬取数据
Echo_Wish
2023/11/30
2130
Scrapy_Study02
使用scrapy爬取suning
# -*- coding: utf-8 -*- import scrapy from copy import deepcopy class SuSpider(scrapy.Spider):
py3study
2020/01/16
5200
爬取京东手机信息
学习了HttpClient和Jsoup,就掌握了如何抓取数据和如何解析数据,接下来,我们做一个小练习,把京东的手机数据抓取下来。
Remember_Ray
2020/09/15
1.3K0
爬取京东手机信息
免费IP地址查询API接口
快递查询 http://www.kuaidi100.com/query?type=quanfengkuaidi&postid=390011492112 (PS:快递公司编码:申通"shentong"
咻一咻
2020/05/29
12.2K0
干货 | 一些常用的api接口
在工作或是学习中我们经常会使用到一些api,这些api是该网站用于查询或者是测试的接口。有了它们,我们甚至不需要登录该网站就能完成自己所想的目标。今天我就将一些常用的api进行总结,涵盖各个方面,大家需要的时候翻阅使用就可以了。
啃饼思录
2019/05/14
2.4K0
详解4种类型的爬虫技术
聚焦网络爬虫(focused crawler)也就是主题网络爬虫。聚焦爬虫技术增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性。
Python进阶者
2021/03/29
2.5K0
详解4种类型的爬虫技术
Scrapy_Study01
对于以上四步而言,也就是各个组件,它们之间没有直接的联系,全部都由scrapy引擎来连接传递数据。引擎由scrapy框架已经实现,而需要手动实现一般是spider爬虫和pipeline管道,对于复杂的爬虫项目可以手写downloader和spider 的中间件来满足更复杂的业务需求。
Echo_Wish
2023/11/30
3280
Scrapy_Study01
Python 基于 selenium 实现不同商城的商品价格差异分析系统
selenium 原本是一款自动化测试工具,因其出色的页面数据解析和用户行为模拟能力而常用于爬虫程序中,致使爬虫程序的爬取过程更简单、快捷。
一枚大果壳
2022/08/23
1.9K0
Python 基于 selenium 实现不同商城的商品价格差异分析系统
JAVA网络爬爬学习之HttpClient+Jsoup
如果每次请求都要创建HttpClient,会有频繁创建和销毁的问题,可以使用连接池来解决这个问题。
大忽悠爱学习
2021/12/17
1.3K0
JAVA网络爬爬学习之HttpClient+Jsoup
电商网站电商监控:动态价格数据的实时抓取案例
在当前电商竞争激烈的背景下,商品价格与用户评价变化对商家与消费者都至关重要。如何实时抓取淘宝等大型电商平台上的商品信息,并对价格波动趋势进行监控和分析,成为数据分析与商业决策的重要依据。本案例以爬虫技术为核心,通过代理IP技术(参照爬虫代理)实现数据的稳定采集,同时结合模拟真实用户请求。接下来,我们将详细介绍关键数据分析、代码演变模式以及制作「技术关系图谱」的思路。
jackcode
2025/03/13
3.1K1
电商网站电商监控:动态价格数据的实时抓取案例
javaweb-爬虫-1-62
使用maven工程 导入需要的jar坐标。 项目工程:https://github.com/Jonekaka/javaweb-crawler-1-62
全栈程序员站长
2021/05/19
1.3K0
相关推荐
【scrapy】scrapy爬取京东商品信息——以自营手机为例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验