前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python爬取淘宝商品信息(全网商品详情数据,商品列表,商品销量,商品优惠券等)

Python爬取淘宝商品信息(全网商品详情数据,商品列表,商品销量,商品优惠券等)

原创
作者头像
wx19970108018
发布2023-04-26 14:21:16
5.1K0
发布2023-04-26 14:21:16
举报
文章被收录于专栏:京东电商平台API接口开发系列

一、淘宝商品信息爬取 这篇文章主要是讲解如何爬取数据,数据的分析放在下一篇。之所以分开是因为爬取淘宝遇到的问题太多,而猪哥又打算详细再详细的为大家讲解如何爬取,所以考虑篇幅及同学吸收率方面就分两篇讲解吧!宗旨还会不变:让小白也能看得懂! 本次爬取是调用淘宝 pc 端搜索接口,对返回的数据进行提取、然后保存为 excel 文件!

二、爬虫单页数据

1. 查找加载数据 URL

我们在网页中打开淘宝网,然后登录,打开 chrome 的调试窗口,点击 network,然后勾选上 Preserve log,在搜索框中输入你想要搜索的商品名称

这是第一页的请求,我们查看了数据发现:返回的商品信息数据插入到了网页里面,而不是直接返回的纯 json 数据

直接返回一个链接而 不是 json 数据,这个链接是什么鬼?点一下。。。

铛铛铛,滑块出现,有同学会问:** 用 requests  能搞定淘宝滑块吗?咨询过几个爬虫大佬,滑块的原理是收集响应时间,拖拽速度,时间,位置,轨迹,重试次数等然后判断是否是人工滑动。而且还经常变算法,讨论出一个封装接口的方式解决滑块,接口代码如下:

1.请求方式:HTTPS  GET  POST  ;请求链接:http://c0b.cc/30G0f2

2.公共参数:

名称

类型

必须

描述

key

String

调用key(必须以GET方式拼接在URL中)

secret

String

调用密钥 (复制v:Taobaoapi2014 )

api_name

String

API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]

cache

String

[yes,no]默认yes,将调用缓存的数据,速度比较快

result_type

String

[json,jsonu,xml,serialize,var_export]返回数据格式,默认为json,jsonu输出的内容中文可以直接阅读

lang

String

[cn,en,ru]翻译语言,默认cn简体中文

version

String

API版本

3.请求代码示例,支持高并发请求(CURL、PHP 、PHPsdk 、Java 、C# 、Python...)

代码语言:javascript
复制
# coding:utf-8
"""
Compatible for python2.x and python3.x
requirement: pip install requests
"""
from __future__ import print_function
import requests
# 请求示例 url 默认请求参数已经做URL编码
url = "https://api-gw.19970108018.cn/taobao/item_get/?key=<您自己的apiKey>&secret=<您自己的apiSecret>&num_iid=652874751412&is_promotion=1"
headers = {
    "Accept-Encoding": "gzip",
    "Connection": "close"
}
if __name__ == "__main__":
    r = requests.get(url, headers=headers)
    json_obj = r.json()
    print(json_obj)

4.响应示例

5.代码报错说明

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档