前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >微信的商城捡漏群有没有漏2022.5.20

微信的商城捡漏群有没有漏2022.5.20

作者头像
用户7138673
发布2022-09-22 11:27:50
6170
发布2022-09-22 11:27:50
举报
文章被收录于专栏:大大的小数据

0、大钱没有,看看漏能不能有。

1、知乎上、快递单加了一些京东、天猫的捡漏群

2、采集了3天,3530条数据

3、看词云

4、把商品内容识别为商品类型

代码语言:javascript
复制
from DrissionPage import MixPage
import pandas
from DataRecorder import Recorder  # 记录器
from time import sleep
from pprint import pprint
from paddlenlp import Taskflow

#schema = ['金额', '商品名称', '品牌', '规格', '价格','商品类型','折扣'] # Define the schema for entity extraction
#ie = Taskflow('information_extraction', schema=schema)

商品类型表 = pandas.read_excel(r'C:\Users\Administrator\Desktop\商品类型.xlsx',sheet_name='Sheet1',header=0)
#p = MixPage('s')
采集表 = pandas.read_excel(r'C:\Users\Administrator\Desktop\2022.5.20.xlsx',sheet_name='数据清洗',header=None)  #,header=0, nrows=200
r = Recorder('2022.5.20-商品数据清洗-2.xlsx', 1)
for 行 in 采集表.values:
#    sleep(2)
#    print('-'*80)
#    print(行[2])
    本商品类型 = ''
    for 商品类型 in 商品类型表.values:
#        print(商品类型[0])
        if 商品类型[0] in 行[2]:
#            print(行[2],'--------------------',商品类型[0])
            本商品类型 = 商品类型[0]
#    r = Recorder('2022.5.20-商品数据清洗.xlsx', 50)  # 50表示每50条记录写入一次文件
    r.add_data((行[0],行[1],行[2],行[3],本商品类型))

5、都有哪些优惠的商品?

6、0.01元

7、下一步,手动计算价格?

8、清洗品牌、商品名称、金额

代码语言:javascript
复制
from DrissionPage import MixPage
import pandas
from DataRecorder import Recorder  # 记录器
from time import sleep
from pprint import pprint
from paddlenlp import Taskflow

schema = ['金额', '商品名称', '品牌', '规格', '价格','商品类型','折扣'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)


#p = MixPage('s')
采集表 = pandas.read_excel(r'C:\Users\Administrator\Desktop\电商大数据2022.5.20\2022.5.20.xlsx',sheet_name='数据清洗',header=0, nrows=3)  #
for 行 in 采集表.values:
#    sleep(2)
    print('-'*80)
    print(行[2])
    pprint(ie(行[2]))

9、

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大大的小数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
内容识别
内容识别(Content Recognition,CR)是腾讯云数据万象推出的对图片内容进行识别、理解的服务,集成腾讯云 AI 的多种强大功能,对存储在腾讯云对象存储 COS 的数据提供图片标签、图片修复、二维码识别、语音识别、质量评估等增值服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档