0、大钱没有,看看漏能不能有。
1、知乎上、快递单加了一些京东、天猫的捡漏群
2、采集了3天,3530条数据
3、看词云
4、把商品内容识别为商品类型
from DrissionPage import MixPage
import pandas
from DataRecorder import Recorder # 记录器
from time import sleep
from pprint import pprint
from paddlenlp import Taskflow
#schema = ['金额', '商品名称', '品牌', '规格', '价格','商品类型','折扣'] # Define the schema for entity extraction
#ie = Taskflow('information_extraction', schema=schema)
商品类型表 = pandas.read_excel(r'C:\Users\Administrator\Desktop\商品类型.xlsx',sheet_name='Sheet1',header=0)
#p = MixPage('s')
采集表 = pandas.read_excel(r'C:\Users\Administrator\Desktop\2022.5.20.xlsx',sheet_name='数据清洗',header=None) #,header=0, nrows=200
r = Recorder('2022.5.20-商品数据清洗-2.xlsx', 1)
for 行 in 采集表.values:
# sleep(2)
# print('-'*80)
# print(行[2])
本商品类型 = ''
for 商品类型 in 商品类型表.values:
# print(商品类型[0])
if 商品类型[0] in 行[2]:
# print(行[2],'--------------------',商品类型[0])
本商品类型 = 商品类型[0]
# r = Recorder('2022.5.20-商品数据清洗.xlsx', 50) # 50表示每50条记录写入一次文件
r.add_data((行[0],行[1],行[2],行[3],本商品类型))
5、都有哪些优惠的商品?
6、0.01元
7、下一步,手动计算价格?
8、清洗品牌、商品名称、金额
from DrissionPage import MixPage
import pandas
from DataRecorder import Recorder # 记录器
from time import sleep
from pprint import pprint
from paddlenlp import Taskflow
schema = ['金额', '商品名称', '品牌', '规格', '价格','商品类型','折扣'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
#p = MixPage('s')
采集表 = pandas.read_excel(r'C:\Users\Administrator\Desktop\电商大数据2022.5.20\2022.5.20.xlsx',sheet_name='数据清洗',header=0, nrows=3) #
for 行 in 采集表.values:
# sleep(2)
print('-'*80)
print(行[2])
pprint(ie(行[2]))
9、