我正试图在csv数据集中记录2.5年期间的月度销售总额。
我从SKU事务历史的csv文件开始,该文件按日期(MM/DD/YYYY)排序,状态不同,指示项目是出售、存档(引用、不出售)还是打开。我设法弄清楚了如何只显示“售出”行,但无法计算出如何显示每月总销售量。这是我到目前为止所拥有的。
#Import Libraries
from pandas import DataFrame, read_csv
import pandas as pd
#Set Variables
fields = ['Date', 'Qty', 'Status']
file = r'kp4.csv'
df = pd.read_csv(file, usecols=fields)
# Filters Dataset to only display "Sold" items in Status column
data = (df[df['Status'] == "Sold"])
print (data)
输出:
Date Qty Status
4 2/21/2018 5 Sold
4 2/21/2018 5 Sold
11 2/16/2018 34 Sold
14 3/16/2018 1 Sold
我的理想输出应该如下所示:
Date Qty Status
4 02/2018 39 Sold
5 03/2018 1 Sold
我尝试过groupy,操纵年份格式,为其他教程分配索引,但是只得到了错误。如果有人能为我指明正确的方向,我们将不胜感激。
谢谢!
发布于 2018-02-22 19:02:54
IIUC
df.Date=pd.to_datetime(df.Date)
df=df.drop_duplicates()
df.groupby(df.Date.dt.strftime('%m/%Y')).agg({'Qty':'sum','Status':'first'})
Out[157]:
Qty Status
Date
02/2018 39 Sold
03/2018 1 Sold
https://stackoverflow.com/questions/48940313
复制相似问题