首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

实战|用pandas+PyQt5制作一款数据分组透视处理工具

执行效果 我们运行脚本打包后的 exe 可执行文件,设定相关参数后点击“数据处理并导出”即可等待处理~ 以下是29文件共1400余万行数据的处理结果,差不多用了10分钟合并并处理导出所需结果~ ?...In [1]: import os ...: ...: location = r'F:\数据处理工具\测试数据' ...: filenames = os.walk(location...\1.csv F:\数据处理工具\测试数据\2.csv F:\数据处理工具\测试数据\3.csv F:\数据处理工具\测试数据\4.csv F:\数据处理工具\测试数据\5.csv F:\数据处理工具\...测试数据\6.csv F:\数据处理工具\测试数据\7.csv F:\数据处理工具\测试数据\8.csv F:\数据处理工具\测试数据\9.csv ?...In [2]: df = pd.read_csv(r'F:\数据处理工具\测试数据\9.csv') In [3]: df.groupby('usernum').count() Out[3]:

1.6K21

pandas+PyQt5轻松制作数据处理工具

执行效果 我们运行脚本打包后的 exe 可执行文件,设定相关参数后点击“数据处理并导出”即可等待处理~ 以下是29文件共1400余万行数据的处理结果,差不多用了10分钟合并并处理导出所需结果~ ?...In [1]: import os ...: ...: location = r'F:\数据处理工具\测试数据' ...: filenames = os.walk(location...\1.csv F:\数据处理工具\测试数据\2.csv F:\数据处理工具\测试数据\3.csv F:\数据处理工具\测试数据\4.csv F:\数据处理工具\测试数据\5.csv F:\数据处理工具\...测试数据\6.csv F:\数据处理工具\测试数据\7.csv F:\数据处理工具\测试数据\8.csv F:\数据处理工具\测试数据\9.csv 2.2.根据文件类型进行文件读取 由于在实际操作过程中...In [2]: df = pd.read_csv(r'F:\数据处理工具\测试数据\9.csv') In [3]: df.groupby('usernum').count() Out[3]:

1.9K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    盘点一个Python自动化办公Excel数据处理的需求

    如何处理,保留计算后的值,类似下图 附上他自己的代码如下: 目前代码:import pandas as pd import os # 读取所有xlsx文件并逐个合并子表 folder_path = r'C...:/Users/mengxianqiao/merge_excel_files/测试数据' # 替换成实际的文件夹路径 all_data = {} # 遍历文件 for file_name in os.listdir...:/Users/mengxianqiao/merge_excel_files/测试数据/汇总.xlsx" # 替换成实际的输出文件路径 with pd.ExcelWriter(output_csv,..., sheet_name=sheet_name, index=False) print("数据已成功合并并保存到总表.xlsx。")...、【Python进阶者】都给了一个思路,如下图所示:读取的时候不读取表头,跳过前2行。这个方法可以,上次处理那个民评议表,跳过了前四行。 这就是直接跳过,然后手动加一行表头。

    11710

    Python对比VBA实现excel表格合并与拆分

    # 导入os库 import os # 修改当前目录为 测试数据所在目录 os.chdir(r'F:\微信公众号\表格合并与拆分\测试数据') # 查看当前目录下文件列表 os.listdir() ...\测试数据\huawei.xlsx    F:\微信公众号\表格合并与拆分\测试数据\oppo.xlsx    F:\微信公众号\表格合并与拆分\测试数据\vivo.xlsx # 导入pandas库...import pandas as pd print(path) F:\微信公众号\表格合并与拆分\测试数据\vivo.xlsx # 读取某个文件,并预览数据 df = pd.read_excel(...os.chdir(r'F:\微信公众号\表格合并与拆分\测试数据') # 新建一个空列表,用于存储表格数据 fileList = [] # 把文件夹下表格数据放在一个列表里 for fileName...'从第2行找到最后一行     For i =  To LastRow         '查找这个要拆分行,看它在不在字典里         TempStr = CStr(Sh.Cells(i, Col

    3.1K31

    Pandas实现分列功能(Pandas读书笔记1)

    我自己一行一行的数,数了四个小时,一共有57万多行! ? 如何按照K列镇区的非重复值拆分为独立文件呢! 方法一:勤劳小蜜蜂! ? 刚刚演示了普通劳动人民是如何按照某列拆分一列的!...基本上运行完代码后,打开目标文件夹就会发现会有源源不断的新文件生成!其实小编的电脑还是比较差的,台式机基本上打开文件夹就看到里面全是文件了!各位自己试试哦! 我把代码放到下面,简单做下解释!...import pandas as pd #导入pandas包 cf=open(r"D:\按照某列拆分文件测试.csv",encoding='gb18030',errors='ignore') #r...error代码代表略过有错误的行 df= pd.read_csv(cf) #读取文件 list_township = df['镇区'].drop_duplicates() #删除镇区重复项drop_duplicates...] #将镇区列等于镇区某个关键字的筛选出来赋值给save变量,中括号内是判断条件,df.loc[]代表将符合筛选条件的筛选出来 save.to_csv('D:/拆分后数据/'+ str(township

    3.6K40

    机器学习起步-数据收集及预处理常见的流程

    其中收集数据和预处理完整的步骤如下: 数据收集、数据可视化、数据清洗、特征工程、构建特征集和验证集、拆分训练集测试集和验证集这几个步骤,当然这几个步骤并不是完全按照流程操作,其中会相互交叉,或者往返操作...浏览量'],'r.'...可以使用dropna()这个API把出现了NaN的数据行删掉 df_ads = df_ads.dropna()#把出现了NaN的数据行删掉 还有其他数据清洗的方法,需要针对具体的项目和数据集进行处理。...比如: X=df_ads.drop['浏览量'],axis=1): Y=df_ads.浏览量 无监督学习不需要这样的步骤 6.拆分训练集、验证集和测试集合 从原数据集从列的维度纵向拆分成了特征集和标签集后...,还需要进一步从行的维度横向拆分。

    2.7K30

    数据清洗与管理之dplyr、tidyr

    本期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 | 第三讲 本期目录 0 二维数组行列引用 1 创建新变量 2 变量重新编码 3 变量重新命名 4...gather (excel透视表反向操作) 6.2 长数据转为宽数据:spread (excel透视表功能) 6.3 多列合并为一列:unit 6.4 将一列分离为多列:separat 正 文 先前已经讲过R语言生成测试数据...接下来就以鸢尾花测试数据集进行进一步的数据管理和筛选操作。...删除缺失值行:na.omit() > df <- matrix(c(1:5,NA,7:10),nrow=5) > df [,1] [,2] [1,] 1 NA [2,] 2...#取1:dim(mtcars_df)[1]行 mutate(mtcars_df, NO = 1:dim(mtcars_df)[1]) #数值重定义和赋值 #将Ozone列取负数赋值给new,然后Temp

    1.9K40

    Python办公自动化:破解WPS会员之文档拆分合并

    ") # 示例用法: input_pdf = r'input.pdf' # 或者文件夹路径 output_folder = 'output' # 按固定页数拆分,每25页拆分一次 split_pdf...' 为指定行范围拆分, 'regex' 为正则表达式拆分) :param lines_per_file: 每个拆分文件包含的行数(仅在 method='fixed' 时使用) :param...line_ranges: 行范围的列表,例如 [(1, 100), (101, 200)](仅在 method='ranges' 时使用)若end为None,则拆分到最后一行 :param output_folder...") # 示例用法: input_file = r'path/to/file.txt' # 或者文件夹路径 output_folder = 'output' # 按固定行数拆分,每500行拆分一次...:{output_docx}") # 示例用法: input_docx = r'input.docx' # 或者是单个Word文件路径 output_folder = r'output' # 按标题拆分

    8101

    教你用Python拆分表格并发送邮件

    小提示:python对空格敏感,不信你把writer.save和上一行对齐看看效果是什么样的。 ? (大表) ?...(拆分表) import pandas as pd import xlsxwriter import xlrd data = pd.read_excel(r"C:\Users\PycharmProjects...\拆分自动邮件发送\chaifen.xlsx", encoding='gbk') area_list = list(set(data['店铺'])) writer = pd.ExcelWriter(r"C...建一个附件和收件人的索引,用之前给文件命名的变量j ,索引到收件人'Rec'列中'店铺'列等于 j的行。 最后构建邮件发送的函数,包括收件人、抄送人、附件、正文等,从拆分到邮件整个过程不超过1分钟。...''' mail_item.Attachments.Add(r'C:\Users\PycharmProjects\拆分自动邮件发送'+f'\{str( j )} 拆分自动邮件发送.xlsx

    2K40

    AI应用实战课学习总结(5)回归分析预测实战

    消费日期 <= '2022-08-30')] # 构建仅含前3个月数据的数据集 df_sales_3m.reset_index(drop=True) # 重置索引 可以看到,数据从8.7万行到1.4万行了...() #输出标签集 :LTV值 Step3 拆分训练集 和 测试集 这里我们选择80%训练集,20%测试集: from sklearn.model_selection import train_test_split...train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7) #拆分训练集和测试集..., y_pred=y_test_preds)) 得到的R平方分数如下: 训练集上的R平方分数: 0.6187 测试集上的R平方分数: 0.4778 可以看出,它在训练集上的效果还不错,但在测试集上的分数差了一丢丢...线性回归 - 训练集上的R平方分数: 0.6187 线性回归 - 测试集上的R平方分数: 0.4778 决策树回归 - 训练集上的R平方分数: 1.0000 决策树回归 - 测试集上的R平方分数: 0.3481

    8810

    tidyverse:R语言中相当于python中pandas+matplotlib的存在

    出版有《R for Data Science》(中文版《R数据科学》),这本书详细介绍了tidyverse的使用方法。...,会自动添加列名 tibble,类型只能回收长度为1的输入 tibble,会懒加载参数,并按顺序运行 tibble,是tbl_df类型 tibble是data.frame的进化版,有如下优点:生成的数据框数据每列可以保持原来的数据格式...; 查看数据时,不再会一行显示不下(会自动隐藏一部分,自带head);有两种方式来创建tibble格式的数据: 1....#取1:dim(mtcars_df)[1]行 mutate(mtcars_df, NO = 1:dim(mtcars_df)[1]) #数值重定义和赋值 #将Ozone列取负数赋值给new,然后Temp...= FALSE, extra = “warn”, fill = “warn”, …) #data:为数据框 #col:需要被拆分的列 #into:新建的列名,为字符串向量 #sep:被拆分列的分隔符

    4.2K10

    用14行python代码解决粉丝填表问题~

    = pd.DataFrame(mydict) df 示例 df.iloc[0:2] 示例结果 本文只要通过切片索引取得区间列,iloc函数中还有其它操作,大家可以自行研究。...据于此,我们可以使用lioc函数快速取出合同信息数据中的35-161行数据: df = pd.read_excel(r"D:\数据.xlsx", header=1).iloc[35:161] 取出数据时需要把...函数的作用是取出一列中的唯一值,以前在拆分工作表中也说过,这里就不再演示。...(r"D:\模板.xlsx") ws = wb['内合同'] x = df[df['合同编号'] == o] 函数使用结果 填表并保存 把数据填入表格中并不难,但需要注意的是同个合同编号...= [i for i in x[title[i]]][p] # 命名 wb.save("{} {} {} {}.xlsx".format(o, t, b, c)) 运行代码即可得到各个合同编号相应的合同

    67630
    领券