文章/答案/技术大牛

发布

问如何总结pandas数据帧
EN

Stack Overflow用户

提问于 2020-10-16 19:31:43

回答 2查看 302关注 0票数 2

我有一个pandas数据框，其中包含大约20，xxx条公交车上车数据记录。数据集包含一个cardNumber字段，该字段对于每个乘客都是唯一的。有一个标识注册类型的type字段。有一个routeName列指定登机发生在哪条路线上，最后一个Date列标识登机发生的时间。我在下面提供了一个模拟数据框架。

df = pd.DataFrame(
    {'cardNumber': ['999', '999', '999', '999', '901', '901', '888', '888'],
     'type': ['trip_pass', 'transfer', 'trip_pass', 'transfer', 'stored_value', 'transfer', 'trip_pass', 
              'trip_pass'],
     'routeName': ['1', '2', '2', '1', '20', '3', '4', '4'],
     'Date': ['2020-08-01 06:18:56 -04:00', '2020-08-01 06:46:12 -04:00', '2020-08-01 17:13:51 -04:00',
              '2020-08-01 17:47:32 -04:00', '2020-08-10 15:23:16 -04:00', '2020-08-10 15:44:45 -04:00',
              '2020-08-31 06:54:09 -04:00', '2020-08-31 16:23:41 -04:00']}
)
df['Date'] = pd.to_datetime(df['Date'])

我想要做的是总结传输活动。从路由1到路由2或从路由2到路由1的平均传输次数。在数据集中有11个不同的路由可以进行传输。

我希望输出看起来像这样(请注意，下面的输出不是从上面提供的示例生成的)：

From   |   To     |   Avg. Daily
----------------------------------
 1     |   2      |     45.7
 1     |   3      |     22.6
 20    |   1      |     12.2

python

pandas

dataframe

回答 2

Stack Overflow用户

发布于 2020-10-16 21:16:44

以下代码适用于您提供的块数据。如果它在你的实际数据中不起作用，请让我知道。可能有更好的方法来做到这一点，但我认为这是一个很好的起点。

这里的总体思路是按乘客分组，以确定路线。然后，由于您需要日平均值，因此需要先按日期分组，然后再按目的地分组，以便计算日平均值。

# Define a function to get routes' relationship (origin vs destination)
def get_routes(x):
    if 'transfer' not in x.type.tolist(): # if no 'transfer' type in group, leave it as 0 (we'll remove them afterwards)
        return 0
    x = x[x.type == 'transfer'] # select target type
    date = df[df.cardNumber=='999'].Date.dt.strftime('%m/%d/%Y').unique()
    if date.size == 1: # if there is more than one date by passenger, you'll need to change this code
        date = date[0]
    else:
        raise Exception("There are more than one date per passenger, please adapt your code.")
    s_from = x.routeName[x.Date.idxmin()] # get route from the first date
    s_to = x.routeName[x.Date.idxmax()] # get route from the last date
    return date, s_from, s_to

# Define a function to get the routes' daily average
def get_daily_avg(date_group):
    daily_avg = (
        date_group.groupby(['From', 'To'], as_index=False) # group the day by routes
        .apply(lambda route: route.shape[0] / date_group.shape[0]) # divide the total of trips of that route by the total trips of that day
    )
    return daily_avg

# Get route's relationship
routes_series = df.groupby('cardNumber').apply(get_routes) # retrive routes per passenger
routes_series = routes_series[routes_series!=0] # remove groups without the target type

# Create a named dataframe from the series output
routes_df = pd.DataFrame(routes_series.tolist(), columns=['Date', 'From', 'To'])

# Create dataframe, perform filter and calculations
daily_routes_df = (
    routes_df.query('From != To') # remove routes with same destination as the origin
    .groupby('Date').apply(get_daily_avg) # calculate the mean per date
    .rename(columns={None: 'Avg. Daily'}) # set name to previous output
    .drop(['From','To'], axis = 1) # drop out redundant info since there's such info at the index
    .reset_index() # remove MultiIndex to get a tidy dataframe
)

# Visualize results
print(daily_routes_df)

输出：

         Date From To  Avg. Daily
0  08/01/2020    2  1         1.0

这里，平均值是1，因为每组只有一个计数。请注意，只有"transfer“类型被考虑在内。没有它的，或者没有改变路线的，被进一步删除。

票数 1

Stack Overflow用户

发布于 2020-10-17 11:47:40

如果我的问题是正确的，那么您希望从您的事件中获得行程的起点和终点，并且第一个事件与起点(路线名称)相对应，然后计算数据集中具有相同起点和终点的票证数量。

如果是这样的话，您可以这样做

# srot the dataframe so you can use first/last
df_sorted= df.sort_values(['cardNumber', 'Date']).reset_index(drop=True)

# calculate the counts do the counts, but only
# from the defined types
indexer_trip_points= df_sorted['type'].isin(['transfer'])
df_from_to= df_sorted[indexer_trip_points].groupby('cardNumber').agg(
                  start_date=('Date', 'first'),
                  trip_start=('routeName', 'first'), 
                  trip_end=('routeName', 'last'),
)
                      
df_from_to['start_date']= df_from_to['start_date'].dt.date
df_counts= df_from_to.groupby(['trip_start', 'trip_end', 'start_date']).agg(
    count=('trip_start', 'count')
)
df_counts.reset_index(drop=False, inplace=True)
df_counts.groupby(['trip_start', 'trip_end']).agg(
    avg=('count', 'mean')
)

这将导致：

                     avg
trip_start trip_end     
2          1           1
3          3           1

正如您所注意到的，最后一个条目具有相同的start- As can。因此，您可能需要过滤掉还没有完整数据的行程。例如，如果在您的情况下，路由永远不会以与开始时相同的routeName结束，您可以通过比较两列来简单地过滤它们。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64395285

复制

Python函数参数传递：传值还是传引用

python 编程算法

猜猜结果应该是什么？按照C++语言的思维，如果Python函数参数的传递是传值的话，结果应该是[0, 1]，如果是传引用的话，结果应该是[‘T’, ‘Z’, ‘Y’]。可是实际结果是：[0, 1, 100]。所以，Python函数参数的传递既不是所谓的传值也不是传引用。

卡尔曼和玻尔兹曼谁曼

2019/01/22

3.4K0

Python函数签名的参数设计以及=None的重要性

python add 函数开发设计

位置参数（Positional Arguments）：最常见的参数类型，按照位置传递。

运维开发王义杰

2023/09/19

5650

iframe怎么将参数传递给vue 父组件

data iframe message 事件数据

在子页面的iframe中想将参数传递给Vue父组件，可以使用postMessage()方法将数据发送给父窗口。父组件可以通过监听message事件来接收并处理这些数据。

王小婷

2023/08/10

1.6K0

如何将多个参数传递给 React 中的 onChange？

react

在 React 中，一些 HTML 元素，比如 input 和 textarea，具有 onChange 事件。onChange 事件是一个非常有用、非常常见的事件，用于捕获输入框中的文本变化。有时候，我们需要将多个参数同时传递给 onChange 事件处理函数，在本文中，我们将介绍如何实现这一目标。

网络技术联盟站

2023/06/07

3.2K0

python中如何定义函数的传入参数是option的_如何将几个参数列表传递给@ click.option…

python jquery 日志服务

如果通过使用自定义选项类将列表格式化为python列表的字符串文字,则可以强制单击以获取多个列表参数：

Java架构师必看

2021/08/23

8.3K0

LoadRunner参数传递给参数

action 测试函数

需求：使用随机函数时，需要参数化某个参数，并且后面的步骤需要使用这个参数。方法： 1 lr_save_string 该函数主要是将程序中的常量或变量保存为lr中的参数 2 lr_eval_string 从参数中取得对应的值，并且转换为一个字符串测试：在action里写： 1 lr_output_message("*****参数:%s********",lr_save_string(lr_eval_string("{NewParam}"),"name")); 2 lr_output_messag

全栈测试开发日记

2023/02/18

3K0

Python的is None vs ==None

https 网络安全 python 腾讯云测试服务

想要弄清楚is None和==None的区别，首先要清楚==和is的区别。==和is的区别如下：

Tyan

2020/05/26

2.3K0

React篇(029)-如何将参数传递给事件处理程序或回调函数?

bind 函数

你可以使用箭头函数来包装事件处理器并传递参数： <button onClick={() => this.handleClick(id)} /> 这相当于调用 .bind: <button onClick={this.handleClick.bind(this, id)} />

齐丶先丶森

2022/05/12

4.1K0

为什么Python中的None is None is None == True

python

最近在StackOverflow上看到了一个问题，为什么Python中的None is None is None返回True，看到大家的讨论后对Python中的比较运算有了更深的认识。

杜逸先

2018/06/28

2.4K0

Python学习笔记之函数参数传递传值还是传引用

编程算法 python c++

在学完Python函数那一章节时，很自然的的就会想到Python中函数传参时传值呢？还是传引用？或者都不是？

Jetpropelledsnake21

2019/02/15

1.9K0

Python函数定义/返回值/参数/传参

编程算法

1. 函数　　函数是对功能的封装　　语法: 　　　　def 函数名(形参列表): 　　　　　　函数体(代码块, return) 　　　　调用: 　　　　　　函数名(实参列表) 2. 返回值　　return : 在函数执行的时候. 如果遇到return. 直接返回　　1.如果函数什么都不写, 不写return, 没有返回值. 得到的是None 　　2.在函数中间或者末尾写return, 返回的是None 　　3.在函数中写return 值. 返回一个值. 　　4.在函数中可以返回多个返回值, return 值1, 值2, 值3...., 接收的是元组

py3study

2020/01/15

1.2K0

Go 函数可变参数传参

众所周知，Go语言是严格类型语言，而开发的时候又遇到传入参数不定的情况，怎么办？golang 为我们提供了接入多值参数用于解决这个问题。

IT工作者

2022/06/30

1.7K0

Python - 3.8 新特性之仅位置参数 & 仅关键字参数

python

Python 函数：https://www.cnblogs.com/poloyy/p/15092393.html

小菠萝测试笔记

2021/08/10

9200

Python 函数的传参

add

函数的传参必传参数函数中定义的参数没有默认值,在调用函数时如果不传入则报错在定义函数的时候,参数后边没有等号与默认值错误:def add (a=1, b=1) x 在定义函数的时候,没有默认值且必须在函数执行的时候传递进去的参数,且顺序与参数顺序相同,就是必传参数默认参数(非必传参数) 在定义函数的时候,定义的参数含有默认值,通过赋值语句给他设一个默认的值如果默认参数在调用函数的时候给予了新的值,函数将优先使用后传入的值进行工作不确定参数-可变参数没有固定的参数名和数量(不知道要传的参数名具

Zkeq

2022/05/18

1.2K0

软件测试|Python函数参数之必传参数、默认参数、可变参数、关键字参数的详细使用

自动化测试 python

在Python中，函数参数是定义在函数头部的变量，用于接收传递给函数的数据。Python函数参数有四种类型：必传参数、默认参数、可变参数和关键字参数。每种类型都有不同的使用方式和适用场景。本文将详细介绍这四种函数参数的使用方法。

霍格沃兹测试开发Muller老师

2023/10/13

6470

Vue 中，如何将函数作为 props 传递给组件

vue.js react 编程算法 https 网络安全

作者：Michael Thiessen 译者：前端小智来源：medium 点赞再看，养成习惯本文 GitHub https://github.com/qq44924588... 上已经收录，更多往

前端小智@大迁世界

2020/05/18

8.6K0

函数参数的传值和传指针有什么区别？

c 语言

我们可能听过C语言中的传值和传指针，在其他语言中，也有传引用一说，那么他们到底有什么区别呢？如果你还不能准确地分辨，就该好好了解一下了。

编程珠玑

2019/07/12

3.2K0

go语言中函数参数传值还是传引用的思考

c++go

算起来这些年大大小小也用过一些不同编程语言，但平时开发还是以C++为主，得益于C++精确的语义控制，我可以在编写代码的时候精准地控制每一行代码的行为，以达到预期的目的。但是C++的这种强大的语义控制，就带来了极多的概念和极大的学习成本，几乎逼着使用者不得不去了解该语言中的所有细节行为，以防出现意料之外的情况。新时代的语言如golang等，较之C++就好比美图秀秀对比photoshop（绝非贬义），同样都提供了修图的功能，但是前者屏蔽了诸多细节，更傻瓜式且易于使用，一样能达到好的效果；而后者则提供了更多专业的编辑手段，能够满足更精细化更底层的需求，但是随之而来的就是巨大的学习成本。显然两者各有优劣，但是对当今快速发展的互联网来说，以golang为代表的新时代语言更加能够适应敏捷开发的模式，比较起来，C++这些前辈还是“太重”了。

tyriqchen

2019/04/22

4.8K0

Python 函数为什么会默认返回 None？

python 腾讯云开发者社区

Python 有一项默认的做法，很多编程语言都没有——它的所有函数都会有一个返回值，不管你有没有写 return 语句。

Python猫

2020/08/18

2.2K0

Python的函数参数

c 语言

形参（如上面的x, y）仅在定义的函数中有效，函数调用结束后，不能再使用该形参变量。在调用函数时，该函数中的形参才会被分配内存，并赋值；函数调用结束，分配的内存空间也随即释放~

py3study

2020/01/07

1.2K0

相似问题

如何向此异步函数添加超时

234

如何向此限制函数添加新参数？

如何向此javascript函数添加过渡

如何向此添加参数传递

224

javascript向函数参数添加值

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问如何总结pandas数据帧
EN

回答 2

Stack Overflow用户

Stack Overflow用户

如何向此异步函数添加超时

如何向此限制函数添加新参数？

如何向此javascript函数添加过渡

如何向此添加参数传递

javascript向函数参数添加值

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何总结pandas数据帧EN

回答 2

Stack Overflow用户

Stack Overflow用户

如何向此异步函数添加超时

如何向此限制函数添加新参数？

如何向此javascript函数添加过渡

如何向此添加参数传递

javascript向函数参数添加值

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何总结pandas数据帧
EN