在Python中,给定一个n x p矩阵,例如4 x 4,我如何返回一个4 x 2的矩阵,它简单地对矩阵的所有4行的前两列和后两列求平均?
例如,给定:
A= array([1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16])
返回一个矩阵,该矩阵的平均值为a:,0和a:,1,以及a:,2和a:,3的平均值。假设n的平均列数显然可以被n整除,我希望它适用于n x p的任意矩阵。
让我澄清一下:对于每一行,我想取前两列的平均值,然后取最后两列的平均值。因此它将是:
新矩阵1+2/ 2,3+4/2 <-行1,新矩阵5+6/ 2,7+8/2 <-行2,等等。
enter image description here 我有一个很大的数据集,对于依赖于另一列的一列,我必须取其平均值。例如。第一行平均值,然后当我转到第二行时,我想要第一行和第二行的平均值,依此类推。此外,我的列中有非整数,我只想取整数的平均值,我希望它跳过那些非整数,而不影响我的平均值。(包括这些行,但不包括在平均值中)。我正在考虑写一个for循环,但我感到困惑,不知道如何实现它。任何帮助都将不胜感激。 图为dataFrame的一部分。如您所见,第一列基于Complete、NotComplete (并且是每日合规性)。我正在导入一个Excel文件,并尝试对其进行修改,使complete
您将如何计算多列和多行的平均值?
到目前为止我的代码是:
SELECT b.id, r.id, b.name, r.business_id, (r.service + r.value + r.quality) / 3 AS average
FROM business b
LEFT JOIN rating r ON r.business_id = b.id
我想得到r.service、r.value和r.quality的平均值,并将business_id列组合起来。
所以我应该得到: bu
我想找出R中给定的一组不同长度的数的平均值。
我掌握的数据如下:
company_name marketcap date
A 100023 01-01-2000
A 100234 02-01-2000
A 108332 03-01-2000
A
.
.
A 112334 31-12-2000
B 24342 01-01-2000
B
我试图用正确的设计来计算多个项目的平均值,在我的例子中是啤酒。该网站的用户可以评论各种啤酒,并根据这些评论对所有啤酒进行评级(该啤酒的所有评论的平均值)。每个啤酒评论都有5个评分标准,这些标准被加权,然后计算成该特定评论的总体评分(由该用户)。
以下是当前的一些相关模型。我现在的想法是所有的啤酒评论都会出现在他们自己的表格中,就像你在下面看到的那样。
class Beer(models.Model):
name = models.CharField(max_length=200)
brewer = models.ForeignKey(Brewery)
style = m
我有一个类似如下的查询:
SELECT id, cat_id, avg_position, site, date
FROM X
WHERE site = 'com'
AND id = 18
AND date = DATE('2020-03-02')
当我运行查询时,我基本上希望看到每个id、cat_id和site的avg_position平均值。但不知何故,我得到了不同的avg_position值,即使所有其他列都是相同的。
似乎avg_position是按列分组的,而我没有选择它。
我遗漏了什么?获取avg_position平均值的方法是什么?
以下是avg_
我创建了一个查询来从多个列检索数据。但是,当使用AVG(*)平均值显示给定列的值时,函数只是复制和显示每一行中的数据。实际上,我希望表显示查询中的每一列,并在每一行中显示表平均值。
如果select语句中没有多个列,则可以查询表以显示给定列的真实平均值。我试过使用UNION和SELF联接来查询AVG(*)平均值,但没有结果。
CREATE TABLE INVOICE
(
INV_NUM NUMBER NOT NULL PRIMARY KEY,
CUST_NUM NUMBER NOT NULL REFERENCES CUSTOMER(CUST_NUM),
INV_DATE
我有一个非常大的数据文件(数以万计的行和列)的格式与此类似。
name x y gh_00hr_bio_rep1 gh_00hr_bio_rep2 gh_00hr_bio_rep3 gh_06hr_bio_rep1
gene1 x y 2 3 2 1
gene2 x y 5 7 6 2
我对每个基因的目标是找出每一组重复的平均值。
最后,我只想让平均值列标题为"00hr_bi
您好,我在Matlab中有一列值(PDS(:,39))。此列被过滤出各种情况,并且有两个单独的标志列(PDS(:,41 81)),它们要么是0代表有效行,要么是-1代表无效行。我取有效数据的平均值,如果平均值大于0,我想使这个值无效,并再次取平均值,直到平均值低于某个值(在本例中为0.2)。下面是我的代码:
% identify the VALID values
U1 = (PDS(:,81)==0);
F1 = (PDS(:,41)==0);
% only calculate using the valid elements
shearave = mean(PDS(U1&F1,39
如何根据S列中的状态获取G列中的平均贷款额?
如何指定我想要列平均值的州?
这是我现在的代码。
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.preprocessing import Imputer
import numpy as np
data = pd.read_csv('Loan_data.csv')
loan = data.iloc[:,6:7].values
state =data.iloc[:,-6]
我是Spark和Scala的新手,正在尝试理解什么是操作从csv加载的表的最佳方法。假设我有csv格式的要素数据集,并且需要按列归一化值。
我从下面的代码开始
val rdd=sc.textFile("test.csv").map(_.split(","))
textFile按行对数据进行切片。如何将所有列值导入reducer以计算平均值、计数、最大值、最小值和归一化值?如何生成具有列索引键的元组?谢谢