首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在Stata中,如何创建组,使每个组具有相同的另一个变量的总和?

在Stata中,你可以使用egen命令结合sum()函数来创建一个新的分组变量,使得每个组中的另一个变量的总和相同。以下是具体步骤:

步骤 1: 准备数据

假设你有一个数据集,其中包含两个变量:group_var(用于分组的变量)和value_var(需要求和的变量)。

代码语言:txt
复制
* 示例数据
clear
input group_var value_var
1 10
1 20
2 30
2 40
3 50
end

步骤 2: 计算每个组的总和

首先,计算每个组的总和。

代码语言:txt
复制
* 计算每个组的总和
egen group_sum = sum(value_var), by(group_var)

步骤 3: 创建新的分组变量

接下来,创建一个新的分组变量,使得每个组中的value_var的总和相同。你可以使用egen命令的group()函数来实现这一点。

代码语言:txt
复制
* 创建新的分组变量
egen new_group = group(group_var) if group_sum == max(group_sum)

步骤 4: 验证结果

最后,验证新的分组变量是否满足条件。

代码语言:txt
复制
* 验证结果
list group_var value_var group_sum new_group

完整代码示例

代码语言:txt
复制
* 示例数据
clear
input group_var value_var
1 10
1 20
2 30
2 40
3 50
end

* 计算每个组的总和
egen group_sum = sum(value_var), by(group_var)

* 创建新的分组变量
egen new_group = group(group_var) if group_sum == max(group_sum)

* 验证结果
list group_var value_var group_sum new_group

解释

  1. 准备数据:创建一个包含分组变量和需要求和变量的数据集。
  2. 计算每个组的总和:使用egen命令计算每个组的总和。
  3. 创建新的分组变量:使用egen命令的group()函数创建一个新的分组变量,使得每个组中的value_var的总和相同。
  4. 验证结果:列出数据以验证新的分组变量是否满足条件。

参考链接

通过以上步骤,你可以在Stata中创建一个新的分组变量,使得每个组中的另一个变量的总和相同。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

正如Enders&Tofighi(2007)所详细讨论的那样,以总体平均值为中心,而不是以组平均值(每个组的平均值均以该组中受试者的得分为准)为中心,并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于: 这告诉我们,“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为: 同样,当我们在模型中添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。 ...在分层格式中, 可以看到它具有固定的斜率系数,并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码中的gen语句)。

1.5K10

SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据

正如Enders&Tofighi(2007)所详细讨论的那样,以总体平均值为中心,而不是以组平均值(每个组的平均值均以该组中受试者的得分为准)为中心,并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于: 这告诉我们,“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为: 同样,当我们在模型中添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。...在分层格式中, 可以看到它具有固定的斜率系数,并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码中的gen语句)。

2.5K10
  • 使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM

    正如Enders&Tofighi(2007)所详细讨论的那样,以总体平均值为中心,而不是以组平均值(每个组的平均值均以该组中受试者的得分为准)为中心,并不适合所有模型。 。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于: 这告诉我们,“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为: 同样,当我们在模型中添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。 ...在分层格式中, 可以看到它具有固定的斜率系数,并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码中的gen语句)。

    3.1K20

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

    正如Enders&Tofighi(2007)所详细讨论的那样,以总体平均值为中心,而不是以组平均值(每个组的平均值均以该组中受试者的得分为准)为中心,并不适合所有模型。。...唯一的区别是他们如何报告随机方差估计的精度。此模型的ICC等于: 这告诉我们,“流行”课程总变化的大约三分之一可以由每个学生所在的班级解释。...Mplus结果也显示出比以前的模型更大的差异。此模型的ICC为: 同样,当我们在模型中添加另一个学生级别的效果(包括随机斜率)时,ICC略有增加。 ...在分层格式中, 可以看到它具有固定的斜率系数,并且对于每个类j都是唯一的。该模型在教师的经验和学生水平的变量之间没有任何相互作用。...Stata结果 Stata无法自动识别变量之间的交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码中的gen语句)。

    1.8K20

    Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW|附代码数据

    p=10148 最近我们被客户要求撰写关于Stata中的治疗效果的研究报告,包括一些图形和统计输出。 今天的主题是Stata中的治疗效果 。 治疗效果估算器根据观察数据估算治疗对结果的因果关系。...我们在第一组括号中指定结果模型,并带有结果变量及其后的协变量。...在此示例中,结果变量为bweight,唯一的协变量为mage。 我们在第二组括号中指定处理模型(仅是处理变量)。在此示例中,我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...IPWRA使用IPW权重来估计校正后的回归系数,随后将其用于执行回归调整。 结局模型和治疗模型中的协变量不必相同,它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

    73420

    Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW

    p=10148 ---- 今天的主题是Stata中的治疗效果功能。 治疗效果估算器根据观察数据估算治疗对结果的因果关系。  ...在此示例中,结果变量为bweight,唯一的协变量为mage。 我们在第二组括号中指定处理模型(仅是处理变量)。在此示例中,我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...结果是下图替换了图1: 在图5中,较大的圆圈表示较大的权重。 要使用此IPW估算器估算POM,我们可以输入 第一组括号指定结果模型,在这种情况下,它只是结果变量。没有协变量。...IPWRA使用IPW权重来估计校正后的回归系数,随后将其用于执行回归调整。 结局模型和治疗模型中的协变量不必相同,它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

    1K00

    Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW

    p=10148 ---- 今天的主题是Stata中的治疗效果功能。 治疗效果估算器根据观察数据估算治疗对结果的因果关系。  ...在此示例中,结果变量为bweight,唯一的协变量为mage。 我们在第二组括号中指定处理模型(仅是处理变量)。在此示例中,我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...结果是下图替换了图1: 在图5中,较大的圆圈表示较大的权重。 要使用此IPW估算器估算POM,我们可以输入 第一组括号指定结果模型,在这种情况下,它只是结果变量。没有协变量。...IPWRA使用IPW权重来估计校正后的回归系数,随后将其用于执行回归调整。 结局模型和治疗模型中的协变量不必相同,它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

    1.4K10

    Stata与Python等效操作与调用

    只是另一个对象/变量,这种区别也使得在 Python 中进行 reshape 变得更加容易。...首先创建一个 DataFrame ,然后为每个索引列指定一个名称,为该列命名。...在这些情况下,给列起一个名字很有意义,这样就知道要处理的内容。long.unstack('time') 进行 reshape ,它使用索引 'time' 并创建一个新的它具有的每个唯一值的列。...请注意,这些列现在具有多个级别,就像以前的索引一样。这是标记索引和列的另一个理由。如果要访问这些列中的任何一列,则可以照常执行操作,使用元组在两个级别之间进行区分。...在 Stata 中,内存中的 “DataFrame” 始终具有观察行号,由 Stata 内置变量 _n 表示。

    10K51

    Day4:R语言课程(向量和因子取子集)

    我们使用的R中的函数将取决于我们引入的数据文件的类型(例如文本,Stata,SPSS,SAS,Excel等)以及该文件中的数据如何分开或分隔。下表列出了可用于从常见文件格式导入数据的函数。...但是,如果数据在文本文件中由不同的分隔符分隔,我们可以使用泛型read.table函数并将分隔符指定为函数中的参数。 基因组数据通常有一个metadata文件,其中包含有关数据集中每个样本的信息。...仍以age向量为例: age 想知道age向量中的每个元素是否大于50,可以使用: age > 50 返回的是具有与age相同长度的逻辑值的向量,其中TRUE和FALSE值指示向量中的每个元素是否大于...[1] FALSE FALSE FALSE TRUE TRUE TRUE 使用这些逻辑向量仅选择具有与逻辑向量中相同位置或索引处的TRUE值的向量中的元素。...(2) 因子 由于因子是特殊的向量,因此索引选择值的相同规则适用于因子。之前创建的expression因子的元素具有以下level:low,medium,high。

    5.6K21

    北大数据分析老鸟写给学弟们一封信

    关于实验 在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差 异。...为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性——在对照组中寻 找一个除了干预因素不同之外,其他因素与干预组样本相同的对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小的意义 在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么选择自变量和因变量,可以使R方达到80%以上?”...但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或 更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的大小没什么意义。...其他一些建议或忠告 用心思考变量间的因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系?

    1.7K40

    Pandas库常用方法、函数集合

    :数据透视表,类似excel中的透视表 cut:将一组数据分割成离散的区间,适合将数值进行分类 qcut:和cut作用一样,不过它是将数值等间距分割 crosstab:创建交叉表,用于计算两个或多个因子之间的频率...分组 聚合 转换 过滤 groupby:按照指定的列或多个列对数据进行分组 agg:对每个分组应用自定义的聚合函数 transform:对每个分组应用转换函数,返回与原始数据形状相同的结果 rank:...计算元素在每个分组中的排名 filter:根据分组的某些属性筛选数据 sum:计算分组的总和 mean:计算分组的平均值 median:计算分组的中位数 min和 max:计算分组的最小值和最大值 count...,用于展示具有多个特征的数据集中各个样本之间的关系 pandas.plotting.scatter_matrix:绘制散点矩阵图 pandas.plotting.table:绘制表格形式可视化图 日期时间...: 用于展开窗口的操作 at_time, between_time: 在特定时间进行选择 truncate: 截断时间序列

    31510

    北大数据分析老鸟写给学弟们一封信

    在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差异。...为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性——在对照组中寻找一个除了干预因素不同之外,其他因素与干预组样本相同的对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小的意义。 在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么选择自变量和因变量,可以使R方达到80%以上?”...但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的大小没什么意义。...用心思考变量间的因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系? 仔细选择自变量,不要遗漏重要变量,否则会造成内生性问题。

    1.6K100

    Stata广义矩量法GMM面板向量自回归PVAR模型选择、估计、Granger因果检验分析投资、收入和消费数据|附代码数据

    在本文中,我们简要概述了广义矩量法 (GMM) 框架中面板 VAR 模型的选择、估计和推理,并提供了一组 Stata 程序,我们使用国家纵向调查和投资、收入和消费数据。...2.面板向量自回归 我们考虑具有特定面板固定效应的阶数 -变量面板 VAR,由以下线性方程组表示: 其中, 是因变量的(1)向量; 是外生协变量的(1)向量; 以及 分别是因变量特定的固定效应和特异性误差的...假设 和 rank ,GMM 估计量是一致的。可以选择加权矩阵来最大化效率(Hansen,1982)。 方程组的联合估计使交叉方程假设检验变得简单明了。...基于选择标准,我们使用由 pvar 实现的 GMM 估计拟合具有与上述相同的一阶面板 VAR 模型。...在实践中,研究人员通常对面板 VAR 系统中每个内生变量的外生变化对其他变量的影响感兴趣。

    66010

    Stata广义矩量法GMM面板向量自回归 VAR模型选择、估计、Granger因果检验分析投资、收入和消费数据

    在本文中,我们简要概述了广义矩量法 (GMM) 框架中面板 VAR 模型的选择、估计和推理,并提供了一组 Stata 程序,我们使用国家纵向调查和投资、收入和消费数据。...2.面板向量自回归 我们考虑具有特定面板固定效应的阶数 -变量面板 VAR,由以下线性方程组表示: 其中, 是因变量的(1)向量; 是外生协变量的(1)向量; 以及 分别是因变量特定的固定效应和特异性误差的...假设 和 rank ,GMM 估计量是一致的。可以选择加权矩阵来最大化效率(Hansen,1982)。 方程组的联合估计使交叉方程假设检验变得简单明了。...基于选择标准,我们使用由 pvar 实现的 GMM 估计拟合具有与上述相同的一阶面板 VAR 模型。...在实践中,研究人员通常对面板 VAR 系统中每个内生变量的外生变化对其他变量的影响感兴趣。

    3.7K50

    北大老鸟三年数据分析深刻总结——致学弟学妹们

    关于实验 在随机实验中,样本被随机分成两组,一组经历处理条件(进入干预组),另一组接受控制条件(进入对照组),然后比较两组样本的效果指标均值是否有差异。...为了解决这个问题,可以运用统计或计量的方法对除干预因素外的其他可能的影响因素进行控制,或运用匹配的方法调整样本属性的不平衡性——在对照组中寻找一个除了干预因素不同之外,其他因素与干预组样本相同的对照样本与之配对...关于拟合优度、变量选择原则及估计值绝对大小的意义 在人人的“数据分析”小站中,某同学提出这样一个问题:“多元回归分析中,怎么选择自变量和因变量,可以使R方达到80%以上?”...但是,如果拟合优度(或类似拟合优度的指标)在20%、30%或更低时,回归系数只具有定性或定序上的意义,强调其绝对数值的大小没什么意义。...其他一些建议或忠告 用心思考变量间的因果关系:是A影响了B还是B影响了A?A、B之间是否真的有因果关系?是否存在C,使C既影响A又影响B,而A、B本身无直接关系?

    3.1K60

    Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW|附代码数据

    p=10148 最近我们被客户要求撰写关于Stata中的治疗效果的研究报告,包括一些图形和统计输出。 治疗效果估算器根据观察数据估算治疗对结果的因果关系。...我们在第一组括号中指定结果模型,并带有结果变量及其后的协变量。...在此示例中,结果变量为bweight,唯一的协变量为mage。 我们在第二组括号中指定处理模型(仅是处理变量)。在此示例中,我们仅指定处理变量mbsmoke。我们将在下一节中讨论协变量。...IPWRA使用IPW权重来估计校正后的回归系数,随后将其用于执行回归调整。 结局模型和治疗模型中的协变量不必相同,它们常常不是因为影响受试者选择治疗组的变量通常不同于与结果相关的变量。...因此,偏差校正项使AIPW估计器具有与IPWRA估计器相同的双重鲁棒性。 AIPW估计器的语法和输出与IPWRA估计器的语法和输出几乎相同。

    46000

    C#3.0新增功能07 查询表达式

    查询是什么及其作用是什么 查询是一组指令,描述要从给定数据源(或源)检索的数据以及返回的数据应具有的形状和组织。 查询与它生成的结果不同。 通常情况下,源数据按逻辑方式组织为相同类型的元素的序列。...具有最大或最小值的元素。 与某个条件匹配的第一个元素,或指定元素集中特定值的总和。...还可以使用 into 关键字,使 join 或 group 子句的结果可以充当相同查询表达式中的其他查询子句的源。 查询变量 在 LINQ 中,查询变量是存储查询而不是查询结果的任何变量。...而是通过迭代变量 testScore 返回。 scoreQuery 变量可以在另一个 foreach 循环中进行循环访问。 只要既没有修改它,也没有修改数据源,便会生成相同结果。...在源序列中的每个元素本身是集合或包含集合时,可使用其他 from 子句。 例如,假设具有 Country 对象的集合,其中每个对象都包含名为 Cities 的 City 对象集合。

    2.1K10
    领券