首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在不破坏数据的情况下在Stata中重新编码分类变量的级别

在Stata中重新编码分类变量的级别是通过使用recode命令来实现的。recode命令可以将原始的分类变量的级别重新编码为新的级别。

具体步骤如下:

  1. 首先,使用describe命令查看数据集中的变量列表和属性,确定需要重新编码的分类变量的名称。
  2. 使用recode命令来重新编码分类变量的级别。语法如下:
  3. 使用recode命令来重新编码分类变量的级别。语法如下:
  4. 例如,假设需要将变量gender的级别重新编码为1表示男性,2表示女性,可以使用以下命令:
  5. 例如,假设需要将变量gender的级别重新编码为1表示男性,2表示女性,可以使用以下命令:
  6. 如果需要将多个级别合并为一个新的级别,可以使用相同的新级别值。例如,将变量education的级别重新编码为1表示高中及以下学历,2表示大学学历,可以使用以下命令:
  7. 如果需要将多个级别合并为一个新的级别,可以使用相同的新级别值。例如,将变量education的级别重新编码为1表示高中及以下学历,2表示大学学历,可以使用以下命令:
  8. 在上述命令中,1/2表示原始级别为1和2的值,3/4表示原始级别为3和4的值。
  9. 使用tabulate命令验证重新编码后的分类变量的级别是否正确。语法如下:
  10. 使用tabulate命令验证重新编码后的分类变量的级别是否正确。语法如下:
  11. 例如,验证重新编码后的gender变量的级别,可以使用以下命令:
  12. 例如,验证重新编码后的gender变量的级别,可以使用以下命令:
  13. tabulate命令将显示重新编码后的级别及其频数。

在Stata中重新编码分类变量的级别可以帮助我们更好地理解和分析数据。通过重新编码,我们可以将原始的级别映射为更具有可读性和解释性的新级别,从而方便后续的数据分析和建模工作。

腾讯云相关产品和产品介绍链接地址:

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Linux破坏磁盘情况下使用dd命令

但是在你开始将分区从一个地方复制到另一个地方,有必要提一下:“dd代表磁盘破坏者”这句盛传于Unix管理员当中老话有一定道理。...即使dd命令输错哪怕一个字符,都会立即永久地清除整个驱动器宝贵数据。是的,确保输入无误很重要。 切记:在按下回车键调用dd之前,务必要考虑清楚!...你已插入了空驱动器(理想情况下容量与/dev/sda系统一样大)。...本文中,if=对应你想要恢复镜像,of=对应你想要写入镜像目标驱动器: # dd if=sdadisk.img of=/dev/sdb 还可以一个命令同时执行创建操作和复制操作。...他曾告诉我,他监管每个大使馆都配有政府发放一把锤子。为什么?万一大使馆遇到什么危险,可以使用这把锤子砸烂所有硬盘。 那为什么不删除数据呢?你不是开玩笑吧?

7.6K42

我可以source脚本情况下将变量从Bash脚本导出到环境

echo $VAR 有没有一种方法可以通过只执行 export.bash 而 source 它获取 $VAR? 答: 不可以。 但是有几种可能解决办法。...调用 shell 上下文中执行脚本: $ cat set-vars1.sh export FOO=BAR $ . set-vars1.sh $ echo $FOO BAR 另一种方法是脚本打印设置环境变量命令.../set-vars2.sh)" $ echo "$FOO" BAR 终端上执行 help export 可以查看 Bash 内置命令 export 帮助文档: # help export export...-f 指 shell 函数 -n 从每个(变量)名称删除 export 属性 -p 显示所有导出变量和函数列表 ---- 参考: stackoverflow question 16618071...help eval 相关阅读: 用和不用export定义变量区别 shell编程$(cmd) 和 `cmd` 之间有什么区别 ----

16920
  • Stata常用数据预处理问题 – 学金融文史哲小生

    ,前三行是stata编码三部曲 auto示例数据.xlsx是需要导入文件名,具体以自己文件名为准 firstrow参数是将Excel第一行作为Stata变量名 clear参数是将目前Stata...”文件“”导入“”Excel电子表格“ 接下来界面,选择”浏览“找到你”存放Excel目录“选择”工作表“选择”单元格范围“勾选”将第一行作为变量名“点击”确定“ 此时数据已经导入Stata...数据管理器,我们可以右侧<变量窗口##中看到导入数据变量名(Excel表第一行) 如果需要查看每一个变量名所对应具体数值,我们可以点击Stata上方数据编辑器 数据类型、数据结构辨析...[-] Stata常用数据类型 str --- 字符串类型 (Stata 17数据管理器显示为黄色) byte --- 字节类型 (Stata 17数据管理器显示为白色)...int --- 整形类型 (Stata 17数据管理器显示为白色) double --- 数值类型 (Stata 17数据管理器显示为蓝色) 认识基本数据类型有助于后期在数据预处理过程

    2.9K30

    北大数据分析老鸟写给学弟们一封信

    以下是我近三年做各类计量和统计分析过程感受最深东西,或能对大家有所帮助。当然,它不是ABC教程,也不是细致数据分析方法介绍,它只 是“总结”和“体会”。...因变量分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验; 因变量某个闭区间内分布,并且有较多样本落在闭区间边界上,使用Tobit模型; 因变量唯一,如多产出问题,进行数据包络分析(DEA...模型(针对分类变量数据)。...关于拟合优度、变量选择原则及估计值绝对大小意义 人人数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...一定要控制其他可能对因变量产生影响因素,并认识到对回归系数和偏相关分析结果解释都是建立“其他条件不变”情况之下。

    1.7K40

    bug 导致 77 TB数据被删光,HPE 称 100% 负责:执行过程重新加载修改后shell脚本,从而导致未定义变量

    据京都大学声称,来自其中四个研究小组数据无法通过备份系统来恢复。 HPE发表了一份日文声明,声称对文件丢失“承担100%责任”。...然而,负责备份日本惠普公司制造这个超级计算机系统存储程序出现了一个缺陷,导致脚本运行失灵。HPE表示,其结果是无意中删除了这个大容量备份磁盘存储一些数据。...HPE补充道:“这导致了执行过程重新加载修改后shell脚本,从而导致未定义变量。结果,「大容量备份磁盘存储」原始日志文件被删除,而原本应该删除保存在日志目录文件。”...京都大学已暂停了受影响备份流程,但计划在解决程序问题后本月底之前恢复。它建议用户将重要文件备份到另一个系统。 京都学校和HPE都声称,他们将采取措施防止此类事件再次发生。  ...相关阅读 · 未备份、数据丢失,工程师被开除:法院判合理合法

    1.9K20

    北大数据分析老鸟写给学弟们一封信

    以下是我近三年做各类计量和统计分析过程感受最深东西,或能对大家有所帮助。当然,它不是ABC教程,也不是细致数据分析方法介绍,它只是“总结”和“体会”。...因变量分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验; 因变量某个闭区间内分布,并且有较多样本落在闭区间边界上,使用Tobit模型; 因变量唯一,如多产出问题,进行数据包络分析(DEA...模型(针对分类变量数据)。...关于拟合优度、变量选择原则及估计值绝对大小意义。 人人数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...一定要控制其他可能对因变量产生影响因素,并认识到对回归系数和偏相关分析结果解释都是建立“其他条件不变”情况之下。

    1.6K100

    北大老鸟三年数据分析深刻总结——致学弟学妹们

    我对非实验数据分析工具选择原则如下: 因变量为连续变量,自变量至少有一个连续变量,进行多元线性回归; 因变量为连续变量,自变量全部为分类变量,进行方差分析; 因变量分类变量,自变量至少有一个连续变量...,使用Logit模型或Probit模型; 因变量分类变量,自变量全部为分类变量,进行交叉表分析和卡方检验; 因变量某个闭区间内分布,并且有较多样本落在闭区间边界上,使用Tobit模型; 因变量唯一...模型(针对分类变量数据)。...关于拟合优度、变量选择原则及估计值绝对大小意义 人人数据分析”小站,某同学提出这样一个问题:“多元回归分析,怎么选择自变量和因变量,可以使R方达到80%以上?”...一定要控制其他可能对因变量产生影响因素,并认识到对回归系数和偏相关分析结果解释都是建立“其他条件不变”情况之下。

    3.1K60

    稳健性检验!稳健性检验!

    ,考虑到董事长或总经理升任集团层面的董事长或总经理,或者升任集团层面的党委或党组书记时,国企高管行政级别也得到了提升,因此稳健性检验部分借鉴王曾等 (2014) 测量方法,将高管职位变更去向出现以下情况时均视为晋升...分样本回归法 由于不同样本对于所得结果具有不同敏感性,因为稳健性检验时,也常常进行分样本回归,常见分类方法用按照人口规模分类,按照地理位置分类,按照城乡分类,按照性别不同分类等等。...年企业数据,虽然该文对某些缺失数据根据相关会计准则进行了补齐处理,为避免处理后数据干扰实证结果,作者将样本调整为1998-2007年,并重新进行RD 估计。...9.3 更换新数据源 何兴强 (2019) 探讨房价收入比对家庭消费房产财富效应影响时,为了增强研究结论稳健性,分别使用了调查数据、宏观数据、和不同家庭调查数据重新估计本文主要回归。...专题:数据处理 Stata变量非重复值统计-distinct Stata结果重现:dependencies命令-外部命令版本控制 Stata数据处理:统计组内非重复值个数 专题:结果输出 Stata

    2.8K30

    stata 命令 songbl 使用手册

    输出标题中包含 [变量] 关键词,并且是来自爬虫俱乐部推文超链接 . songbl 变量,auth(爬虫俱乐部) 10....post(5)表示仅检索有5条以上跟帖回复贴子 page(int) 实时打印 The Stata Forums 帖子情况。...范围为1-1437,默认值为1,即打印首页内容 sort(string) 根据排序情况实时打印The Stata Forums 帖子情况,包括 sort(title), sort(last), sort...输入 :songbl paper 浏览已有论文分类 cls 清屏后显示结果 nocat 不输出推文分类信息 time 输出检索所耗时间 gap 输出推文结果之间进行空格一行 line 搜索推文另一种输出风格...例如 file(do) 表示 stata 打开以 .do 结尾 do 文档推文 操作实例 1. 输出 《金融研究》论文超链接与数据 . songbl 金融研究,paper 2.

    3.3K40

    Stata与Python等效操作与调用

    Python 没有类似 Stata 变量标签 (value label) 。 Series 是 Python 另外一种数据结构,Series 可以理解为 DataFrame 其中一列。...常规数据整理包括变量增、删和改、重命名和排序等操作。处理过程,针对数值型和字符型不同数据类型,有不同处理方法。 数值型变量主要是简单计算,生成新变量。...长宽转换 与 merge 一样, Python DataFrame reshape 方式也有所不同,因为 Stata 数据是“内存唯一数据表”,而 DtataFrame Python...请注意,这些列现在具有多个级别,就像以前索引一样。这是标记索引和列另一个理由。如果要访问这些列任何一列,则可以照常执行操作,使用元组两个级别之间进行区分。... Stata ,内存 “DataFrame” 始终具有观察行号,由 Stata 内置变量 _n 表示。

    9.9K51

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

    本文档Stata示例,我们告诉Stata使用REML以便将输出与其他四个程序进行比较。 类内相关系数 我们还报告了每种模型类内相关系数(ICC)ρ。...Stata结果 当我们向Stata模型添加预测变量时,我们添加了cov(un)选项,指定了非结构化协方差矩阵。...Stata结果 HLM结果 SPSS结果 Mplus结果  这次我们WITHIN语句中包括一个潜在斜率变量,以将Extrav指定为随机因子,该变量告诉Mplus不要在数据集中寻找“ randoms1...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。...但是,当我们添加2级预测变量时,ICC会大大降低,甚至比无条件模型更低。这是由于级别添加了预测变量时,无法解释Level-2变异(随机截距项)减少了。

    1.4K10

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据

    下面介绍六个模型都是两级分层模型变体,也称为多级模型,这是混合模型特殊情况。此比较仅对完全嵌套数据有效(不适用于交叉或其他设计数据,可以使用混合模型进行分析)。...本文档Stata示例,我们告诉Stata使用REML以便将输出与其他四个程序进行比较。 类内相关系数 我们还报告了每种模型类内相关系数(ICC)ρ。...Stata结果 HLM结果 SPSS结果 Mplus结果 这次我们WITHIN语句中包括一个潜在斜率变量,以将Extrav指定为随机因子,该变量告诉Mplus不要在数据集中寻找“ randoms1...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。...但是,当我们添加2级预测变量时,ICC会大大降低,甚至比无条件模型更低。这是由于级别添加了预测变量时,无法解释Level-2变异(随机截距项)减少了。

    2.5K10

    使用SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM

    下面介绍六个模型都是两级分层模型变体,也称为多级模型,这是混合模型特殊情况。此比较仅对完全嵌套数据有效(不适用于交叉或其他设计数据,可以使用混合模型进行分析)。...本文档Stata示例,我们告诉Stata使用REML以便将输出与其他四个程序进行比较。 类内相关系数 我们还报告了每种模型类内相关系数(ICC)ρ。...Stata结果  当我们向Stata模型添加预测变量时,我们添加了cov(un)选项,指定了非结构化协方差矩阵。...Stata结果  HLM结果 SPSS结果  Mplus结果  这次我们WITHIN语句中包括一个潜在斜率变量,以将Extrav指定为随机因子,该变量告诉Mplus不要在数据集中寻找“ randoms1...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。

    3K20

    SAS,Stata,HLM,R,SPSS和Mplus分层线性模型HLM分析学生受欢迎程度数据|附代码数据

    本文档Stata示例,我们告诉Stata使用REML以便将输出与其他四个程序进行比较。 类内相关系数 我们还报告了每种模型类内相关系数(ICC)ρ。...Stata结果 当我们向Stata模型添加预测变量时,我们添加了cov(un)选项,指定了非结构化协方差矩阵。...Stata结果 HLM结果 SPSS结果 Mplus结果  这次我们WITHIN语句中包括一个潜在斜率变量,以将Extrav指定为随机因子,该变量告诉Mplus不要在数据集中寻找“ randoms1...Stata结果 Stata无法自动识别变量之间交互项,因此我们必须为两个跨级别的交互手动创建变量(请参见上面的代码gen语句)。...但是,当我们添加2级预测变量时,ICC会大大降低,甚至比无条件模型更低。这是由于级别添加了预测变量时,无法解释Level-2变异(随机截距项)减少了。

    1.7K20

    6个步骤搞定金融数据挖掘预处理

    导读: 预处理是数据挖掘过程和机器学习重要步骤。它被用来表示 "废料进,废品出"。机器学习和数据挖掘数据采集方法往往控制松散,导致值超出范围、不可能数据组合、缺失值等问题。...对于标准化变量,每种情况标准化变量值都表明它与原始变量均值(或原始变量标准偏差)差值。...一个简单示例,将图像灰度从0-255光谱转换为0-1光谱就是二值化。...One Hot Encoding 独热编码[4]是将分类变量转换为可以提供给ML算法以更好地进行预测形式过程。...class 'numpy.float64'>, handle_unknown='error', n_values=None, sparse=True) Label Encoding 标签编码适用于具有分类变量并将数据转换为数字数据

    1.5K30

    Stata 基于世界银行开放数据库 API 开展跨国比较分析:wbopendata 命令详解

    幸运是,世行开发人员为我们提供了一个能够 Stata 通过连接“世行公开数据库API”方式实现数据调用第三方命令,即 wbopendata。...不仅如此,通过便捷选项设定,利用该命令获取指定数据集正是 Stata 开展面板数据分析时需要数据呈现形式。..., topics(2 - Aid Effectiveness) clear long 可以注意到,各种情况组合,没有“全部国家(或地区)、全部变量情形。...通过下面的命令,我们可以获得最新指标来源和主题分类信息,这些信息以帮助文档形式存储本地,实际使用可以随时调用查询,从而方便我们庞大数据迅速定位感兴趣变量。... Stata 调用数据后,我们既可以对获得截面数据或面板数据进行描述性统计分析,亦可开展更为深入推断统计分析。

    2.4K221

    Pandas 2.2 中文官方教程和指南(十·二)

    保持连接打开副作用可能包括锁定数据库或其他破坏性行为。 写入数据框 假设以下数据存储一个DataFrame data,我们可以使用to_sql()将其插入到数据。...此外,Stata 保留某些值来表示缺失数据。导出特定数据类型非缺失值超出 Stata 允许范围值将重新定义变量为下一个更大大小。...例如, Stata ,int8 值限制 -127 和 100 之间,因此值大于 100 变量将触发转换为 int16。...导出时,Stata没有明确等价Categorical,并且关于变量是否有序信息会丢失。 警告 Stata仅支持字符串值标签,因此导出数据时会调用str。...注意 导入分类数据时,Stata 数据文件变量值不会被保留,因为Categorical变量始终使用介于-1和n-1之间整数数据类型,其中n是类别数。

    29100

    Stata特别篇(下)——多变量图表汇总!

    今天跟大家分享Stata特别篇下篇——多变量图表汇总! 变量图表,增加变量仅仅限于定距变量,也可以是定类变量。...打开数据集: use "D:\Stata12.0\auto.dta", clear ? ?...该图输出图表同时会输出一个汇总结果: ? graph box price,over(foreign) #箱线图(分类变量) ?...这个就是之前推送过那个相关系数图矩阵 以下图表需要用到两个及以上分类变量,所以这里我换了一个数据集: use "F:\数据可视化\数据分析\计量经济学\计量经济学导论第四版(伍德里奇)\stata伍德里奇...以上是自己整理Stata变量图表笔记,有一些我们会经常用到,也有一些过于复杂或者没有实际意义,可以根据自己需要,忽略其他无关紧要图表。

    10.6K72

    一份SPSS回归分析与数据预处理心得体会

    我个人有几个看法: 数据样本量足够大,删除缺失值样本情况下不影响估计总体情况,可考虑删除缺失值; 二是数据样本量本身不大情况下,可从以下两点考虑:1是采用缺失值替换,SPSS具体操作为“转换”菜单下...若原始数据还有0,取对数ln(0)没意义,我就取ln(x+1)处理; (2)是样本量足够大删除异常值样本; (3)是从stata里学到,对数据做结尾或者缩尾处理。...这里结尾处理其实就是同第二个方法,样本量足够大情况下删除首尾1%-5%样本。缩尾指的是人为改变异常值大小。...心得2:建议采用后向步进法处理变量多重共线性。 记得张文彤老师说过他有个同学做过一个研究,即采用后向步进法剔除变量方式去做回归,得到结果犯错几率比较大。张老师也建议用这个方法处理多重共线性。...因变量分了5类,有一类个数比较多,达到300多,有1-2类个案比较少,只有30左右。专家提到了要做稳健性检验。这个用stata软件编程加一个robust即可解决问题。不知道SPSS里面怎么做。

    3.3K50

    图像识别——MNIST

    自动编码器通过使用与训练实例和目标标签相同未标记输入来训练。去噪自动编码器是通过随机破坏编码输入矩阵来训练。...由于自动编码器不使用训练样本标签作为目标,而是使用训练样本本身,所以它们被分类为半监督学习技术。 本文使用NEURAL程序来介绍一下在SAS里如何实现图像识别。...训练集 (training set) 由来自 250 个不同人手写0-9数字构成,正确地识别这些手写数字是机器学习研究一个经典问题。...01将数据下载解压并导入SAS 把训练数据集导入后,得到一个SAS数据集有60,000条观测,785个变量。...02模型训练过程:采用SAS神经网络过程步: ***自编码识别******************* 03结果展示 最后,来看一下原始数据和模型训练结果对比效果: 10个 MNIST 数据原始数字

    5.2K40
    领券