Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >生成一个范畴变量列表，其中分类计数是正态分布的。

问生成一个范畴变量列表，其中分类计数是正态分布的。
EN

Stack Overflow用户

提问于 2020-04-01 23:02:21

回答 1查看 575关注 0票数 1

我的目标是生成一些由一组分类变量填充的1000行的合成数据(用pd.DataFrame对象表示)。

假设我有一个可以存在的所有可能的范畴变量的dict对象。

列表按优先级排序，其中'Aaa'是最高优先级，'NR'是最低优先级。

credit_score_types = {
    'Aaa':0,
    'Aa1':1,
    'Aa2':2,
    'Aa3':3,
    'A1':4,
    'A2':5,
    'A3':6,
    'Baa1':7,
    'Baa2':8,
    'Baa3':9,
    'Ba1':10,
    'Ba2':11,
    'Ba3':12,
    'B1':13,
    'B2':14,
    'B3':15,
    'Caa':16,
    'Ca':17,
    'C':18,
    'e, p':19,
    'WR':20,
    'unsolicited':21,
    'NR':22
}

带有中间值的dict对象key将表示正态分布的“峰值”。

在这种情况下，'Ba2'将是正态分布的“峰值”。

预期结果：

使用上述pd.DataFrame对象中的分类变量随机分配1000行的list (或长度为1000的已填充的dict )。范畴变量的分配将遵循正态分布。

'Baa2'将拥有最高的计数。

如果用每一次分类事件的计数来绘制条形图，我会观察到一个正态分布形状的图表(类似于下面)。

normal-distribution

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-04-02 01:30:10

正态分布是连续的，不是绝对的。您可以考虑使用宽度为1.0的间隔绑定正态分布数据。“Baa2”的峰值为11，它实际上将计算区间10.5，11.5中的所有正态分布值，“Baa1”将计算间隔9.5，10.5中的所有值。‘'Aaa’将计算间隔中的所有值-0.5，0.5，等等.

import numpy as np 
import matplotlib.pyplot as plt

credit_score_types = {
    'Aaa':0,
    'Aa1':1,
    'Aa2':2,
    'Aa3':3,
    'A1':4,
    'A2':5,
    'A3':6,
    'Baa1':7,
    'Baa2':8,
    'Baa3':9,
    'Ba1':10,
    'Ba2':11,
    'Ba3':12,
    'B1':13,
    'B2':14,
    'B3':15,
    'Caa':16,
    'Ca':17,
    'C':18,
    'e, p':19,
    'WR':20,
    'unsolicited':21,
    'NR':22
}

# generate normally distributed data, fix random state 
np.random.seed(42)
mu, sigma = credit_score_types['Ba2'], 5
X = np.random.normal(mu, sigma, 1000)

fig, ax = plt.subplots()

counts, bins = np.histogram(X, bins = np.linspace(-0.5, 22.5, 23))

# create a new dictionary of category names and counts
data = dict(zip(credit_score_types.keys(), counts))
ax.bar(data.keys(), data.values())
plt.xticks(rotation = 'vertical')

plt.show()

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60985906

复制

相关文章

Linux 内存使用率

PS:什么是SReclaimable？在linux内核中会有许多小对象，这些对象构造销毁十分频繁，比如i-node，dentry。那么这些对象如果每次构建的时候就向内存要一个页，而其实际大小可能只有几个字节，这样就非常浪费，为了解决这个问题就引入了一种新的机制来处理在同一页框中如何分配小存储器区，这个机制可以减少申请和释放内存带来的消耗，这些小存储器区的内存称为Slab。meminfo文件中标识了Slab的大小，而SReclaimable是指可收回Slab的大小。

踏歌行

2020/10/15

3.8K0

在 Linux 下如何检查内存使用率

python linux 缓存

在排查系统问题，或者应用变慢，或者不明原因问题时，第一件事就是要检查系统的内存使用率。

雪梦科技

2020/07/22

9.7K0

在 Linux 下如何检查内存使用率

如何"快准狠"找到内存相关的问题

为了迅速定位内存问题，通常会先运行几个覆盖面比较大的性能工具，比如 free、top、vmstat、pidstat 等。

HaydenGuo

2019/12/13

7070

如何"快准狠"找到内存相关的问题

linux 监控内存使用率

/proc/meminfo used=total-(buffers+cached+free)

葫芦

2019/04/17

3.1K0

[422]linux查看CPU和内存使用率

缓存 linux https 网络安全

%us: 表示用户空间程序的cpu使用效率 %sy:表示系统空间程序的cpu使用效率 %ni: 表示用户空间通过nice调度过的程序的cpu使用效率 %id: 空闲cpu %wa:cpu运行时等待io的时间 %hi: cpu运行过程中硬中断的数量 %si: cpu处理软中断的数量 %st: 被虚拟机偷走的cpu

周小董

2022/04/13

9.1K0

[422]linux查看CPU和内存使用率

Linux监测进程cpu使用率、内存使用率的工具 - WGCLOUD

zabbix 网络安全 shell kubernetes 应用性能监控

WGCLOUD是一款优秀的开源运维监控平台，安装部署方便，轻量实用，分布式，自动化，高性能，对主流平台兼容性好

那年十八

2022/09/17

10.2K0

Linux监测进程cpu使用率、内存使用率的工具 - WGCLOUD

linux系统怎么看内存使用率_cpu使用率0

node.js java linux https 网络安全

和top一样，可以看到所有cpu的使用情况。如果需要查看某颗cpu的使用可以用-P参数。例如指定显示0号cpu 的使用情况。

全栈程序员站长

2022/10/03

21.9K0

linux系统怎么看内存使用率_cpu使用率0

[使用Python监控Linux/Unix系统] 使用paramiko获取linux系统内存使用率

unix python 数据库 sql

前面介绍了如何运用Python获取Oracle数据库的信息以及将数据存入MySQL数据库中

bsbforever

2020/08/19

4K0

Oracle表空间SYSAUX使用率很高解决案例

收到zabbix告警信息，表空间 SYSAUX 使用率>95%%，系统表空间sysaux使用率超过了95%。

星哥玩云

2022/08/16

1.5K0

Oracle表空间SYSAUX使用率很高解决案例

如何找到自己的服务器

云服务器轻量应用服务器

4.点击自己云服务器的实例id后，就可以看见服务器的基本信息、弹性网卡、安全组等等。

逸轩

2021/09/16

6.8K0

EasyGBS新内核版本降低内存使用率的修复方法

TSINGSEE青犀视频开发的国标GB28181协议视频智能分析平台EasyGBS已经兼容了采集－存储－展示－告警这四大模块的内容处理，能够为大数据平台的搭建提供视频能力上的支持。目前EasyGBS正在积极进行内核的改版，力求做到更加稳定、更加高质量。

TSINGSEE青犀视频

2021/09/09

5300

如何查看Linux系统的CPU使用率？

top 命令是一个动态查看系统进程和资源使用情况的工具。它可以显示系统的整体资源使用情况，包括CPU使用率。

用户11163528

2025/03/05

2370

计算 Linux 内存使用率方法及C实现

kernel linux c 语言缓存

通过获取Linux中的 /proc/stat 文件中的内容可以获取系统内存的详细信息：

宋天伦

2020/07/17

9K1

五分钟带你掌握Linux系统查看CPU使用率、内存使用率、磁盘使用率

存储 linux 缓存

%us：表示用户空间程序的cpu使用率（没有通过nice调度） %sy：表示系统空间的cpu使用率，主要是内核程序。 %ni：表示用户空间且通过nice调度过的程序的cpu使用率。 %id：空闲cpu %wa：cpu运行时在等待io的时间 %hi：cpu处理硬中断的数量 %si：cpu处理软中断的数量 %st：被虚拟机偷走的cpu 注：99.0 id，表示空闲CPU，即CPU未使用率，100%-99.0%=1%，即系统的cpu使用率为1%。

不吃小白菜

2021/03/02

19.3K0

Linux服务器如何释放内存空间

缓存 linux unix 网站

Linux服务器运行一段时间后，由于其内存管理机制，会将暂时不用的内存转为buff/cache，这样在程序使用到这一部分数据时，能够很快的取出，从而提高系统的运行效率，所以这也正是Linux内存管理中非常出色的一点，所以乍一看内存剩余的非常少，但是在程序真正需要内存空间时，Linux会将缓存让出给程序使用，这样达到对内存的最充分利用，所以真正剩余的内存是free+buff/cache

星哥玩云

2022/07/25

23.3K0

Linux服务器如何释放内存空间

如何在 Linux 中按内存和 CPU 使用率查找运行次数最多的进程

linux shell 缓存

尽管使用了繁重的系统监控工具，但一个简单的命令可以显示系统上当前的 CPU 和内存使用情况，从而节省您的时间和精力。使用命令方便、轻巧，并且不会占用太多系统资源来显示正在进行的 CPU 和内存负载。在这篇文章中，我们将看到使用这些命令按内存和 CPU 使用率显示正在运行的进程的ps命令。

杰哥的IT之旅

2022/12/05

3.9K0

如何在 Linux 中按内存和 CPU 使用率查找运行次数最多的进程

linux服务器内存

数据库云数据库 SQL Server sql linux 缓存

查询日志显示内存满了把mysql服务给杀了 linux 服务器如果内存满了会自动清理进程防止服务器挂掉选择的话谁占的的内存大就先杀谁我的服务器里面 mysql服务占的内存是最大的所以就把mysql就给杀了

用户8639654

2021/08/03

31.9K0

如何精准地找到问题答案

搜索引擎腾讯云开发者社区

搜索，是每个开发者必备功力。然而，在实际工作中，由于所用搜索引擎的限制，总是会遇到各种各样的坑。下面罗列几个，看看你是否遇到过。

老齐

2020/05/14

6890

系统的 CPU 使用率很高，但为啥却找不到高 CPU 的应用？

cpu 工具进程系统终端

今天我们来探究系统CPU使用率高的情况，所以这次实验的准备工作，与上节课的准备工作基本相同，差别在于案例所用的 Docker 镜像不同。

wayn

2024/04/28

1450

系统的 CPU 使用率很高，但为啥却找不到高 CPU 的应用？

购买服务器之后如何找到服务器

云服务器轻量应用服务器

4.点击自己云服务器的实例id后，就可以看见服务器的基本信息、弹性网卡、安全组等等。

深蓝.

2021/10/03

8K0

相似问题

使用HTML控件创建文件上载控件

11

ASP.NET中的文件上载控件

23

asp.net/HTML文件上载控件不按预期上载多个文件

11

拖放文件上载，不使用asp.net中的文件上载控件

20

asp文件上载控件自定义文本

12

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例