腾讯云

文章/答案/技术大牛

发布

社区首页 >问答首页 >是否应该清除数据集的十六进制地址？

问是否应该清除数据集的十六进制地址？
EN

Data Science用户

提问于 2021-11-30 05:09:29

回答 1查看 35关注 0票数 2

我正致力于在区块链上进行欺诈检测。更具体地说，我获取了大量发生在区块链上的事务，并使用适当的API将它们标记为垃圾邮件/非垃圾邮件，现在我将训练一个使用SVM来检测欺诈的模型，等等。

我的问题是关于数据的准备。我的字段是:散列，现在的transaction_index，from_address，to_address，.

"from/to_address“字段是十六进制字段，如0x5e14d30d2155c0cdd65044d7e0f296373f3e92f65ebd

我的问题是，我应该如何格式化这些数据？我应该删除这个字段吗？(我不这么认为，因为它与眼前的问题非常相关)。我也找不到合适的编码。

classification

dataframe

python

回答 1

Data Science用户

发布于 2022-04-24 13:00:10

在模型中保留"from/ to _address“是可以的。选择一个学习适当加权特征的算法是很有用的。

在大多数机器学习算法中，当前的十六进制格式将被编码为字符串。使用特征散列将其编码为适合大多数机器学习算法的数值可能是有用的。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/104659

复制

清除Dns缓存_怎么清除ip地址缓存

dns java https 网络安全 bash

dnsmasq的是一个轻量级的DNS、TFTP和DHCP服务器。它的目的是给局域网提供配对的DNS和DHCP服务。 dnsmasq接受DNS查询，并从一个小的本地高速缓存应答它们或将其转发到一个真正的递归DNS服务器。该软件也被安装在很多便宜的路由器上来缓存DNS查询。只需重新启动dnsmasq的服务来清除DNS缓存：

全栈程序员站长

2022/09/20

7.1K0

【数据集】机器学习数据集汇总（附下载地址）

https http 网络安全 github git

(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/

zenRRan

2020/02/18

5.7K0

获取到本地存储的数据：查看plist文件是否被清除

编程算法

1.保存在user Document文件夹下，以读取文件，写入文件方式 2.在工程里手动创建一个.plist文件，把固定的内容写入，这个需要人工手动写入(工程里只可读取，不可以写入) 3.保存在user Document下，不过不需要读写文件，用系统的 NSUserDefaults 可以快速保存添加读取删除基本数据类型这里记录的是第1种，第2种就是创建一个plist文件，然后自己手动写入数据，再用NSString *path = [[NSBundle mainBundle] pathForResource:@"xiaoxi" ofType:@"plist"];获取到本地存储的数据。

用户8983410

2021/10/29

1.1K0

大数据平台是否更应该容器化?

kubernetes 容器 https 网络安全 mapreduce

作者颜卫，腾讯高级后台开发工程师，专注于Kubernetes大规模集群管理和资源调度，有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。

Spark学习技巧

2021/03/05

3.1K1

大数据平台是否更应该容器化?

kubernetes 容器 https 网络安全 flink

作者颜卫，腾讯高级后台开发工程师，专注于Kubernetes大规模集群管理和资源调度，有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。大数据的发展历史大数据技术起源于Google在2004年前后发表的三篇论文，分布式文件系统GFS、分布式计算框架MapReduce和NoSQL数据库系统BigTable，俗称"三驾马车"。在论文发表后，Lucene开源项目的创始人Doug Cutting根据论文原理初步实现了类似GFS和MapReduce的功能。并在20

腾讯云原生

2022/04/14

8340

IRIS鸢尾花数据集-下载地址

csv data txt

https://pan.baidu.com/s/16rkfb79BlgypxgDVaZCfgA

Hi0703

2021/08/27

18.7K2

机器学习数据集汇总（附下载地址）

https http 网络安全 github git

http://cvgl.stanford.edu/projects/uav_data/

统计学家

2020/02/20

1.6K0

炙手可热的信息SEO是否应该利用？

seo

我们生活在一个信息多元化的时代，每天都会有众多炙手可热的热点出现，但热点都有一个特点，就是热度起的快而消散的也比较迅速，所以一般来说炙手可热的信息都是新媒体来使用，而我们做SEO要使用，我们还是需要仔细斟酌其中的利与弊。

蝙蝠侠IT

2021/02/04

2850

开发集和测试集应该多大？

其他

7 开发集和测试集应该多大？开发集应该足够大，大到可以检测出不同算法之间的差异。比如：如果分类器A的精度为90.0%，分类器B精度为90.1%。如果你的开发集只有100条，那么你可能检测不出这0.1%的差异，与其它机器学习的问题相比，100条数据很小，常见的开发集数据规模在1000到10000条之间。数据量越高，模型之间的差异越明显。[2] 对于一些成熟的重要应用来说（如：广告推荐，网页推荐，产品推荐等）。我经常看到团队在为0.01%的性能提升而奋斗，因为这直接影响到了公司的利润。在这种情况下，开发集的数

YingJoy_

2018/05/30

4200

Android中系统设置中的清除数据究竟会清除哪些数据

面向对象编程

What will be removed If you click Clear Data Button in the System Application

技术小黑屋

2018/09/04

2.9K0

linux 通过 mac地址查询 ip 和清除arp 缓存

tcp/ip grep 缓存其他

今天，突然找不到vm 的ip 了，但是可以从网卡状态上看到其 mac 地址，并且确定主机是启动状态，网络状态良好（后来发现因为子网掩码的问题，导致虚拟机和网关之间不通信，从而导致其他网络的主机不能访问，这个是另一个问题了。）

西湖醋鱼

2020/12/30

7.1K1

7. 开发集和测试集应该多大？

其他

开发集应该足够大，大到可以检测出不同算法之间的差异。比如：如果分类器A的精度为90.0%，分类器B精度为90.1%。如果你的开发集只有100条，那么你可能检测不出这0.1%的差异，与其它机器学习的问题相比，100条数据很小，常见的开发集数据规模在1000到10000条之间。数据量越高，模型之间的差异越明显。[2]

YingJoy_

2018/05/09

7321

干货 | AI 从业者都应该知道的实验数据集

深度学习机器学习编程算法存储

AI 科技评论按：数据集对于深度学习模型的重要性不言而喻，然而根据性质、类型、领域的不同，数据集往往散落在不同的资源平台里，急需人们做出整理。 fast.ai 近期将这些重要的数据集汇总到了一篇文章里，雷锋网 AI 科技评论把文章编译如下。

AI科技评论

2018/12/11

1.2K0

个人博客网站是否应该公安备案？

网站

公安备案流程： 1、注册账号：http://www.beian.gov.cn/portal/index.do

雾海梦曦

2022/11/04

5.1K0

SEM是否应该投放品牌词

seo

我们在给企业做基于网站的互联网销售时，除了seo营销就是关键词竞价排名-sem。sem是一个烧钱的营销方式，但也是见效最快的方式，只要推广资金充裕，网站流量会有一个质的提升，但长期运营sem，其高昂的费用不是每个企业都能接受的，所以优化投放的关键词是首要任务。

蝙蝠侠IT

2020/11/11

5480

php案例：判断IP地址是否合法+IP地址范围区间

php

作者：陈业贵华为云享专家 51cto(专家博主明日之星 TOP红人) 阿里云专家博主文章目录 cyg.php cyg.php <?php //IP地址的范围：1.0.0.1-----255.

贵哥的编程之路

2022/10/24

2.3K0

SaaS创业初期是否应该做BD？

云计算

本文作者吴昊：腾讯SaaS加速器导师、纷享销客天使投资人、前执行总裁，具有20年企业信息化和6年SaaS营销团队创新经验。昨天与一个产品思路不错的创始人聊营销工作如何打开，整个销售体系从人才、组织、方法、目标、考核、文化等各方面都需要系统设计和启动。创始人最后问了一个问题：我有很多行业资源，例如行业培训及咨询机构、行业协会、上游厂商，能一下撬动大批客户，这个BD（商业拓展）是否该做？我的回答是：No，千万不要好大喜功！ BD和销售的最大区别是，一个绕路但省时间、有机会批量获得客户，一个直接

腾讯SaaS加速器

2020/06/09

4570

博客 | AI 从业者都应该知道的实验数据集

其他

少了数据，我们的机器学习和深度学习模型什么也干不了。这么说吧，那些创建了数据集、让我们可以训练模型的人，都是我们的英雄，虽然这些人常常并没有得到足够的感谢。让人庆幸的是，那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用，尤其在算法变化的对比上；不少名字则成为圈内外都耳熟能详的名称，如 MNIST、CIFAR 10 以及 Imagenet 等。

AI研习社

2018/12/07

5090

kafka 数据清除机制

kafka node.js

在Kafka中，存在数据过期的机制，称为data expire。如何处理过期数据是根据指定的policy（策略）决定的，而处理过期数据的行为，即为log cleanup。

用户1217611

2022/05/06

2.3K0

43种机器学习开源数据集（附地址/调用方法）

scikit-learn 机器学习神经网络深度学习人工智能

学习机器学习是一个不断探索和实验的过程，因此，本文将主要介绍常见的开源数据集，便于学习和实验各种机器学习算法！

扬起

2022/06/30

1.3K0

相似问题

是否应该将数据集划分为训练、测试和验证？

是否应该防止增强的数据泄漏到测试/交叉验证集

对于不平衡的分类，是否应该平衡验证数据集？

我是否应该将数据集划分为多个预测模型？

比较数据集-我应该使用相同的测试数据集吗？

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

问是否应该清除数据集的十六进制地址？
EN