首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >是否应该清除数据集的十六进制地址?

是否应该清除数据集的十六进制地址?
EN

Data Science用户
提问于 2021-11-30 05:09:29
回答 1查看 35关注 0票数 2

我正致力于在区块链上进行欺诈检测。更具体地说,我获取了大量发生在区块链上的事务,并使用适当的API将它们标记为垃圾邮件/非垃圾邮件,现在我将训练一个使用SVM来检测欺诈的模型,等等。

我的问题是关于数据的准备。我的字段是:散列,现在的transaction_index,from_address,to_address,.

"from/to_address“字段是十六进制字段,如0x5e14d30d2155c0cdd65044d7e0f296373f3e92f65ebd

我的问题是,我应该如何格式化这些数据?我应该删除这个字段吗?(我不这么认为,因为它与眼前的问题非常相关)。我也找不到合适的编码。

EN

回答 1

Data Science用户

发布于 2022-04-24 13:00:10

在模型中保留"from/ to _address“是可以的。选择一个学习适当加权特征的算法是很有用的。

在大多数机器学习算法中,当前的十六进制格式将被编码为字符串。使用特征散列将其编码为适合大多数机器学习算法的数值可能是有用的。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/104659

复制
相关文章
清除Dns缓存_怎么清除ip地址缓存
dnsmasq的是一个轻量级的DNS、TFTP和DHCP服务器。它的目的是给局域网提供配对的DNS和DHCP服务。 dnsmasq接受DNS查询,并从一个小的本地高速缓存应答它们或将其转发到一个真正的递归DNS服务器。该软件也被安装在很多便宜的路由器上来缓存DNS查询。只需重新启动dnsmasq的服务来清除DNS缓存:
全栈程序员站长
2022/09/20
7.1K0
【数据集】机器学习数据集汇总(附下载地址)
(Stanford)69G大规模无人机(校园)图像数据集【Stanford】 http://cvgl.stanford.edu/projects/uav_data/
zenRRan
2020/02/18
5.7K0
获取到本地存储的数据:查看plist文件是否被清除
1.保存在user Document文件夹下,以读取文件,写入文件方式 2.在工程里手动创建一个.plist文件,把固定的内容写入,这个需要人工手动写入(工程里只可读取,不可以写入) 3.保存在user Document下,不过不需要读写文件,用系统的 NSUserDefaults 可以快速保存添加读取删除基本数据类型 这里记录的是第1种,第2种就是创建一个plist文件,然后自己手动写入数据,再用NSString *path = [[NSBundle mainBundle] pathForResource:@"xiaoxi" ofType:@"plist"];获取到本地存储的数据。
用户8983410
2021/10/29
1.1K0
大数据平台是否更应该容器化?
作者颜卫,腾讯高级后台开发工程师,专注于Kubernetes大规模集群管理和资源调度,有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。
Spark学习技巧
2021/03/05
3.1K1
大数据平台是否更应该容器化?
大数据平台是否更应该容器化?
作者颜卫,腾讯高级后台开发工程师,专注于Kubernetes大规模集群管理和资源调度,有过万级集群的管理运维经验。目前负责腾讯云TKE大规模Kubernetes集群的大数据应用托管服务。 大数据的发展历史 大数据技术起源于Google在2004年前后发表的三篇论文,分布式文件系统GFS、分布式计算框架MapReduce和NoSQL数据库系统BigTable,俗称"三驾马车"。在论文发表后,Lucene开源项目的创始人Doug Cutting根据论文原理初步实现了类似GFS和MapReduce的功能。并在20
腾讯云原生
2022/04/14
8340
大数据平台是否更应该容器化?
IRIS鸢尾花数据集-下载地址
https://pan.baidu.com/s/16rkfb79BlgypxgDVaZCfgA
Hi0703
2021/08/27
18.7K2
机器学习数据集汇总(附下载地址)
http://cvgl.stanford.edu/projects/uav_data/
统计学家
2020/02/20
1.6K0
炙手可热的信息SEO是否应该利用?
我们生活在一个信息多元化的时代,每天都会有众多炙手可热的热点出现,但热点都有一个特点,就是热度起的快而消散的也比较迅速,所以一般来说炙手可热的信息都是新媒体来使用,而我们做SEO要使用,我们还是需要仔细斟酌其中的利与弊。
蝙蝠侠IT
2021/02/04
2850
炙手可热的信息SEO是否应该利用?
开发集和测试集应该多大?
7 开发集和测试集应该多大? 开发集应该足够大,大到可以检测出不同算法之间的差异。比如:如果分类器A的精度为90.0%,分类器B精度为90.1%。如果你的开发集只有100条,那么你可能检测不出这0.1%的差异,与其它机器学习的问题相比,100条数据很小,常见的开发集数据规模在1000到10000条之间。数据量越高,模型之间的差异越明显。[2] 对于一些成熟的重要应用来说(如:广告推荐,网页推荐,产品推荐等)。我经常看到团队在为0.01%的性能提升而奋斗,因为这直接影响到了公司的利润。在这种情况下,开发集的数
YingJoy_
2018/05/30
4200
Android中系统设置中的清除数据究竟会清除哪些数据
What will be removed If you click Clear Data Button in the System Application
技术小黑屋
2018/09/04
2.9K0
linux 通过 mac地址 查询 ip 和 清除arp 缓存
今天,突然找不到vm 的ip 了,但是可以从网卡状态上看到其 mac 地址,并且确定主机是启动状态,网络状态良好(后来发现因为子网掩码的问题,导致虚拟机和网关之间不通信,从而导致其他网络的主机不能访问,这个是另一个问题了。)
西湖醋鱼
2020/12/30
7.1K1
7. 开发集和测试集应该多大?
开发集应该足够大,大到可以检测出不同算法之间的差异。比如:如果分类器A的精度为90.0%,分类器B精度为90.1%。如果你的开发集只有100条,那么你可能检测不出这0.1%的差异,与其它机器学习的问题相比,100条数据很小,常见的开发集数据规模在1000到10000条之间。数据量越高,模型之间的差异越明显。[2]
YingJoy_
2018/05/09
7321
干货 | AI 从业者都应该知道的实验数据集
AI 科技评论按:数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平台里,急需人们做出整理。 fast.ai 近期将这些重要的数据集汇总到了一篇文章里,雷锋网 AI 科技评论把文章编译如下。
AI科技评论
2018/12/11
1.2K0
干货 | AI 从业者都应该知道的实验数据集
个人博客网站是否应该公安备案?
公安备案流程: 1、注册账号:http://www.beian.gov.cn/portal/index.do
雾海梦曦
2022/11/04
5.1K0
个人博客网站是否应该公安备案?
SEM是否应该投放品牌词
我们在给企业做基于网站的互联网销售时,除了seo营销就是关键词竞价排名-sem。sem是一个烧钱的营销方式,但也是见效最快的方式,只要推广资金充裕,网站流量会有一个质的提升,但长期运营sem,其高昂的费用不是每个企业都能接受的,所以优化投放的关键词是首要任务。
蝙蝠侠IT
2020/11/11
5480
SEM是否应该投放品牌词
php案例:判断IP地址是否合法+IP地址范围区间
作者:陈业贵 华为云享专家 51cto(专家博主 明日之星 TOP红人) 阿里云专家博主 文章目录 cyg.php cyg.php <?php //IP地址的范围:1.0.0.1-----255.
贵哥的编程之路
2022/10/24
2.3K0
php案例:判断IP地址是否合法+IP地址范围区间
SaaS创业初期是否应该做BD?
本文作者 吴昊:腾讯SaaS加速器导师、纷享销客天使投资人、前执行总裁,具有20年企业信息化和6年SaaS营销团队创新经验。 昨天与一个产品思路不错的创始人聊营销工作如何打开,整个销售体系从人才、组织、方法、目标、考核、文化等各方面都需要系统设计和启动。创始人最后问了一个问题:我有很多行业资源,例如行业培训及咨询机构、行业协会、上游厂商,能一下撬动大批客户,这个BD(商业拓展)是否该做? 我的回答是:No,千万不要好大喜功! BD和销售的最大区别是,一个绕路但省时间、有机会批量获得客户,一个直接
腾讯SaaS加速器
2020/06/09
4570
博客 | AI 从业者都应该知道的实验数据集
少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名称,如 MNIST、CIFAR 10 以及 Imagenet 等。
AI研习社
2018/12/07
5090
kafka 数据清除机制
在Kafka中,存在数据过期的机制,称为data expire。如何处理过期数据是根据指定的policy(策略)决定的,而处理过期数据的行为,即为log cleanup。
用户1217611
2022/05/06
2.3K0
kafka 数据清除机制
43种机器学习开源数据集(附地址/调用方法)
学习机器学习是一个不断探索和实验的过程,因此,本文将主要介绍常见的开源数据集,便于学习和实验各种机器学习算法!
扬起
2022/06/30
1.3K0
43种机器学习开源数据集(附地址/调用方法)

相似问题

是否应该将数据集划分为训练、测试和验证?

10

是否应该防止增强的数据泄漏到测试/交叉验证集

10

对于不平衡的分类,是否应该平衡验证数据集?

30

我是否应该将数据集划分为多个预测模型?

10

比较数据集-我应该使用相同的测试数据集吗?

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文