我正致力于在区块链上进行欺诈检测。更具体地说,我获取了大量发生在区块链上的事务,并使用适当的API将它们标记为垃圾邮件/非垃圾邮件,现在我将训练一个使用SVM来检测欺诈的模型,等等。
我的问题是关于数据的准备。我的字段是:散列,现在的transaction_index,from_address,to_address,.
"from/to_address“字段是十六进制字段,如0x5e14d30d2155c0cdd65044d7e0f296373f3e92f65ebd
我的问题是,我应该如何格式化这些数据?我应该删除这个字段吗?(我不这么认为,因为它与眼前的问题非常相关)。我也找不到合适的编码。
发布于 2022-04-24 13:00:10
在模型中保留"from/ to _address“是可以的。选择一个学习适当加权特征的算法是很有用的。
在大多数机器学习算法中,当前的十六进制格式将被编码为字符串。使用特征散列将其编码为适合大多数机器学习算法的数值可能是有用的。
https://datascience.stackexchange.com/questions/104659
复制相似问题