腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
文件多标签分类-你从哪里得到标签?本体?
ontology
、
n-gram
、
document-classification
、
vowpalwabbit
我熟悉数据挖掘技术,但不太熟悉文本挖掘或Web挖掘。 这里有一个简单的任务:将文章分类为一组类别。让我们假设,我提取了文章的文本内容并对其进行了处理。 你是如何从哪里得到类别预定义标签的?是否有可能插入一个本体,对其进行分类,并根据需要进行粒度分析?分类任务将是一个多标签分类。 在这种情况下,我们是否使用n-g来进行近似匹配? 目前,我有从文本中提取的主题和命名实体。我能用Vowpal Wabbit吗?
浏览 2
提问于2014-05-17
得票数 0
回答已采纳
1
回答
如何使用Python/NLTK确定两个命名实体之间的“情感”?
python
、
nlp
、
nltk
我正在使用NLTK来提取命名实体,我想知道如何确定同一句子中实体之间的情感。比如“乔恩爱巴黎”我会得到两个实体Jon和Paris。我如何才能确定这两个实体之间的情感?在这种情况下,应该类似于Jon -> Paris =正
浏览 0
提问于2014-05-01
得票数 0
3
回答
关于Cassandra中使用的分布式计算概念的书籍推荐
nosql
、
cassandra
、
distributed-computing
关于Cassandra使用的分布式计算概念/数据库内部原理,你会推荐哪本书? 在上列出了一系列概念和定义 谢谢!
浏览 0
提问于2010-07-30
得票数 7
回答已采纳
1
回答
网络分析与数据科学相似吗?
machine-learning
、
deep-learning
、
career
、
market-basket-analysis
、
consumerweb
我刚刚完成PhD,最初希望从事数据科学和深度学习。然而,经过几轮的面试,我在一家中等规模的公司得到了一份网络分析和商业智能的工作。是否与数据科学有任何相似之处,其中是否有未来? 由于一些不稳定的情况,我不得不接受这份工作,但我应该同时继续寻找另一份工作,还是这段经历有助于我晋升或加入一个大品牌?
浏览 0
提问于2017-09-08
得票数 0
2
回答
用成分数据进行主成分分析
predictive-modeling
、
beginner
、
dimensionality-reduction
另一个初学者的问题:我正在尝试对组合数据进行PCA。换句话说,组中的所有变量加起来都是100%。 从那以后,我在这个论坛上了解到,组合数据会给线性回归带来问题。当进行PCA时,组合数据也会带来一个独特的问题吗?
浏览 0
提问于2016-06-04
得票数 0
1
回答
为用户安全地生成RSA密钥
php
、
encryption
、
key
、
rsa
我有一个用户系统,它管理用户的属性,哈希加盐密码,RSA公钥和RSA私钥加密(通过实际的盐+密码)。 RSA密钥是在用户注册期间生成的,或者如果密码被重置(通过用户管理员或忘记密码),因为私钥在没有密码的情况下基本上是丢失的。 目前,RSA密钥是在客户机上生成的,用它们的密码加密(安全地存储在浏览器内存中),然后发送回服务器来存储数据。 但现在,我想为RSA密钥生成创建另外两个选项。这两种方法都将在消息队列系统上工作,该消息队列系统将在本地系统上处理(通过cron),或者系统将消息发送到另一台服务器(通过对称加密通道),该服务器创建密钥并将其发送回系统进行存储。 虽然这些方法是执行RSA生成的
浏览 1
提问于2013-01-05
得票数 1
1
回答
通用伪造和EUF正式定义的参考
signature
、
security-definition
、
forgery
在许多文章中,我看到EUF-CMA和SUF-CMA被引用为一个规范术语,但我没有找到一篇给出这些术语的正式定义的参考论文/书籍。我正在寻找一个正式定义EUF-CMA、SUF-CMA安全性和通用伪造的引用,类似于这个回答。
浏览 0
提问于2021-10-17
得票数 0
回答已采纳
4
回答
情感分析的好算法
algorithm
、
sentiment-analysis
我尝试过朴素贝叶斯分类器,但效果很差。支持向量机的效果要好一些,但仍然很糟糕。我读过的大多数关于SVM和朴素贝叶斯的论文都有一些变体(n-gram,POS等),但它们都给出了接近50%的结果(文章的作者谈到了80%甚至更高,但我无法在真实数据上获得同样的准确性)。 除了词法分析之外,还有其他更强大的方法吗?支持向量机和贝叶斯假设单词是独立的。这些方法被称为“词袋”。如果我们假设单词是关联的呢? 例如:使用先验算法来检测如果句子包含“坏的和可怕的”,那么该句子是否定的概率为70%。我们还可以使用单词之间的距离等。 这是个好主意,还是我发明了自行车?
浏览 1
提问于2012-06-11
得票数 7
5
回答
Java中的别名分析
java
、
optimization
、
compiler-construction
、
code-analysis
、
java-bytecode-asm
有人能告诉我Java别名分析的框架或实现吗?我看了asm框架,但它只提供数据流分析和控制流分析。 更新:只是好奇,但是否有人知道Findbug是否进行别名分析?
浏览 3
提问于2011-12-03
得票数 18
1
回答
目录缺失
kubuntu
Kubuntu18.04,计算机预先配置了W10,但从未使用过,直接启动KU 我用文件夹视图(?)尝试了各种更改。桌面(?)以了解两者之间的差异。 在未完成的(1)中,我继续删除了/home目录中的一些目录(youtube、soundcloud)和文件(其中有几个字节大,但在Kate上没有显示内容)。 当我打开dolphin时,我注意到我的目录,/home/xyz/MYCOMPLETESTUFF/,我用来存储我所有文件的目录丢失了。其他(默认)目录仍然存在,包括。内容。例如/home/xyz/Videos、/home/xyz/Pictures等。 很久以前,我创建了一种从MYCOMPLETES
浏览 0
提问于2019-09-01
得票数 0
2
回答
在案例结构中使用巴特沃斯滤波器
signal-processing
、
labview
我在试着用巴特沃斯过滤器。输入数据来自“索引数组”模块(数据是通过DAQ获取的,我想要处理波形数组中的电压信号)。当我在case结构中使用这个过滤器时,它不起作用。然而,当我使用“波形调节”部分中的滤波器时,没有任何问题。这两种类型的过滤器到底有什么区别? 在我的问题上再加一点:第二张图片来自于我试图重新组合初始组合的时候,错误发生了
浏览 0
提问于2015-03-08
得票数 0
2
回答
如何将“hts”与多级层次结构一起使用?
r
、
hierarchy
、
time-series
、
forecasting
我在一个大的时间序列集(5,000+)上进行预测。如果我在更高的级别上进行预测,然后将预测向下分配到每个SKU,我希望使用分层方法来实现这一点。我认为有必要这样做,以便放大到较低的地理细节级别,同时在较高级别(自上而下)进行预测。 例如,下面您可以看到我正在考虑的结构的示例。 Total => Europe => Netherlands => RegionA => Client_A_in_Netherlands => SKU1 => SKU2
浏览 2
提问于2012-11-27
得票数 6
回答已采纳
1
回答
如何从一张图片中获得所有的局部“峰值”?
opencv
、
watershed
我想从下面的图片中得到所有的小山峰。我也想避免得到大的峰值(在右边),但我可以根据面积排除这一点。图像是Sobel算子的结果,但这并不重要。它将被用作分水岭算法的标记。这并不是我要处理的唯一图片,我不能仅仅依靠峰值的值,因为它们是“局部最大值”。请注意,当连接一些小凹凸时,轮廓检测将不起作用。图片:
浏览 7
提问于2019-07-25
得票数 0
1
回答
如何计算区块链/IPFS和Hadoop/HDFS上的可用性?
hadoop
、
hdfs
、
blockchain
、
ipfs
、
availability
通过比较区块链/IPFS和Hadoop/HDFS上的数据量,我正在撰写一份论文提案《如何使用区块链/IPFS优化大数据体系结构》,挑战在于如何计算或衡量这两种体系结构上的可用性?
浏览 39
提问于2021-10-06
得票数 0
回答已采纳
1
回答
Hadoop上的大图处理
python
、
hadoop
、
graph
、
random-walk
、
bigdata
我正在做一个项目,其中涉及到一个大图上的RandomWalk (太大了,不适合内存)。我用networkx在Python中编写了代码,但很快,图形变得太大,无法容纳内存,所以我意识到我需要切换到分布式系统。因此,我的理解如下: 我需要使用这样的图形数据库(土卫六、neo4j等) 图形处理框架,如hadoop上的ApacheGi相图/星星之火上的图形。 首先,是否有足够的API允许我继续使用编写代码,还是应该切换到? 其次是,我无法找到精确的文档,说明我如何编写自定义遍历函数(无论是在Gi相图还是图中),以便实现随机行走算法。
浏览 5
提问于2017-01-10
得票数 0
2
回答
如果没有发送数据,没有存储数据,我如何反复证明我拥有别人看到的数据?
protocol-design
我想知道这在理论上是可能的,还是不可能的,如果可能的话,是否有任何算法/协议来实现这一点. 我想要另一个实体,我们叫他们审计员,能够看到一个数据,存储一些从这些数据中派生出来的更小的东西(我可能不知道它是什么),然后我希望能够反复地向审计人证明,我仍然拥有这个数据,而不必发送数据本身。 如果我们放宽最后一个要求,我可以每次只发送数据,并且Auditor可以验证哈希。 如果我们放松“反复”的要求,审计长可以在不告诉我盐的情况下存储一个盐渍散列,然后再给我盐,然后向我要盐渍散列,但这只起了一次作用,因为后来我只记得盐渍散列,扔掉了数据,仍然愚弄了审计长。 如果我们放宽了“派生”要求,Auditor
浏览 0
提问于2012-01-25
得票数 3
回答已采纳
3
回答
对于何时应将可重现的代码包含到出版物中,是否有任何指导原则?
r
考虑到对可重现科学的重视,我想知道我最近的工作是否值得在出版物中包含示例代码。我使用的数据集非常大,所以发布这些必需性是没有意义的-然而,我在R中应用的统计方法通常不为我的受众所知(尽管我认为它们应该是)。 我在我的分析中使用了经验正交函数分析(EOF)和广义加性模型(GAM)。特别是,GAM在生态学研究中被广泛使用,但在物理科学中应用较少-我的工作跨越了这两个学科。 我绝对是指我使用的R包,审阅者/读者自己查找这些参考资料(包括示例)并不是很困难。所以,我的问题是,在什么情况下最适合在出版物中包含可重现的代码?
浏览 0
提问于2012-06-21
得票数 13
回答已采纳
2
回答
带曲线拟合的聚类算法
algorithm
、
sorting
、
optimization
、
cluster-analysis
、
curve-fitting
我有一大堆分数。可以将点分离成簇,每个聚类都很好地拟合一条回归曲线(直线)。 我想要簇的数目,这样点就能用相应的曲线来拟合。没有关于集群数量的先验知识。 目的是找到聚类和相关的回归曲线(第二是显而易见的,一旦你有集群)。 编辑::为了确定集群的数量,我知道一些BIC标准。这可能是一种以大约已知数量的集群开始的方法。
浏览 3
提问于2013-08-02
得票数 1
回答已采纳
1
回答
ai:确定要运行哪些测试才能获得最有用的数据
artificial-intelligence
、
heuristics
这是给的 我有一个系统(详见网站页面): visit)categories I需要输出与特定特征向量匹配的类别的排序列表(带有机密性)二进制特征向量是站点is的列表&对于给定的分类而言,这个会话检测到的hit特征向量是否有些嘈杂(对于给定的分类,站点将衰退,并且人们访问的站点通常是一个大的、非封闭的集合(用户is))--总特征空间约为5000万项(URL)<code>H 112</code>对于任何给定的测试,我只能查询许可。0.2%的空间I只能根据到目前为止的结果作出查询的决定,大约10~30次,并且必须在<100 is内进行(虽然需要更长的时间来进行后
浏览 5
提问于2010-03-11
得票数 0
1
回答
将规则从UML映射到面向列的NoSQL数据库
cassandra
、
uml
、
class-diagram
、
column-oriented
、
nosql
当我正在一个新的项目中将UML类图转换成一个NoSQL cassandra数据库时。我很难找到与关系模型相似的基本翻译规则。正如我在中所看到的,它是面向查询的建模。但是在实现之前是否有任何通用的规则概念。请帮帮忙
浏览 9
提问于2016-02-19
得票数 2
回答已采纳
1
回答
生成android应用程序的CFG -实用方法
android
、
analysis
我有一个关于用Androgurad工具或其他工具创建控制流图(CFG)的问题。浏览互联网时,我注意到,有一些方法可以创建android应用程序的CFG。例如,一些工具,如smali CFG生成器,APKInspector,dexter和许多其他由安卓安全专家编写的工具…….Also,Androguard有能力做到这一点。最重要的是,我想补充说,我已经阅读了Androguard教程,以及其他工具‘阅读ME文件和手册,没有全面的指南来创建CFG (特别是为我这样的新手)。 我已经在我的系统上安装了Santoku发行版来进行android反向工程。它安装了一些RE工具,如Androguard,APK
浏览 11
提问于2014-09-17
得票数 1
1
回答
低误报概率的校验和
c
、
probability
、
checksum
、
reliability
此时,我使用了一个简单的校验和方案,它只是将缓冲区中的单词相加即可。首先,我的问题是,假阴性的概率是多少,也就是说,即使数据不同(损坏),接收系统也会计算与发送系统相同的校验和。 其次,我如何才能降低假阴性的概率?对此最好的校验和方案是什么?注意,缓冲器中的每个字的大小为64位或8字节,这是64位系统中的长变量。
浏览 0
提问于2012-03-01
得票数 0
回答已采纳
2
回答
用小箱子造大S盒
algorithm-design
、
s-boxes
我想列出所有相关技术的详细清单,以便从较小的技术中构建一个大的S盒。据我所知,通常倾向于三种结构: Lai-Massey结构(用于设计思想分组密码) Feistel网络(用于从$n$-bit排列构建$2n$-bit排列) 模糊网络(最初结合$(n-1)$-位S-Box和$(n+1)$-bit one 在本文件中) 值得注意的是,本出版物分析了使用Feistel或烟雾网络构建8位S盒的利弊。 还有其他相关的技术来设计大型S盒子吗?
浏览 0
提问于2018-03-01
得票数 4
回答已采纳
2
回答
Cassandra的基于列族的数据模型是否与谷歌BigTable的基于列族的数据模型相同?
database
、
cassandra
、
bigtable
好吧,如果我理解正确的话,谷歌专有的BigTable是建立在谷歌专有的GFS之上的。 那么,在的主页上,他们实际上声称拥有BigTable的基于列系列的数据模型? 我的意思是,我真的看不出这是怎么可能的。 Cassandra的基于列族的数据模型是否与谷歌的BigTable的基于列族的数据模型相同?
浏览 0
提问于2011-07-11
得票数 1
回答已采纳
1
回答
未经训练的情绪分析,需要帮助捕获情绪变化的统计
statistics
、
sentiment-analysis
这个问题可能含糊其辞,但我会尽量用最好的语言来表达。 因此,我想出了一个粗略的算法来计算一个句子(评论片段的一部分)是肯定的、否定的还是中性的(让我们把这个句子称为EQ )。所以对于5个句子,我有一些句子的评分,基于- 100,100。评审必须在0,5的基础上进行评分 (0,39.88) (1,73.07) (2,69.65) (3,51.43) (4,76.74) 我正在努力的选择是,我现在应该选择什么方法来计算评论片段的总体评分。 我做了一点研究,尝试了两种选择 1) 50%百分位数:对于上面的数据点,我得到了70。因此,将其映射到0-5尺度上会得到4.2。结果是好的,但可悲的是,百分位数
浏览 0
提问于2011-07-25
得票数 0
2
回答
概念API快速删除和重新填充整个DB
python
、
notion-api
背景 我正在创建一个概念DB,它将包含关于我的团队使用的不同分析器的数据(分析器名称、位置、上次分析器发送数据的时间等等)。由于我使用的是实时数据,所以我需要有一种方法来快速更新db概念中所有分析器的数据。 我目前正在使用python脚本获取分析器数据,并将其上传到概念DB中。目前,我读取每一行,获取用于更新该行数据的ID --但这太慢了:更新100行需要超过30秒。 问题 我想知道是否有一种方法可以快速更新多行的数据(可能是在一个大的大容量操作中)。目标可能是每秒100行更新(而不是30秒)。
浏览 8
提问于2022-09-05
得票数 0
1
回答
OpenCL存储体冲突-内存丢失/数据损坏?
opencl
、
bank-conflict
我为这个问题的含糊之处提前道歉。 背景: 我正在尝试用OpenCL编写一个形态学图像处理函数。我有一个__local缓冲区,用来存储每个像素的数据(每个像素由一个工作项表示,还没有循环展开)。此外,由于我是早期测试,我只使用一个工作组(8x8像素图像,以便我可以手动验证结果)。 问题: 有时,必须将来自一个、两个、三个甚至四个像素的数据添加到另一个像素的像素缓冲区中。因为它们是同一工作组中的相邻像素,所以我确信我正在引起本地内存库冲突。没关系,速度不是我的首要任务(目前还没有!)然而,这些银行冲突似乎正在丢弃数据,甚至破坏数据。我一直非常小心,以免缓冲区溢出或溢出。 因此,我的第一个问题是:实
浏览 13
提问于2011-02-17
得票数 1
2
回答
对数据科学来说,真正的分析和测量理论是必不可少的吗?
machine-learning
、
career
、
probability
有人说,数据科学家不一定需要了解实分析和测度理论,但对于其他人来说,实分析和测度理论对于理解核方法、随机过程等是非常重要的。我应该学习实分析和测度理论吗?我不想太学术
浏览 0
提问于2016-04-05
得票数 2
2
回答
如何对大型数据集进行聚类
algorithm
、
data-structures
、
cluster-analysis
我有一个非常大的文档数据集(5亿),并希望根据其内容对所有文档进行聚类。 什么是最好的方法来解决这个问题?我尝试使用k-方法,但它似乎不合适,因为它需要所有的文档同时进行计算。 是否有适合较大数据集的聚类算法? 参考:我正在使用Elasticsearch来存储我的数据。
浏览 1
提问于2015-05-12
得票数 2
回答已采纳
1
回答
如何替换AMELIA结果中缺失的数据
missing-data
我已经对包含丢失数据的数据集运行了AMELIA补偿。我需要用amelia()的结果替换缺少的点。但它包含了5组预测值。如何选择最佳的值来替换缺失值(在输入后绘制数据集图)
浏览 0
提问于2014-06-27
得票数 0
1
回答
用于Python的静态数据流图生成器?
python
、
programming-languages
、
static-analysis
、
dataflow
、
graphml
为了找到一个用于Python的静态数据流图生成器,我已经挣扎了相当一段时间。 这是我的理想:给定一个小型python脚本example.py (用Python3编写),返回数据流图的一些表示。 我能够使用IBM图( )实现这个结果,它以graph.ml格式输出数据,不幸的是,这个包只执行动态分析。 我想知道是否有人知道DFG工具可以为Python进行这种静态数据流分析?
浏览 5
提问于2020-05-15
得票数 4
4
回答
什么是基于证据的软件工程?
methodology
看起来2010年,一种名为EBSE的新的奇特方法论即将到来。 有人能给我解释一下吗?
浏览 3
提问于2009-12-03
得票数 14
回答已采纳
1
回答
Mysql内存设置
mysql
、
memory-management
我有一个关于mysql内存设置的问题。我目前正在用非常大的桌子做实验。当我对它们运行复杂的查询时,mysql会耗尽内存。 mysql中允许一次处理更大大小的数据的适当设置是什么?我该如何改变它呢? 有什么消息吗?
浏览 8
提问于2012-09-06
得票数 1
回答已采纳
1
回答
如何选择Cassandra,Membase,Hadoop,MongoDB,关系型数据库等?
mongodb
、
hadoop
、
cassandra
、
membase
、
nosql
是否有关于何时使用Cassandra、Membase、Hadoop或普通关系数据库的论文/博客文章?是否有一篇论文讨论了每种技术的优缺点,以及在什么情况下应该选择这两种技术中的一种? 我正在考虑写一个新的网络服务,每天大约有一百万的点击量和大约几of的数据。
浏览 1
提问于2011-11-14
得票数 39
回答已采纳
1
回答
基于matlab的SWLDA脑电数据分类
matlab
、
regression
、
lda
我想在脑电图数据分类方面寻求你的帮助。 我是一个研究生,试着分析脑电图数据。 现在我很难用Matlab对ERP拼写器(P300)进行分类。 也许我的代码有问题。 我读过几篇文章,但没有详细说明。 我的数据大小描述如下。 尺寸(目标)= 300 1856大小(非目标)= 998 1856 行表示试验次数,列表示跨功能(我扩展了数据 )。 利用Matlab中的分步函数对目标和非目标进行了分类。 代码附在下面。 ingredients = [targets; nontargets]; heat = [class_targets; class_nontargets]; % target: 1, non
浏览 4
提问于2017-09-15
得票数 0
1
回答
需要一个关于研究主题的建议
research
我即将为我的硕士论文选择ML研究主题,但我正处于一个死胡同。问题是,在阅读研究论文时,我找到了解决办法,但不是一个开放的问题。 现在,A想出了这样的想法: 研究神经网络量化算法--我在3个月前就开始研究这个课题,在我看来,目前的论文揭示了较高的计算方法。我不知道在这一领域能做些什么。 利用量化神经网络实现在线视频处理系统。这听起来也不错,但只需几行Tensorflow Lite代码即可完成。 智能图像数据库-图像数据库,具有图像分类器和自动标注检测器。这似乎是个好主意,但我需要在这里找到一个研究的部分。对我来说,这个任务听起来像是纯工程任务。 做一些信号处理的研究。它可以与作为最佳硬件实现的第
浏览 0
提问于2020-02-25
得票数 3
回答已采纳
5
回答
电影评论情感分析的训练数据集
machine-learning
、
python
、
classification
、
data-mining
、
sentiment-analysis
我目前正在使用Python进行情感分析。根据情绪分析,我想找出一部电影的评论是正面的还是负面的。我在此链接中找到了一个培训数据集。 这个数据集有评论,得分1表示评论为正,0表示电影评论为负值,但记录数量较少。我有一个测试数据集,我将预测基于训练集。我的测试数据集有复杂而冗长的单词,我的python模型有时会给出负面评论的正结果(负面评论返回的结果为1)。我正在寻找更好的数据集来训练我的模型,以便我的模型能够很好地预测。你能告诉我任何好的/大的和有效的训练数据用于这个场景吗?如果你能分享任何链接,那将是很棒的。培训数据可以格式为1的正面评论,0的负面评论,甚至极性,如pos,积极的评论,或neg
浏览 0
提问于2016-04-15
得票数 7
1
回答
包含代码的MapReduce实时项目
mapreduce
我想看看代码的大mapreduce作业。请给我一些关于真正的mapreduce项目和实时使用案例的想法
浏览 0
提问于2014-06-25
得票数 0
1
回答
我在哪里可以找到丹·邦纳在PLONK文件中描述的关于PLONK的视频中所描述的两种步骤/证据?2似乎不匹配
zero-knowledge-proofs
、
snarks
这是Dan在PLONK - https://www.youtube.com/watch?v=vxyoPM2m7Yg上的视频 我多次看过这段视频&还试着翻阅原始的PLONK纸-- https://eprint.iacr.org/2019/953.pdf。 Boneh对PLONK的解释包括步骤 1) Boneh考虑方程的轨迹作为输入(公共和私有)&门。假设有3个门和3个输入,每个门可以被认为是 Left o Right = Output 所以3个门变成9分。再加上这三个输入的三个点。我们总共得到12分。 所以他用这12个点插值了一个11度的多项式P(X)。 平面纸:我一点也没看到那
浏览 0
提问于2023-04-27
得票数 1
2
回答
用于数据测井应用的推荐CRC16多项式
crc
、
error-detection
我正在编写一个数据记录应用程序(在微控制器上运行),它将数据写入普通的嵌入式NOR类型的串行闪存(在本例中为AT25DF161)。 每个数据包(240或496字节)将被逐个记录到闪存中。我认为闪存中最常见的故障是卡位-通常是"0",即未擦除状态。我需要能够检测单比特事件,通常是-at -每个记录两个比特事件(我假设这是100,000个写周期之后的最坏情况)。 我使用的处理器有一个内置的16位CRC计算模块,所以使用更少或更多的项并不会影响性能-那么我需要做出什么决定才能决定最优的多项式呢?
浏览 11
提问于2012-09-04
得票数 0
1
回答
MICE多重推算数据集的数量。
r
、
missing-data
、
r-mice
我有多个关于多重推算数据集"m“的效用的问题。我所理解的是,老鼠会重复m次数据集中缺失值的计算过程。 1)小鼠是否考虑了前一步的归因,因此每一步都接近最终收敛,或者每一步都是完全独立的? 2)如果每个步骤都是相互独立的,那么为了一个估算目的而拥有多个推算数据集的意义是什么? 在解释mice的论文中,有一种显示多个补偿步骤的方案 我想,当我们想要汇集结果时,我们拥有的估算数据集越多越好,但是分析结果步骤意味着要创建一个预测模型,该模型可以是: #build predictive model fit <- with(data = imp, lm(y ~ x + z)) 如果我的数据
浏览 0
提问于2018-05-15
得票数 1
1
回答
如何找到加权最小二乘回归的权重?
machine-learning
、
regression
、
linear-regression
当我们做加权最小二乘时,如何求出权重?无论在哪里,我都看到教程只是使用w_i = \frac{1}{(sigma)i^2}并使用基本数据来完成它。但我想知道如何找到真实数据的权重。它总是方差平方的逆吗?
浏览 0
提问于2020-10-05
得票数 0
1
回答
文本聚类中的关键字数量
scikit-learn
、
cluster-analysis
、
lda
、
nmf
我正在处理一个适当大小的数据集,并希望确定哪些#主题是有意义的。我同时使用了NMF和LDA (sklearn实现),但关键问题是:什么是衡量成功的合适标准。从视觉上看,我在许多主题中只有几个身高-体重关键字(其他权重~ 0),以及一些主题具有更多钟形分布的主题。目标是什么:一个主题只有几个单词,权重高,休息低(尖峰)或钟形分布,在一个大的#关键词NMF上逐渐减少权重 或者LDA方法 这主要是钟形的(显然不是曲线) 我还使用了加权jaccard (设置关键字重叠,加权;毫无疑问,还有更好的方法,但这是一种直观的方法 你对此有何感想? 最好的 安德烈亚斯 上的代码
浏览 1
提问于2021-05-06
得票数 0
3
回答
面向语言的编程文章/论文/教程
programming-languages
、
computer-science
、
dsl
、
mps
市场上有许多像MPS这样的工具,它们促进了面向语言的编程,这应该让程序员有能力为任务设计一种(理想的)语言。出于某种原因,这听起来既有趣又无聊,所以我想知道是否有人知道并可以推荐关于主题的文章。 谢谢
浏览 1
提问于2011-09-29
得票数 4
回答已采纳
1
回答
关于堆插入的O(1)平均情况复杂度的参数
algorithm
、
insert
、
heap
、
time-complexity
对的断言是,在最坏的情况下插入为O(log ),但O(1)平均为: 所需操作的数量仅取决于新元素为满足堆属性而必须上升的级别数,因此插入操作的最坏情况时间复杂度为O(log ),但平均情况复杂度为O(1)。 试图从以下几个方面证明这一点: 但是,平均而言,新插入的元素不会在树上移动很远。特别是,假设键的均匀分布,它有一半的机会比它的父母大;它有一半的机会比它的祖父母大,因为它比它的父母大;它有一半的机会比它的曾祖父大,因为它比它的父母大,等等……因此,在平均情况下插入需要恒定的时间。 不过,这肯定是胡说八道?在我看来,如果这棵树是随机排列的,那么一个新元素比它的父元素更大的可能
浏览 0
提问于2016-09-15
得票数 27
回答已采纳
1
回答
CT扫描标准化
computer-vision
、
image-preprocessing
、
image-segmentation
我在一个大型CT扫描数据集上训练了一个感染分割模型,并希望将其扩展到其他数据集,以显示该模型的泛化能力。但我发现,CT扫描看起来很不一样。例如, 第一组数据的CT扫描, 来自另一个数据集的图像 我试了三件事: 全局均值/标准差(从每幅图像中减去相同的向量m,除以s), 局部均值/标准差(从每幅图像减去其m,除以其s,使每幅图像正态分布为平均m和std s, 伽马校正(\gamma=0.01),见底部的图像。 都不起作用。我的问题是:是否有可能使其他CT扫描“正常化”,从某种意义上说,“正常化”使它们与我训练的模型更相似? 📷 📷 📷
浏览 0
提问于2020-10-01
得票数 1
1
回答
日志文件的远程监视
linux
、
logs
、
remote-access
、
ssh
我在寻找监控多个linux远程服务器日志文件的软件。 我现在是怎么做的?只需打开ssh客户端并跟踪我想要的文件,但是您必须为每个服务器和每个文件打开终端。 我想要什么?在我定义远程主机和远程文件的软件中,运行后它应该在远程服务器上显示多个带有尾尾日志文件的窗口。 我发现了什么?katzgrau/chip 在这里输入链接描述,但它是2014年的项目,目前仍处于alpha级。所以还有什么东西被保留着呢?
浏览 0
提问于2019-05-25
得票数 0
1
回答
对代码注入攻击具有很高抵抗力的协议?
protocols
、
injection
在阅读了基于语言的安全性之后,使用上下文无关或常规语法定义的协议似乎对代码注入攻击具有很高的抵抗力。 是否有任何良好的安全协议是上下文无关的或常规的?
浏览 0
提问于2013-11-28
得票数 1
1
回答
时间序列的子序列部分匹配
machine-learning
、
classification
、
time-series
、
regression
、
pattern-recognition
我有一组时间序列数据(就像语音序列数据),其模式如第一个图(理论数据)所示。测量数据如第二图所示。我想要做的是定位/查找后续的模式,如红色方块中所示。有什么算法可以解决这个问题吗?这看起来像是机器学习中的分类/回归问题,但我不知道如何开始。 📷 📷
浏览 0
提问于2020-10-16
得票数 2
回答已采纳
3
回答
如何扩大算法开发的规模?
algorithms
在进行探索性数据分析和开发算法时,我发现我的大部分时间都花在可视化、编写代码、在小数据集上运行、重复的循环中。我所拥有的数据往往是计算机视觉/传感器融合类型的东西,而且算法是视觉密集型的(例如,目标检测和跟踪等),而现成的算法在这种情况下不起作用。我发现这需要大量的迭代(例如,拨入算法的类型或调整算法中的参数,或获得可视化的正确结果),而且即使在一个小数据集上运行时间也很长,所以所有这些都需要一段时间。 如何加快算法开发本身并使其更具可伸缩性? 一些具体挑战: 如何减少迭代次数?(尤指)如果不尝试不同的版本并检查它们的行为,哪种算法,更不用说它的具体细节,似乎是不容易预见的) 如何在开发过程中
浏览 0
提问于2014-05-14
得票数 21
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何拯救你的论文数据分析图?
Python爬虫数据分析的基本概念
大数据分析的4个核心概念
数据分析前,必须要明白的几个概念
了解数据分析常用的基本概念
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券