我不知道这个问题是否正确,但我要求解决我的疑虑。
Machine Learning/Data Mining
,我们需要了解数据,这意味着您需要学习Hadoop
,它有Java
For MapReduce
的实现(如果我错了,请纠正我)。streaming api
来支持其他语言(如python
)。hadoop and Java combination
的职位我观察到,Java
和Python
(在我的观察中)是这个领域使用最广泛的语言。
most popular language
是什么?factors
涉及到什么?Java(because of hadoop implementation)
编程Python(because its easier and quicker to write)
编程
这是一个非常开放的问题,我相信这些建议可能会对我和那些有同样疑问的人有所帮助。
提前谢谢
发布于 2011-06-21 23:54:33
不幸的是,在我看来,主流语言是MATLAB.不幸的是,由于我既不喜欢也不使用这种语言,所以我更倾向于用C++/Java编程。但是我身边的数据挖掘者和机器学习人员倾向于坚持MATLAB.
编辑:我刚刚在维基百科的R页面上读到了一行非常有趣的文章:
根据Rexer公司2010年的年度数据挖掘调查,R已成为比其他任何数据矿工更多(43%)使用的数据挖掘工具。
发布于 2011-06-21 22:51:34
我对Java和Hadoop没有经验,但我同时使用Python和MATLAB进行机器学习,现在我更多地使用MATLAB。事实上,我的个案的重要因素如下:
对于Python,也有一些观点是正确的。但正如我所说,我所在的社会在决定语言方面起着重要的作用。
发布于 2011-06-24 14:57:45
R对于数据挖掘(当然)和机器学习也是一个很好的候选。
(当然是泛化。)
Java和Hadoop在严重的大数据和/或扩展需求方面是非常有意义的。Java为您提供了库和一群程序员。Hadoop为您提供了相当无痛的分布,并为将各种算法映射到框架提供了越来越多的知识库。
Python似乎有学者站在它的一边,特别是最近的毕业生,他们现在在专业实践中很活跃,也很有影响力。另外,如果您只想尝试一些东西,那么像Python这样的具有表现力的动态语言显然是非常有用的。
然后是R (有更多,但这是我的知识范围/g/)
我认为,除了对R带来的数据的明显关注(因此,一个数据极客社区,以帮助解决科学部分,以及),它是一个愉快的轻量级系统和在图书馆方面也不算太寒酸。。
也就是说,人们会认为(~)函数语言(Scala,Clojure on JVM;Haskell等)对于处理数据和处理大型数据集来说,这是一个很好的选择。
https://stackoverflow.com/questions/6429772
复制