开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark - HashingTF inputCol接受一个列，但我想要更多

Spark是一个开源的大数据处理框架，用于高效地处理大规模数据集。它提供了丰富的功能和工具，包括分布式数据处理、机器学习、图计算等。

HashingTF是Spark MLlib库中的一个特征提取工具，用于将文本数据转换为数值特征向量。它通过将文本中的词语映射到一个固定大小的特征向量中的索引位置，并计算每个词语在文本中的出现频率，从而将文本转换为数值特征向量。

inputCol是HashingTF的一个参数，用于指定输入数据的列名。它接受一个列作为输入，并将该列中的文本数据转换为特征向量。

如果你想要更多的列作为输入，可以使用Spark的Pipeline机制来进行多列的特征提取。首先，你可以使用Spark的StringIndexer将每个输入列中的文本数据转换为数值标签。然后，你可以使用Spark的VectorAssembler将这些数值标签合并为一个特征向量列。最后，你可以将合并后的特征向量列作为HashingTF的输入列。

以下是一个示例代码：

import org.apache.spark.ml.feature.{HashingTF, StringIndexer, VectorAssembler}
import org.apache.spark.ml.Pipeline

// 假设你有两个输入列：inputCol1和inputCol2
val inputCol1 = "text1"
val inputCol2 = "text2"

// 创建StringIndexer来将文本数据转换为数值标签
val indexer1 = new StringIndexer()
  .setInputCol(inputCol1)
  .setOutputCol("label1")

val indexer2 = new StringIndexer()
  .setInputCol(inputCol2)
  .setOutputCol("label2")

// 创建VectorAssembler来合并数值标签为一个特征向量列
val assembler = new VectorAssembler()
  .setInputCols(Array("label1", "label2"))
  .setOutputCol("features")

// 创建HashingTF来将特征向量列转换为数值特征向量
val hashingTF = new HashingTF()
  .setInputCol("features")
  .setOutputCol("hashedFeatures")

// 创建Pipeline来组合以上步骤
val pipeline = new Pipeline()
  .setStages(Array(indexer1, indexer2, assembler, hashingTF))

// 使用Pipeline来进行特征提取
val model = pipeline.fit(data)
val transformedData = model.transform(data)

在这个示例中，我们首先使用StringIndexer将输入列中的文本数据转换为数值标签，然后使用VectorAssembler将这些数值标签合并为一个特征向量列，最后使用HashingTF将特征向量列转换为数值特征向量。

关于Spark和MLlib的更多信息，你可以参考腾讯云的产品Spark和MLlib的介绍页面：

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

MLlib

使用Spark SQL中的DF作为数据集，可以容纳各种数据类型。DF被ML Pinline用来存储源数据。DF中的列可以是：

01

图解大数据 | Spark机器学习(上)-工作流与特征工程

教程地址：http://www.showmeai.tech/tutorials/84

02

【干货】Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题

【导读】近日，多伦多数据科学家Susan Li发表一篇博文，讲解利用PySpark处理文本多分类问题的详情。我们知道，Apache Spark在处理实时数据方面的能力非常出色，目前也在工业界广泛使用。

探索MLlib机器学习

实用工具：线性代数，统计，数据处理等工具特征工程：特征提取，特征转换，特征选择常用算法：分类，回归，聚类，协同过滤，降维模型优化：模型评估，参数优化。

02

spark 之TF-IDF提取文章关键词

提取一篇文章中的关键词时，一个很常见的思路就是找到出现次数最多的词。但是很多时候一些副词、形容词，英文中的a the an on等，中文里的的、是、在等在文档中出现的词数会比较多，但是并不是关键词，没有实际意义，所以这些被列入停用词范畴。下面咱们就来探索一下使用spark的ml-lib来提取文章的关键词以及在寻找关键词过程中出现的一些概念说明。对于下面这样一篇金融类的文章(由于篇幅有限，只截取部分)：

03

Spark 模型选择和调参

官方文档：https://spark.apache.org/docs/2.2.0/ml-tuning.html

05

Spark Extracting,transforming,selecting features

官方文档链接：https://spark.apache.org/docs/2.2.0/ml-features.html

04

Spark Pipeline官方文档

官方文档链接：https://spark.apache.org/docs/latest/ml-pipeline.html

03

图解大数据 | Spark机器学习(下)—建模与超参调优

教程地址：http://www.showmeai.tech/tutorials/84

02

数据量大了跑不动？PySpark特征工程总结

我们定义了一些测试数据，方便验证函数的有效性；同时对于大多数初学者来说，明白函数的输入是什么，输出是什么，才能更好的理解特征函数和使用特征：

02

Spark机器学习实战 (十一) - 文本情感分类项目实战

将结合前述知识进行综合实战，以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联，使大家能够对Spark的具体应用有一个整体的感知与了解。

04

Spark机器学习实战 (十一) - 文本情感分类项目实战

将结合前述知识进行综合实战，以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联，使大家能够对Spark的具体应用有一个整体的感知与了解。

02

在统一的分析平台上构建复杂的数据管道

在Quora上,大数据从业者经常会提出以下重复的问题：什么是数据工程（Data Engineering）？如何成为一名数据科学家（Data Scientist）？什么是数据分析师（Data Analyst）？

08

Spark的Ml pipeline

ML pipeline提供了一组统一的高级API，它们构建在 DataFrame之上，可帮助用户创建和调整实用的机器学习pipeline。一重要概念 1.1 管道中的主要概念 MLlib对机器学习算法的API进行了标准化，使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。 DataFrame：这个ML API使用Spark SQL 的DataFrame作为一个ML数据集，它可以容纳各种数据类型。例如，a DataFrame具有可以存

09

BigData--大数据技术之Spark机器学习库MLLib

MLlib fits into Spark’s APIs and interoperates with NumPy in Python (as of Spark 0.9) and R libraries (as of Spark 1.5). You can use any Hadoop data source (e.g. HDFS, HBase, or local files), making it easy to plug into Hadoop workflows. 1、Spark MLib介绍

01

Spark MLlib特征处理之 StringIndexer、IndexToString使用说明以及源码剖析

StringIndexer可以把字符串的列按照出现频率进行排序，出现次数最高的对应的Index为0。比如下面的列表进行StringIndexer

00

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

02

SparkMLLib中基于DataFrame的TF-IDF

一简介假如给你一篇文章，让你找出其关键词，那么估计大部分人想到的都是统计这个文章中单词出现的频率，频率最高的那个往往就是该文档的关键词。实际上就是进行了词频统计TF(Term Frequency，缩写为TF)。但是，很容易想到的一个问题是:“的”“是”这类词的频率往往是最高的对吧？但是这些词明显不能当做文档的关键词，这些词有个专业词叫做停用词(stop words)，我们往往要过滤掉这些词。这时候又会出现一个问题，那就是比如我们在一篇文章(浪尖讲机器学习)中得到的词频:“中国人”“机器学习“

07

PySpark ｜ML（转换器）

在PySpark中包含了两种机器学习相关的包：MLlib和ML，二者的主要区别在于MLlib包的操作是基于RDD的，ML包的操作是基于DataFrame的。根据之前我们叙述过的DataFrame的性能要远远好于RDD，并且MLlib已经不再被维护了，所以在本专栏中我们将不会讲解MLlib。

02

SparkML模型选择（超参数调整）与调优

Spark ML模型选择与调优本文主要讲解如何使用Spark MLlib的工具去调优ML算法和Pipelines。内置的交叉验证和其他工具允许用户优化算法和管道中的超参数。模型选择（又称为超参数调整） ML中的一个重要任务是模型选择，或者使用数据来找出给定任务的最佳模型或参数。这也被称为调优。可以针对单个独立的Estimator进行调优，例如LogisticRegression，也可以针对整个Pipeline进行调优。用户可以一次针对整个pipeline进行调优，而不是单独调优pipeline内部的

05

从Spark MLlib到美图机器学习框架实践

在深入介绍 Spark MLlib 之前先了解机器学习，根据维基百科的介绍，机器学习有下面几种定义：

01

从Spark MLlib到美图机器学习框架实践

感谢阅读「美图数据技术团队」的第 23 篇原创文章，关注我们持续获取美图最新数据技术动态。

03

Spark机器学习——模型选择与参数调优之交叉验证

spark 模型选择与超参调优机器学习可以简单的归纳为通过数据训练y = f(x) 的过程，因此定义完训练模型之后，就需要考虑如何选择最终我们认为最优的模型。如何选择最优的模型，就是本篇的主要内容：模型验证的方法超参数的选择评估函数的选择模型验证的方法在《统计学习方法》这本书中，曾经讲过模型验证的方法有三种，分别是简单的交叉验证，S折交叉验证，留一交叉验证简单的交叉验证即把全部数据按照比例分割成两部分，分别是训练集和测试集。在训练集训练模型，在测试集测试效果，最终选择一个代价比较小

06

基于spark源码做ml的自定义功能开发

极大方便了我们在做数据预处理时的使用。但是这明显不够，在机器学习的领域中，还有许许多多的处理方式，这些都没有存在于feature包中。那要如何去实现？

01

基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 from CCF举办的“大数据精准营销中搜狗用户画像

04

Spark应用HanLP对中文语料进行文本挖掘--聚类详解教程

用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;

00

为什么去开发一个MLSQL

第一个，算法的着眼点是，用最快速的方式清洗一些数据出来，然后接着建模训练，评估预测效果，之后再重复清洗数据，再试验。因为很多算法工程师都是Python系的，对他们来说，最简单的方式自然是写python程序。一旦确认清洗方式后，这种数据清洗工作，最后研发工程师还要再重新用Spark去实现一遍。那么如果让算法工程师在做数据清洗的时候，直接使用PySpark呢？这样复用程度是不是可以有所提高？实际上是有的。但是算法工程师初期用起来会比较吃力，因为PySpark的学习成本还是有的，而且不小。

02

Spark应用HanLP对中文语料进行文本挖掘--聚类

用到的知识：HanLP、Spark TF-IDF、Spark kmeans、Spark mapPartition;

00

基于Spark进行社交媒体数据处理和分析：热点话题、用户情感分析与舆论控制

摘要：本文将介绍如何使用Spark对社交媒体数据进行处理和分析，以生成热点话题、用户情感分析等，并讨论一下如何利用这些分析结果来控制舆论方向，文中将提供详细的代码示例，以帮助读者理解和实践这些技术。

07

人工智能，应该如何测试？（六）推荐系统拆解

根据之前学习到的内容，我们已经基本了解到了要如何构建一个二分类模型。我们都知道模型大体可以分成，回归，二分类和多分类。但推荐系统是属于哪一种场景呢，比如我们常见的广告推荐或者内容推荐，这些场景都是由系统来判断用户的喜好来推送广告或者视频内容，以追求更高的点击率和转化率。这种场景怎么看都不像跟这三种类型的算法有关系。

01

【原】Learning Spark (Python版) 学习笔记(四)----Spark Sreaming与MLlib机器学习

本来这篇是准备5.15更的，但是上周一直在忙签证和工作的事，没时间就推迟了，现在终于有时间来写写Learning Spark最后一部分内容了。　　第10-11 章主要讲的是Spark Streaming 和MLlib方面的内容。我们知道Spark在离线处理数据上的性能很好，那么它在实时数据上的表现怎么样呢？在实际生产中，我们经常需要即使处理收到的数据，比如实时机器学习模型的应用，自动异常的检测，实时追踪页面访问统计的应用等。Spark Streaming可以很好的解决上述类似的问题。了解Spark S

ML学习笔记之TF-IDF原理及使用

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).

01

如何使用Apache Spark MLlib预测电信客户流失

Spark MLLib是一个用于在海量数据集上执行机器学习和相关任务的库。使用MLlib，可以对十亿个观测值进行机器学习模型的拟合，可能只需要几行代码并利用数百台机器就能达到。MLlib大大简化了模型开发过程。

01

PySpark ML——分布式机器学习库

继续PySpark学习之路，本篇开启机器学习子模块的介绍，不会更多关注机器学习算法原理，仅对ML库的基本框架和理念加以介绍。最后用一个小例子实战对比下sklearn与pyspark.ml库中随机森林分类器效果。

02

CountVectorizer

CountVectorizer 关于文本特征提取，前面一篇文章TF-IDF介绍了HashingTF，本文将再介绍一种Spark MLlib的API CountVectorizer。 CountVectorizer 和 CountVectorizerModel 旨在帮助将文本文档集合转化为频数向量。当先验词典不可用时，CountVectorizer可以用作Estimator提取词汇表，并生成一个CountVectorizerModel。该模型会基于该字典为文档生成稀疏矩阵，该稀疏矩阵可以传给其它算法，比如

07

scala-sparkML学习笔记：serializable custom transformer with spark-scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

05

【Spark Mllib】逻辑回归——垃圾邮件分类器与maven构建独立项目

配置的时候要注意spark 和 scala 的版本，可以打开spark-shell 观察：

03

python中的pyspark入门

PySpark是Python和Apache Spark的结合，是一种用于大数据处理的强大工具。它提供了使用Python编写大规模数据处理和分析代码的便利性和高效性。本篇博客将向您介绍PySpark的基本概念以及如何入门使用它。

02

基于DataFrame的StopWordsRemover处理

stopwords简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方，我们对这些停止词做出一些特殊处理，以方便我们更关注在更重要的一些词上。对于不同类型的需求而言，对停止词的处理是不同的。 1. 有监督的机器学习 – 将停止词从特征空间剔除 2. 聚类– 降低停止词的权重 3. 信息检索– 不对停止词做索引 4. 自动摘要- 计分时不处理停止词对于不同语言，停止词的类型都可能有出入，但是一般而言有这简单的三类 1. 限定词 2. 并列连词 3.

06

文本型数据的向量化:TF-IDF

本文介绍了如何使用TF-IDF将文本型数据向量化，并使用PCA降维，最后使用Spark MLlib的IDFV方法进行分类。首先，使用TF-IDF将文本转换为数值向量，然后使用PCA降维，最后将向量输入到IDFV算法中进行分类。

00

如何基于SDL+TensorFlow/SK-Learn开发NLP程序

确保安装了python 2.7 ,强烈建议你使用Virtualenv方便python环境的管理。之后通过pip 安装pyspark

03

为Spark Deep Learning 添加NLP处理实现

前段时间研究了SDL项目，看到了Spark的宏大愿景，写了篇Spark新愿景：让深度学习变得更加易于使用。后面看了TFoS,感觉很是巧妙，写了一篇TensorFlowOnSpark 源码解析。这些项目都得益于Spark对python的支持，所以了解了下spark和python如何进行交互的，可参看此文PySpark如何设置worker的python命令。

03

Github 项目推荐 | 在 Spark 上实现 TensorFlow 的库 —— Sparkflow

该库是 TensorFlow 在 Spark 上的实现，旨在 Spark 上使用 TensorFlow 提供一个简单的、易于理解的接口。借助 SparkFlow，开发者可以轻松地将深度学习模型与 ML Spark Pipeline 相集成。SparkFlow 使用参数服务器以分布式方式训练 Tensorflow 网络，通过 API，用户可以指定训练风格，无论是 Hogwild 还是异步锁定。

02

Spark ML 正则化标准化归一化 ---- spark 中的标准化

Standardizes features by removing the mean and scaling to unit variance using column summary statistics on the samples in the training set.

02

【Spark Mllib】TF-IDF&Word2Vec——文本相似度

我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。

03

算法训练和模型部署如何避免多次重写数据预处理代码

前段时间，我们对接算法的工程师哭丧的和我说，模型生成后一般都要部署成API的形态对外提供服务，但是算法工程师并没有提供如何将一条数据转化特征向量的方法，他能拿到的是代码逻辑以及一些“中间元数据”。数据预处理本来就复杂，翻译也是一件极其困难的事情。我解释了这件事情难以解决的原因，但是显然他还是有些失望。

02

Spark ML 正则化标准化归一化 ---- spark 中的正则化

Normalize a vector to have unit norm using the given p-norm. 使用给定的p-范数规范化向量，使其具有单位范数。

01

利用PySpark对 Tweets 流数据进行情感分析实战

想象一下，每秒有超过8500条微博被发送，900多张照片被上传到Instagram上，超过4200个Skype电话被打，超过78000个谷歌搜索发生，超过200万封电子邮件被发送（根据互联网实时统计）。

01

基于Spark的机器学习实践 (八) - 分类算法

贝叶斯定理（英语：Bayes’ theorem）是[概率论]中的一个[定理]，描述在已知一些条件下，某事件的发生概率。比如，如果已知某癌症与寿命有关，使用贝叶斯定理则可以通过得知某人年龄，来更加准确地计算出他罹患癌症的概率。

02

算法训练和模型部署如何避免多次重写数据预处理代码

前段时间，我们对接算法的工程师哭丧的和我说，模型生成后一般都要部署成API的形态对外提供服务，但是算法工程师并没有提供如何将一条数据转化特征向量的方法，他能拿到的是代码逻辑以及一些“中间元数据”。数据预处理本来就复杂，翻译也是一件极其困难的事情。我解释了这件事情难以解决的原因，但是显然他还是有些失望。

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭