无法使用pyspark保存pyspark iforest模型

pyspark是一个用于分布式数据处理和分析的Python库，它是基于Apache Spark框架开发的。pyspark iforest是pyspark的一种算法模型，用于离群点检测任务。

然而，目前pyspark并不支持直接保存和加载pyspark iforest模型。因此，无法使用pyspark内置的保存和加载功能来处理pyspark iforest模型。

解决这个问题的一种方法是，使用其他工具或库来保存和加载pyspark iforest模型。例如，可以使用Python的pickle库来序列化和反序列化pyspark iforest模型，将其保存到本地文件系统或数据库中，并在需要时重新加载。

以下是一个示例代码，演示了如何使用pickle来保存和加载pyspark iforest模型：

import pickle
from pyspark.ml import PipelineModel

# 假设你已经训练好了一个iforest模型并存储在model变量中
model = ...

# 保存模型到文件
with open('iforest_model.pkl', 'wb') as file:
    pickle.dump(model, file)

# 加载模型
with open('iforest_model.pkl', 'rb') as file:
    loaded_model = pickle.load(file)

# 使用加载的模型进行预测
predictions = loaded_model.transform(test_data)

在上述代码中，我们使用pickle库将pyspark iforest模型保存到名为'iforest_model.pkl'的文件中，并在需要时加载它。

需要注意的是，虽然这种方法可以解决问题，但它可能不是最佳的选择。因为pickle在处理大型模型时可能会导致性能问题，并且pickle文件不易扩展和跨平台。如果有更复杂的需求，建议考虑使用其他更适合的模型保存和加载工具，例如Apache Parquet或Apache Arrow。

对于pyspark iforest模型的更深入了解和进一步的应用场景，您可以参考腾讯云提供的相关文档和产品介绍：

请注意，上述链接仅供参考，具体的产品和功能可能因腾讯云平台的更新而有所变化。建议您在使用相应产品之前，查阅最新的腾讯云官方文档以获取最准确和最新的信息。

页面内容是否对你有帮助？

有帮助

没帮助

不能从火花放电加载管道模型

、、

你好，我试着用管道模型加载节省的管道。 selectedDf = reviews\ .select("reviewerID", "asin", "overall") # Make pipeline to build recommendation reviewerIndexer = StringIndexer( inputCol="reviewerID", outputCol="intReviewer" ) produc

浏览 1提问于2018-07-10得票数 6

回答已采纳

1回答

pySpark中的存贮回归模型

、、

在pySpark MLlib中，似乎无法保存和加载回归模型，例如LogisticRegressionModel、SVMModel、NaiveBayesModel和DecisionTreeModel。推荐模型MatrixFactorizationModel通过JavaSaveable和JavaLoader混合器进行加载和保存，但回归模型不是这样做的。有没有一种方法可以通过提供自己的负载和保存例程来解决这个问题？如果是的话，我该怎么做呢？该功能是在未来的版本中预期的，还是pySpark MLlib正在逐步淘汰？

浏览 2提问于2015-03-22得票数 2

1回答

无法在for循环中生成多个图形

、、、

我正在尝试用隔离林制作时间序列异常检测的纯图。问题是:只有for循环apprears中最后一次迭代的图。请帮帮忙。 import plotly.express as px import plotly.graph_objs as go from plotly.subplots import make_subplots start = 0.01 stop = 0.26 step = 0.05 float_range_array = np.arange(start, stop, step) float_range_list = list(float_range_array) fig = make_s

浏览 5提问于2022-03-07得票数 0

回答已采纳

1回答

用管道从Pyspark.ml加载S3模型

、、、

我正在尝试将一个经过训练的模型保存到S3存储中，然后尝试通过来自pyspark.ml的管道包加载和预测这个模型。下面是我如何拯救我的模型的一个例子。 #stage_1 to stage_4 are some basic trasnformation on data one-hot encoding e.t.c # define stage 5: logistic regression model stage_5 = LogisticRegression(featuresCol='features',labelCol='

浏览 7提问于2021-02-08得票数 1

回答已采纳

1回答

尝试使用pyspark加载已保存的Spark模型时出现“空集合”错误

、、、

我正在使用Spark构建一个随机森林模型，我想保存它以便以后再次使用。我在不带HDFS的pyspark (Spark 2.0.1)上运行这个程序，所以文件被保存到本地文件系统。我试着这样做： import pyspark.sql.types as T from pyspark.ml.feature import VectorAssembler from pyspark.ml.classification import RandomForestClassifier data = [[0, 0, 0.], [0, 1, 1.], [1, 0, 1.],

浏览 4提问于2017-01-27得票数 6

1回答

火花放电不可加载pipelineModel

、

我遇到了一个问题，无法在实际环境中加载PipelineModel i测试我的模型，但是无法在生产环境中应用这个模型和代码。 Traceback (most recent call last): File "/home/fwfx_yaofei/telbd-yjy/src/ml/complain_user_it/predict/model_predict.py", line 228, in <module> main(xdr_input_file,model_file,xdr_output_file) File "/home/fwfx_yaofe

浏览 3提问于2021-12-03得票数 0

1回答

时间序列数据隔离林

、、

我只是想知道隔离林(iForest)是否可以处理时间序列数据。据我所知，iForest用于异常检测，它基于随机化技术对数据进行随机和递归的划分，然后将分区保存在树结构中。我有个理论问题。我只是想知道iForest是否能够处理时间序列数据，因为它是基于一些随机化技术的。这是否会违反时间序列特征，因为随机化可能会打破时间依赖性？

浏览 2提问于2020-07-16得票数 2

回答已采纳

1回答

保存和加载自动编码器

、、、、

我试图用自动编码器(AE)和交替最小二乘(ALS)方法来做一个预测器。ALS是使用pyspark.mllib.recommendation包创建的。我能够保存ALS模型并通过model.save()和pyspark.mllib.recommendation.MatrixFactorizationModel.load()方法重用它。 AE是创建使用torch.nn.Module软件包，并有4 layers.Unlike ALS为AE保存和加载模型不是什么东西，我是missing.Can，任何人帮助我找到一种方式保存和加载一个自动编码器。

浏览 1提问于2017-10-24得票数 2

回答已采纳

1回答

CrossValidation线性回归梯度下降

、、、

我正试图在pyspark中对SGD模型执行交叉验证，我正在使用来自pyspark.mllib.regression、ParamGridBuilder和CrossValidator的pyspark.mllib.regression、ParamGridBuilder和CrossValidator的交叉验证，它们都来自pyspark.ml.tuning库。在跟踪了星火网站上的之后，我希望运行这个程序可以工作 lr = LinearRegressionWithSGD() pipeline=Pipeline(stages=[lr]) paramGrid = ParamGridBuilder()\

浏览 2提问于2017-10-30得票数 1

2回答

如何将pyspark模型保存到pickle文件

、

如何将pyspark模型保存到pickle文件 final_data=output_fixed.select('features','CreditabilityIndex') test=final_data.randomSplit([0.7,0.3]) dtc=DecisionTreeClassifier(labelCol='CreditabilityIndex',featuresCol='features') dtc_model=dtc.fit(train)

浏览 130提问于2019-10-15得票数 0

1回答

pyspark ml模型的顶点ai自定义模型训练

、、、、

是否可以使用VertexAI自定义容器模型构建来训练spark/pyspark ML库模型？我在vertex ai文档中找不到任何关于spark模型训练的参考。对于分布式处理模型构建，可用的选项只有PyTorch或TensorFlow。

浏览 30提问于2021-09-03得票数 0

1回答

有没有办法将pyspark随机森林模型转换成pmml？

我在pyspark2.1中训练了RandomForest，但另存为pyspark模型文件。 rf_model = RandomForestClassifier(featuresCol='features', labelCol='click', maxDepth=10, maxBins=32, numTrees=100,

浏览 6提问于2020-06-23得票数 0

1回答

pyspark如何保存和加载一个与rest分类器逻辑回归

、、

我正在使用pyspark 2.4.5，我在保存和加载一个与rest分类器时遇到了问题下面是代码 from pyspark.ml.classification import LogisticRegression, OneVsRest start=time.time() lr = LogisticRegression(maxIter=10, tol=1E-6, fitIntercept=True) # instantiate the One Vs Rest Classifier. ovr = OneVsRest(classifier=lr) # train the multicla

浏览 38提问于2020-07-18得票数 0

1回答

保存火花模型摘要

、、、

我正在使用spark版本运行PySpark中的logistic回归: 2.1.2 我知道可以将回归模型保存如下： model = LogisticRegression(featuresCol='features', labelCol='is_clickout', regParam=0, fitIntercept=False, family="

浏览 0提问于2018-12-11得票数 9

1回答

用MLLib实现线性回归模型的误差保存

、、

试图将线性回归模型保存到磁盘时，我收到了以下错误："TypeError: save()接受2个位置参数，但给出了3个位置参数“ 从火花放电导入SparkConf，SparkContext 从pyspark.sql导入SQLContext 从pyspark.ml.regression导入LinearRegression sc= SparkContext() lr = LinearRegression(featuresCol =‘featuresCol’，labelCol='NextOrderInDays'，maxIter=10，regParam=0.3，elasticN

浏览 2提问于2019-10-07得票数 0

1回答

当新数据出现时，如何将保存好的线性回归ML模型重新组合在火花放电中

、、

我训练了一个线性回归的模型，使用pyspark 并保存it.now，我想在新的数据批处理的基础上对进行再训练。有可能吗？？

浏览 5提问于2017-07-12得票数 1

2回答

pySpark:保存ML模型

、、

有没有人能举个例子，说明如何在pySpark中保存ML模型？为 ml.classification.LogisticRegressionModel 我尝试使用以下几种方法： model.save("path") 但它似乎不起作用。

浏览 3提问于2016-04-14得票数 7

1回答

如何在Apache Spark中保存和加载MLLib模型？

、、、

我在Apache Spark中训练了一个分类模型(使用pyspark)。我将模型存储在一个对象LogisticRegressionModel中。现在，我想对新数据进行预测。我想要存储模型，并将其读回到新程序中，以便做出预测。你知道怎么存储模型吗？我在想也许是pickle，但我是python和Spark的新手，所以我想听听社区的想法。

浏览 0提问于2015-12-14得票数 14

回答已采纳

1回答

需要新对象图时的依赖注入最佳实践

、

我刚开始依赖注入，我还在努力想办法解决这个问题。据我理解，根据一书，最佳实践是在应用程序启动时在中创建一次对象图，并且在应用程序中不再访问容器。当用户点击新的/打开的按钮时会发生什么？通常，我会创建所需的对象图部分(Forest)的新实例，但是如果我不应该访问容器，我是否需要调用一个传播对象图的清晰方法？我是否以某种方式使用了生命周期管理，并确保没有对对象图中需要更新的部分的当前引用？编辑：使用MVVM/WPF的示例 public class Bootstrapper { public void Initialize() { Container.Register

浏览 0提问于2017-12-12得票数 0

回答已采纳

1回答

PicklingError:无法序列化对象: TypeError:不能对fasttext_pybind.fasttext对象进行筛选

、、、

我建立了一个快速文本分类模型，以便对facebook的评论进行情感分析(在windows上使用pyspark 2.4.1 )。当我使用预测模型函数预测句子的类时，结果是一个元组，其形式如下： [('__label__positif', '__label__négatif', '__label__neutre', 0.8947999477386475, 0.08174632489681244, 0.023483742028474808)] 但当我试图将其应用于“文本”栏时，我这样做了： from pyspark.sql.types import *

浏览 0提问于2019-07-10得票数 4

回答已采纳

2回答

Pyspark启动问题Windows 10与Python 3.6

、

在安装Python 3.x和Anaconda后，我无法在windows中启动Pyspark。正在获取以下错误- Python 3.6.0 |Anaconda 4.3.0 (64-bit)| (default, Dec 23 2016, 11:57:41) [MSC v.1900 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "license" for more information. Traceback (most recent call last

浏览 3提问于2017-03-17得票数 0

1回答

pyspark GBTRegressor对象在加载模型后没有'transform‘属性

、、

我收到了一个预先训练好的火花源模型(GBTRegressor)，但我无法在数据集上使用它来获得预测。我看过一些关于使用Pipeline vs PipelineModel的帖子，但在这种情况下，它只是一个回归对象，我不能用PipelineModel加载它。我可以使用以下命令成功加载模型： model = GTBRegressor.load(model_path) type(model) 'pyspark.ml.regression.GBTRegressor' 但是当我调用model.transform(test_df)时，我会得到 AttributeError: 'G

浏览 39提问于2020-08-18得票数 1

1回答

错误-在windows10/ 8.1机器上通过anaconda使用python的pyspark

在Windows10或Windows8机器上无法识别Pyspark。我读过一些像，这样的stackoverflow帖子，但他们说spark版本有问题。但是我的问题是，有没有其他方法可以在windows机器上安装pyspark，而不是浪费太多的时间来修复问题，因为我需要我的项目。请让我知道。谢谢

浏览 6提问于2017-07-30得票数 0

回答已采纳

1回答

如何从MultilayerPerceptronClassifier中获取神经元的权重

、、

我在pySpark (使用Spark1.6.0)中使用MLP多类分类器，或多或少与中的示例类似。因为我对训练模型一次，然后在不同的数据集上使用已经训练过的模型感兴趣，所以我想检索神经元的权重(就像使用pickle包为python sklearn解释一样)。但是，在读取之后，我无法获得模型的权重和内部参数。如果有帮助，我的代码是： # Importing PySpark libraries from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, HiveContext from pysp

浏览 1提问于2018-08-14得票数 0

2回答

从python中的数据集中删除行

、

我试图将一些被归类为异常值的行从原始数据集中删除，但我无法工作-你们知道哪里出了问题吗？我尝试运行下面的代码，得到这个错误"ValueError:索引数据必须是1维的“ #identify outliers pred = iforest.fit_predict(x) outlier_index = np.where(pred==-1) outlier_values = x.iloc[outlier_index] #remove from dataset (dataset = x) x_new = x.drop([outlier_values]) outlier_values orig

浏览 33提问于2021-09-08得票数 0

回答已采纳

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

1回答

Pyspark pyspark.rdd.PipelinedRDD不使用模型

、、

我无法将RDD对象传递给PySpark logistic回归模型。我用的是火花2.0.1。任何帮助都将不胜感激。 >>> from pyspark import SparkContext, HiveContext >>> from pyspark.mllib.regression import LabeledPoint >>> from pyspark.mllib.classification import LogisticRegressionWithLBFGS >>> from pyspark.mllib.util im

浏览 1提问于2017-06-07得票数 2

1回答

如何在docker容器中安装不同的python版本

、、

我在我的机器中安装了gettyimages/spark docker映像和jupyter/pyspark-notebook。但是，由于gettyimage/spark python版本为3.5.3，而jupyter/pyspark-notebook python版本为3.7，因此出现以下错误：例外情况: worker中的Python版本与驱动程序3.7中的版本不同，PySpark无法运行不同的次要versions.Please检查环境变量PYSPARK_PYTHON和PYSPARK_DRIVER_PYTHON。因此，我尝试升级gettyimage/spark映像的python版本

浏览 1提问于2019-08-16得票数 4

回答已采纳

1回答

电火花:写csv代替csv写地板

、、、

在下面的代码中，out.csv是parquet格式的。对于它作为csv文件写入它，我没有什么选择？ import py4j from pyspark import SparkConf, SparkContext from pyspark import HiveContext as hc import os from pyspark.sql import SQLContext, Row from datetime import datetime from pyspark.sql.types import DateType,StringType import pyspark.sql.functi

浏览 0提问于2017-06-29得票数 1

回答已采纳

1回答

如何将pyspark输出写入impala表？

、、、、

我在我的问题陈述中使用了pyspark，在这里，我应该组合我的输出，并作为我的另一个模型的输入。但是在hdfs中，我的输出被分成几个部分，因此很难将它们组合在一起。所以我想把输出结果直接存储到impala表中，我该怎么做呢？

浏览 0提问于2018-03-22得票数 0

1回答

PySpark ML Word2Vec模型到Gensim Word2Vec模型的转换

、、

我生成了一个类似于这样的PySpark Word2Vec模型： from pyspark.ml.feature import Word2Vec w2v = Word2Vec(vectorSize=100, minCount=1, inputCol='words', outputCol = 'vector') model = w2v.fit(df) (我用来训练模型的数据与此无关，重要的是它的格式是正确的，并成功地生成了一个pyspark.ml.feature.Word2VecModel对象。) 现在，我需要将这个模型转换为Gensim Word2Vec模型。我

浏览 1提问于2018-12-28得票数 3

2回答

Python运行火花的几个问题

、

两个问题：如何在火花模块中运行python3？我运行/bin/.pyspark，它自动运行Python2.7。如何运行Python3？在我运行pyspark之后，它会弹出如下警告: 16/12/29 17:33:37警告NativeCodeLoader:无法为您的平台加载本机hadoop库.如果适用的话，使用内置java类是否意味着我下载了错误的spark平台？我正在使用MacProBook。谢谢。

浏览 2提问于2016-12-30得票数 2

1回答

PySpark和HIVE/Impala

、、、

我想在PySpark中构建一个分类模型。我对这个模型的输入是select查询的结果，或者是来自Hive或Impala的视图。是否可以将此查询包含在PySpark代码本身中，而不是将结果存储在文本文件中提供给我们的模型

浏览 4提问于2017-02-22得票数 1

1回答

如何在pyspark中连接到黑斑狼犬？

、、

我想在PySpark中构建一个模型。和输入到此模型的表单impala.Is是否可以从PySpark连接？谢谢!

浏览 0提问于2017-06-03得票数 1

1回答

Pyspark回归模型储蓄后精度的变化

、、

我建立了Pyspark多项Logistic回归模型，并将其与Django web应用程序集成，以便对查询集进行预测。在我的模型中，我使用推荐的 temp_path = pjoin("/home/maffsojah/Projects/HIT_400/capstone_project/web/tbank/spark-warehouse") reg_path = temp_path + '/reg' reg.save(reg_path) model2 = LogisticRegression.load(reg_path) model2.getMaxIter() mo

浏览 1提问于2017-05-12得票数 0

回答已采纳

1回答

在一列中存储不同的PySpark模式

、、、

我尝试从PySpark中的REST中提取不同的表。我跟踪了这个。我想要将不同的模式存储在一列中的中。下面是一个示例： import pyspark.sql.functions as F from pyspark.sql import Row from pyspark.sql.types import * A = [{"TableName": "Table1", "Schema": StructType([StructField("a", StringType()), StructField("b", Intege

浏览 16提问于2022-08-23得票数 0

回答已采纳

1回答

如何添加到正在运行的PySpark会话的类路径

、、

我有一台运行在AWS EMR中的PySpark笔记本。在我的特定案例中，我希望使用pyspark2pmml为我刚刚训练的模型创建pmml。但是，我得到了以下错误(当运行pyspark2pmml.PMMLBuilder时，但我认为这无关紧要)。 JPMML-SparkML not found on classpath Traceback (most recent call last): File "/tmp/1623111492721-0/lib/python3.7/site-packages/pyspark2pmml/__init__.py", line 14, in __

浏览 4提问于2021-06-08得票数 0

1回答

PySpark ML Pipeline.load结果引发java.lang.UnsupportedOperationException:空集合

、、

我有一个安装了PySpark的管道，我正将其保存到磁盘上以备将来使用。下面是我的流水线代码： model = Pipeline(stages=[segment_indexer, model_name_indexer, make_name_indexer, engine_type_indexer, segment_encoder, model_name_incoder, make_name_incoder, engine_type_incoder, x_assembler, estimator]).fit(trainingData) model.save('file:/opt/app

浏览 31提问于2018-02-22得票数 3

回答已采纳

3回答

如何从jupyter笔记本访问pyspark

、

我已经在Ubuntu14.04上的ipython笔记本中成功地使用了pyspark和Python2.7，为spark创建了一个特殊的配置文件，并通过调用$ipython notebook --profile spark启动了这个笔记本。许多网站上都给出了创建spark配置文件的机制，但我使用的是中给出的机制。 $HOME/.ipython/profile_spark/startup/00-pyspark-setup.py包含以下代码 import os import sys # Configure the environment if 'SPARK_HOME' not in o

浏览 1提问于2016-06-25得票数 0

7回答

如何从spark.ml中提取PySpark中的模型超参数？

、、、、

我正在修改PySpark文档中的一些交叉验证代码，并试图让PySpark告诉我选择了什么模型： from pyspark.ml.classification import LogisticRegression from pyspark.ml.evaluation import BinaryClassificationEvaluator from pyspark.mllib.linalg import Vectors from pyspark.ml.tuning import ParamGridBuilder, CrossValidator dataset = sqlContext.creat

浏览 9提问于2016-04-18得票数 36

回答已采纳

1回答

预测后的pyspark ml model map id列

、、、、

我已经使用pyspark.ml.classification.RandomForestClassifier训练了一个分类模型，并将其应用于一个新的数据集进行预测。在将数据集提供给模型之前，我删除了customer_id列，但不确定如何在预测之后映射回customer_id。因此，我无法确定哪一行属于哪个客户，因为Spark数据帧本质上是无序的。

浏览 9提问于2019-09-17得票数 1

回答已采纳

1回答

DeepImageFeaturizer返回错误无法从pyspark中的keras.applications导入名称ResNet50

、、、、

我正在尝试从图像中导入to.implement图像分类for.extracting功能我正在使用DeepImageFeaturizer和Inceptionv3模型，但从sparkdl导入DeepImageFeaturizer返回错误导入错误:无法从pyspark colab中的Keras.applications导入名称ResNet50。

浏览 4提问于2021-09-11得票数 0

1回答

星星之火:耗尽java堆空间: java.lang.OutOfMemoryError: Java堆空间

、、、

我在一台机器上运行火花，有24个核心，48G Ram。我能够训练一个有600万用户，120万个项目，2.16亿个动作(视图/购买)的隐式模型。现在，我试图对700万用户、150万用户和4.4亿用户在项目上进行推荐。我使用20个执行器，驱动内存15G，执行器内存4G。 8级训练，15次迭代。在使用ALS.trainImplicit训练模型时，我正在从内存错误中获取java堆空间。 model = ALS.trainImplicit(training_RDD, rank, seed=seed, iterations=iterations, lambda_=regularization_pa

浏览 1提问于2017-04-26得票数 0

1回答

SQL到Pyspark转换

、、、

假设给您一个包含10,000行SQL命令的.sql文件，并告诉您将它们转换为PySpark。你会用什么软件？我想要完成的...the任务：以某种方式自动从一个PySpark文件创建.sql。该任务的...your需求我知道在.sql --> pyspark之间很可能有一个中间步骤，所以PySpark转换不是优先级，优先级是在某种“通用”模型中使用.sql文件。 ...what您已经知道用于此目的的软件我已经看过关系代数，它看起来可能是“通用”模型，但我不确定它是否有效。在这方面任何帮助都是很棒的！

浏览 0提问于2020-11-04得票数 0

回答已采纳

1回答

在pyspark中持久化来自流水线的最佳模型

、、

我有一个关于如何提取管道的最佳模型的问题，以便评分和进一步使用。例如，我尝试使用JPMML pyspark2库将其保存到pmml文件，但我遇到了保存文件的问题。有没有使用pyspark保存管道模型的其他方法？

浏览 5提问于2019-07-15得票数 0

回答已采纳

3回答

如何在PySpark管道中使用XGboost

、、、、

我想更新我的pyspark代码。在pyspark中，它必须将基本模型放在一个管道中，管道的使用LogistictRegression作为基本模型。然而，它似乎不能在管道应用编程接口中使用XGboost模型。我怎么才能像这样使用火种呢？ from xgboost import XGBClassifier ... model = XGBClassifier() model.fit(X_train, y_train) pipeline = Pipeline(stages=[..., model, ...]) ... 流水线api使用起来很方便，有没有人能给点建议？谢谢。

浏览 0提问于2018-05-30得票数 10

1回答

用训练的Spark模型提供实时预测

、、

我们目前正在测试一个基于Spark在Python：中实现LDA的预测引擎(我们使用的是pyspark.ml包，而不是pyspark.mllib) 我们成功地在星火集群(使用)上训练了一个模型。现在，我们正在尝试使用该模型作为API (例如，烧瓶应用程序)来提供实时预测。实现这一目标的最佳途径是什么？我们的主要痛苦之处在于，我们似乎需要恢复整个星火环境，才能加载经过训练的模型并运行转换。到目前为止，我们已经尝试了在本地模式下运行每个接收到的请求，但是这个方法给了我们：性能不佳(是时候拆分SparkSession，加载模型，运行转换.) 可伸缩性差(无法处理并发请求) 整个

浏览 1提问于2017-09-17得票数 6

1回答

带有udf pyspark的快速文本

、

我一直在尝试在py函数之外的pyspark中实现udf，如下所示：它采用了我之前训练过的bin模型。 def sentiment(frase): classifier = load_model("sentiment_fasttext.bin") sentiment = classifier.predict(frase) sentiment = ''.join(map(str, sentiment)) return sentiment sentiment = df.withColumn('sentiment',

浏览 15提问于2020-09-23得票数 0

1回答

在Spark Pipeline中部署Tensorflow/Keras模型

、、、、

我已经训练了几个要在包含pyspark管道步骤的管道中部署的RNN+biLSTM模型。spark-deep-learning似乎是一个陈旧的项目，只适用于处理图像数据。目前有没有将tensorflow/keras模型(及其相关的向量嵌入)加载到pyspark管道中的最佳实践？

浏览 21提问于2019-01-12得票数 1

1回答

火花放电中ML算法的训练

、、、

我对Pyspark还不熟悉，我试图在Pyspark中创建一个ML模型--我的目标是创建一个TFidf向量器并将这些特性传递给我的支持向量机模型。我试过这个 import findspark findspark.init() from pyspark import SparkContext, SparkConf conf = SparkConf().setMaster("local[2]").setAppName("Stream") sc = SparkContext(conf=conf) parallelized = sc.parallelize(Datase

浏览 0提问于2018-02-26得票数 0

回答已采纳