Google Cloud ML Engine + Tensorflow在input_fn()中执行预处理/标记化

Google Cloud ML Engine 是一个强大的云服务，用于训练、部署和管理机器学习模型。TensorFlow 是一个流行的开源机器学习库。在 Google Cloud ML Engine 中使用 TensorFlow 时，input_fn() 是一个关键函数，它负责准备数据以供模型训练或预测。

在 input_fn() 中执行预处理和标记化（tokenization）是很常见的，因为这样可以确保数据在送入模型之前已经被适当地处理。以下是一个简单的例子，展示了如何在 input_fn() 中执行这些操作：

1. 安装必要的库

确保你已经安装了 TensorFlow 和其他必要的库。

pip install tensorflow

2. 定义 `input_fn()`

以下是一个简单的 input_fn() 示例，它执行文本数据的预处理和标记化：

import tensorflow as tf
import numpy as np

def input_fn(data_file, batch_size, num_epochs, shuffle):
    """Input function for training and evaluation.
    
    Args:
      data_file: File path to the CSV file containing the data.
      batch_size: The number of samples per batch.
      num_epochs: The number of epochs to repeat the dataset.
      shuffle: Boolean, whether to shuffle the data.
    
    Returns:
      A tuple (features, labels) where features is a dictionary of input features,
      and labels is the target tensor.
    """
    
    # Load and preprocess the data
    def parse_csv(value):
        columns = tf.io.decode_csv(value, record_defaults=[[0]] * 3)
        features = {'text': columns[0]}
        labels = columns[1:]
        return features, labels
    
    # Read the CSV file
    dataset = tf.data.TextLineDataset(data_file)
    
    if shuffle:
        dataset = dataset.shuffle(buffer_size=10000)
    
    dataset = dataset.map(parse_csv, num_parallel_calls=tf.data.experimental.AUTOTUNE)
    
    # Tokenization and preprocessing
    tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=10000, oov_token='<OOV>')
    
    def tokenize_text(features, labels):
        text = features['text']
        text = tf.strings.lower(text)  # Convert to lowercase
        text = tf.strings.regex_replace(text, '[%s]' % re.escape(string.punctuation), '')  # Remove punctuation
        sequences = tokenizer.texts_to_sequences([text.numpy()[0]])[0]  # Tokenize
        padded = tf.keras.preprocessing.sequence.pad_sequences([sequences], maxlen=100)  # Pad sequences
        features['text'] = padded
        return features, labels
    
    dataset = dataset.map(tokenize_text, num_parallel_calls=tf.data.experimental.AUTOTUNE)
    
    dataset = dataset.padded_batch(batch_size, padded_shapes=({'text': [None]}, [None]))
    dataset = dataset.repeat(num_epochs)
    
    return dataset

3. 注意事项

性能: 预处理和标记化可能会增加数据加载时间。为了提高性能，可以考虑使用 tf.data.experimental.AUTOTUNE 来自动调整并行处理的线程数。
内存: 如果你的数据集非常大，确保你有足够的内存来处理它。在处理大型数据集时，可能需要使用更高级的技术，如分布式训练。
兼容性: 确保你的 TensorFlow 版本与 Google Cloud ML Engine 兼容。
错误处理: 在生产环境中，添加适当的错误处理和日志记录是很重要的。

4. 在 Google Cloud ML Engine 中使用

要在 Google Cloud ML Engine 中使用此 input_fn()，你需要将其集成到你的 TensorFlow 估计器中，并确保你的 model_fn() 正确处理输入特征。

页面内容是否对你有帮助？

有帮助

没帮助

Google Cloud ML Engine + Tensorflow在input_fn()中执行预处理/标记化

、、、、

我想在我的输入函数中执行基本的预处理和标记化。我的数据包含在google云存储存储桶位置(gs://)的csv中，我无法对其进行修改。此外，我希望对我的ml-engine包中的输入文本执行任何修改，以便可以在服务时间复制该行为。to make all words lowercase words = tf.string_split(text) # splits b

浏览 3提问于2017-08-13得票数 1

1回答

Google中用于预测的预处理数据(云功能不支持Tensorflow)

、、、、

我使用Google Cloud Functions向Cloud ML Engine发送用于预测的数据。首先，我需要对数据进行预处理，然后再发送到Cloud ML Engine。对于预处理，我使用两个令牌器(来自nltk的mwetokenizer和来自tensorflow的tf.keras.preprocessing.text.Tokenizer )。当我将令牌程序加载到Google</em

浏览 4提问于2018-09-27得票数 1

回答已采纳

2回答

Dataproc、Dataprep

、、、

我正在尝试创建处理大数据集的ML模型。我的问题更多地与这些大数据集的预处理有关。在这个意义上，我想知道使用Dataprep或Tensorflow进行预处理有什么不同。任何帮助都将不胜感激。

浏览 1提问于2018-03-12得票数 1

回答已采纳

2回答

由于Tensorflow问题，无法在本地运行Google* ML引擎*

、

出于调试目的，我尝试通过运行命令gcloud ml-engine local predict --model-dir=fasttext_cloud/ --json-instances=debug_instance.json在本地运行Google Cloud ML引擎。然而，我得到了一个错误：ERROR: (gcloud.ml-engine.local.predict) Cannot import Tensorflow

浏览 5提问于2017-08-22得票数 0

1回答

在docker容器中设置活动的gcloud账号

、、、、

我们的目标是在ML引擎上开始一项培训工作，然后在GKE上提供服务。培训作业在Docker容器中启动。(管道中的每个步骤都必须是一个容器。)在运行容器时，我得到了以下错误： ERROR: (gcloud.ml-engine.jobs.submit.training) You do not currently have an active account&& \ unzip -qq google-clou

浏览 13提问于2019-03-06得票数 1

回答已采纳

2回答

无法在google* cloud ml上进行预测，而相同的模型在本地计算机上工作*

、、、

我正在尝试使用google cloud中的tensorflow库来训练一个机器学习模型。在创建存储桶之后，我可以在云中训练模型。当我尝试使用现有模型进行预测时，我面临着这个问题。代码和数据可以在以下Github目录中找到。云上的tensorflow版本是1.8，我的系统上的tensorflow版本也是1.8 我尝试通过以下输入进行预测："gcloud ml-engine predict -

浏览 0提问于2018-06-12得票数 1

1回答

基于GPU的Slow tensorflow训练与评估

、、、

所以我正在做一些研究，有很多物体的速度和加速度数据，这些数据是两个人一起在房间里移动的。以前，我已经成功地使用LSTM和RNN训练了一个时间序列预测神经网络，以获得对未来某一时间步的对象速度的预测。在训练了这个神经网络之后，我对它进行了扩充，以使用预测以及之前的数据来预测未来的另一个时间步长，依此类推，持续一定数量的时间步长。我已经添加了一张这是什么样子的图形，。1]所以我有两个问题： 1]当我训练这个神经网络

浏览 4提问于2017-08-02得票数 0

回答已采纳

1回答

是否可以在Google* Cloud shell中访问my的本地目录？*

、、、

我正在尝试在Google Cloud中运行Tensorflow对象分类器。问题是，在用于训练的命令中，要求提供cloud.yaml文件的本地路径。摘自Google Cloud Documentation instruccions的代码如下：gcloud ml-engine jobs

浏览 3提问于2017-12-15得票数 0

3回答

如何配置Google* Cloud Datalab以使用TensorFlow的GPU？*

、

我可以导入tensorflow并在Cloud Datalab中运行模型，但我如何配置它以使用GPU？这里的文档只讨论机器，我不确定如何通过Datalab：进行配置datalab create --machine-type standard_gpu mlCreating the instance ml-

浏览 2提问于2017-03-10得票数 5

2回答

Cloud ML中训练和预测的版本不一致

、

看起来云ML已经迁移到TensorFlow 0.12.0了。(我从导出的模型文件中确认了它。我需要使用0.12.0来导入在Cloud ML上生成的模型。)但我怀疑Cloud ML的预测功能仍然运行在以前的版本上，因为当我使用我最近在Cloud ML上生成的导出模型时，它会返回503(在线预测服务不可用)。谷歌的人能证实这是真的吗？

浏览 2提问于2016-12-25得票数 1

1回答

Tensorflow服务器是否提供/支持非基于tensorflow的库，如scikit-learn？

、、、、

TFX是第一选择，但是如果我们想要使用非基于tensorflow的库，比如scikit、learn等，并且想要包含一个python脚本来创建模型，那该怎么办呢？这样的模型的输出将由tensorflow服务器提供。如何确保能够在一个系统设计中同时运行基于tensorflow的模型和基于非tensorflow的库和模型。请提个建议。

浏览 2提问于2019-11-25得票数 1

6回答

gcloud ml-引擎本地预测RuntimeError：.pyc文件中的坏幻数

、、、、

我的目标是在google引擎上做出预测。我收到消息:错误： DEBUG: (gcloud.ml-engine.local.predict) RuntimeError: Bad magic number in .pyc file

浏览 5提问于2018-02-16得票数 12

回答已采纳

2回答

在BigQuery中使用Google引擎？

、、

我目前正在BigQuery中设计一个数据仓库。我计划存储用户数据，如过去的购买或废弃的手推车。这感觉有点不对劲，所以我想知道事情是否真的是这样发生的。否则，

浏览 5提问于2018-01-06得票数 2

回答已采纳

1回答

Tensorflow在google cloud上进行训练时无法打开CUDA库libcuti.so.8.0

、、

我正在尝试在Google Cloud ml-engine上使用Tensorflow训练一个模型。tensorflow似乎无法访问云计算机器上的libcupti文件，因为LD_LIBRARY_PATH没有指向正确的目录，如下面的日志条目所暗示的： message:LD_LIBRARY_PATH: /usr/local/cuda/lib64" levelname: "IN

浏览 0提问于2017-04-02得票数 1

1回答

使用Google* Cloud Machine Learning Engine导出预训练模型*

我已经找到了大量使用Google Cloud Machine Learning Engine训练对象检测模型并部署它的示例，但如果我想要部署Tensorflow检测模型动物园中的现有模型，该怎么办？从这个输出中，我推测这个模型只有一个允许的输入，一个image_tensor。v1.12.0版本的Tensorflow生成的，如果您想要使用更高版本，可以重新运行导出器。因此，在部署到ML Engine之前，您可能需要重新

浏览 41提问于2019-04-24得票数 0

回答已采纳

1回答

Python ml引擎预测:如何使googleapiclient.discovery.build持久化？

、、、

我需要从部署在云ml引擎中的模型进行在线预测。我的python代码类似于文档(https://cloud.google.com/ml-engine/docs/tensorflow/online-predict)中的代码： service = googleapiclient.discovery.build('ml', 'v1&#x

浏览 14提问于2019-04-06得票数 3

0回答

具有多个工人的ML engine上的Keras模型训练

我已经构建了一个语义分割Keras (tensorflow后端)模型，并试图在google cloud ml引擎上对其进行训练。我有大约200,000 (256x256)个图像可以在小批量(10)上训练大约100个时期。当我只使用complex_model_m_gpu类型的主设备时，1个纪元几乎要花25个小时。没有关于这方面的文档，只有关于分布式TensorFlow培训的文档。我如何最好地利用ML engine上的可用资源来快速训练我

浏览 11提问于2018-07-18得票数 2

1回答

用于在CloudML上部署的TensorFlow输入管道

、、、

我是TensorFlow的新手，在修改一些示例以使用带有输入函数的批处理/流处理时遇到了麻烦。更具体地说，修改此脚本以使其适合于在Google Cloud ML上进行培训和服务部署的“最佳”方法是什么？如果我能在TensorFlow中重用我的pandas预处理管道，我会非常高兴。

浏览 1提问于2017-04-23得票数 0

1回答

从GCS向您的模型提供图像数据(tfrecords)的最佳方法是什么？

、、、

我为自己设定了一个目标，仅使用Google解决MNIST皮肤癌数据集。在上使用GCS & Kubeflow。

浏览 0提问于2019-01-11得票数 1

回答已采纳

1回答

Python:并行化GPU和CPU工作

、、、、

为我的ML模型处理批处理花费了太多的时间，所以我正在考虑并行化它们。计划如下:一个单一的数据结构将存储一组数据点。每一步训练算法都采用随机子集对模型进行训练(用TensorFlow<e

浏览 4提问于2016-07-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Google Cloud ML Engine + Tensorflow在input_fn()中执行预处理/标记化

1. 安装必要的库

2. 定义 `input_fn()`

3. 注意事项

4. 在 Google Cloud ML Engine 中使用

相关·内容

Google Cloud ML Engine + Tensorflow在input_fn()中执行预处理/标记化

Google中用于预测的预处理数据(云功能不支持Tensorflow)

Dataproc、Dataprep

由于Tensorflow问题，无法在本地运行Google* ML引擎*

在docker容器中设置活动的gcloud账号

无法在google* cloud ml上进行预测，而相同的模型在本地计算机上工作*

基于GPU的Slow tensorflow训练与评估

是否可以在Google* Cloud shell中访问my的本地目录？*

如何配置Google* Cloud Datalab以使用TensorFlow的GPU？*

Cloud ML中训练和预测的版本不一致

Tensorflow服务器是否提供/支持非基于tensorflow的库，如scikit-learn？

gcloud ml-引擎本地预测RuntimeError：.pyc文件中的坏幻数

在BigQuery中使用Google引擎？

Tensorflow在google cloud上进行训练时无法打开CUDA库libcuti.so.8.0

使用Google* Cloud Machine Learning Engine导出预训练模型*

Python ml引擎预测:如何使googleapiclient.discovery.build持久化？

具有多个工人的ML engine上的Keras模型训练

用于在CloudML上部署的TensorFlow输入管道

从GCS向您的模型提供图像数据(tfrecords)的最佳方法是什么？

Python:并行化GPU和CPU工作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Google Cloud ML Engine + Tensorflow在input_fn()中执行预处理/标记化

1. 安装必要的库

2. 定义 input_fn()

3. 注意事项

4. 在 Google Cloud ML Engine 中使用

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2. 定义 `input_fn()`