首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌云数据流:在PubSub流模式下,TextIO.Read使用大量的vCPU时间

谷歌云数据流(Google Cloud Dataflow)是谷歌云平台提供的一种托管式大数据处理服务。它基于Apache Beam开源项目,旨在简化大规模数据处理的开发和管理。

在PubSub流模式下,TextIO.Read是谷歌云数据流中的一个读取数据的操作,它用于从PubSub主题中读取文本数据。PubSub是谷歌云平台提供的一种消息传递服务,可以实现可靠的、实时的跨应用程序和系统的消息传递。

TextIO.Read操作使用大量的vCPU时间,这是因为在读取大量文本数据时,需要进行数据的解析和处理,这些操作需要消耗大量的计算资源。因此,在设计和优化数据流处理任务时,需要考虑如何减少vCPU的使用量,以提高任务的性能和效率。

为了减少vCPU的使用量,可以采取以下策略:

  1. 批量读取:可以通过调整TextIO.Read操作的参数,将读取的数据进行批量处理。通过一次读取多个数据,可以减少读取操作的次数,从而降低vCPU的使用量。
  2. 并行处理:可以通过增加数据流处理任务的并行度,将数据分成多个分片进行并行处理。这样可以将计算任务分散到多个vCPU上,提高整体的处理能力。
  3. 数据压缩:可以在读取数据时进行数据压缩,减少数据的大小,从而减少数据的传输和处理时间。谷歌云数据流提供了多种数据压缩格式和算法,可以根据实际情况选择合适的压缩方式。
  4. 数据过滤:可以在读取数据之前进行数据过滤,只选择需要的数据进行处理,减少不必要的计算和资源消耗。

谷歌云数据流相关产品和产品介绍链接地址:

  • 谷歌云数据流官方网站:https://cloud.google.com/dataflow
  • 谷歌云PubSub产品介绍:https://cloud.google.com/pubsub
  • 谷歌云数据流文档:https://cloud.google.com/dataflow/docs
  • 谷歌云数据流优化指南:https://cloud.google.com/dataflow/docs/guides/deploying-a-pipeline
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

弃用 Lambda,Twitter 启用 Kafka 和数据流新架构

Kafka 和数据流新架构 Kafka 和数据流新架构 新架构基于 Twitter 数据中心服务和谷歌平台。...谷歌上,我们使用数据流作业,对重复数据进行处理,然后进行实时聚合并将数据汇入 BigTable。...我们对内部 Pubsub 发布者采用了几乎无限次重试设置,以实现从 Twitter 数据中心向谷歌发送消息至少一次。... Pubsub 代表事件被创建后,事件处理器会将事件发送到谷歌 Pubsub 主题。 谷歌上,我们使用一个建立谷歌 Dataflow 上 Twitter 内部框架进行实时聚合。...整个系统每秒可以流转数百万个事件,延迟低至约 10 秒钟,并且可以我们内部和云端系统中扩展高流量。我们使用 Pubsub 作为消息缓冲器,同时保证整个内部系统没有数据损失。

1.7K20

Beam-介绍

简介 Beam提供了一套统一API来处理两种数据处理模式(批和),让我们只需要将注意力专注于在数据处理算法上,而不用再花时间去对两种数据处理模式差异进行维护。...触发器能让我们可以在有需要时对数据进行多次运算,例如某时间窗口内数据有更新,这一窗口内数据结果需要重算。 累加模式指的是如果我们同一窗口中得到多个运算结果,我们应该如何处理这些运算结果。...Pipeline Beam数据流水线底层思想其实还是mr得原理,分布式环境,整个数据流水线启动N个Workers来同时处理PCollection.而在具体处理某一个特定Transform时候,数据流水线会将这个...我们先从直接运行模式开始讲。这是我们本地进行测试,或者调试时倾向使用模式直接运行模式时候,Beam 会在单机上用多线程来模拟分布式并行处理。...一个会话窗口中数据集,如果将它里面所有的元素按照时间戳来排序的话,那么任意相邻两个元素它们时间戳相差不会超过一个定义好静态间隔时间段(Gap Duration)。

25920
  • (译)Istio 组件性能与伸缩性

    Istio 目标是使用最小资源开销来提供这些能力,并能够为负载大量请求大规模集群提供低延迟服务。 Envoy 作为 Istio 数据平面组件,系统中负责数据流处理。...使用 Istio 1.1.3 完成测试之后,我们获得了以下结果: Envoy 每秒处理 1000 请求情况使用 0.6 个 vCPU 以及 50 MB 内存。...istio-telemetry 每秒 1000 个 网格范围内请求情况,消耗了 0.6 个 vCPU。 Pilot 使用了 1 个 vCPU 以及 1.5 GB 内存。...启用了命名空间隔离情况,单一 Pilot 实例使用 1 个 vCPU 和 1.5 GB 内存情况,能够支持 1000 个服务、2000 个 Sidecar。...这一过程会延长下一请求请求队列时间,会对平均和尾部延迟造成影响。实际尾部延迟取决于通信模式。 在网格里,一个请求会包含客户端代理和服务端代理两部分。

    91410

    Apache Beam 大数据处理一站式分析

    大数据处理涉及大量复杂因素,而Apache Beam恰恰可以降低数据处理难度,它是一个概念产品,所有使用者都可以根据它概念继续拓展。...Apache Beam提供了一套统一API来处理两种数据处理模式(批和),让我们只需要将注意力专注于数据处理算法上,而不用再花时间去维护两种数据处理模式差异。...架构流程 这案例包含多种不同处理模块,最后连接在一起,得出一个有向无环图,称为一个工作系统(Workflow System),在这种系统,不可能就简单用数据转换操作,其中涉及到四种常见设计模式。...Read Transform 从外部源 (External Source) 中读取数据,这个外部源可以是本地机器上文件,可以是数据库中数据,也可以是存储上面的文件对象,甚至可以是数据流消息数据...//文件 PCollection inputs = p.apply(TextIO.read().from(filepath)); //Beamio包下有很多关于读取数据,大约有34

    1.5K40

    谷歌 TensorFlow 基准实测意外结果

    前苹果工程师 Max Woolf 做了测评——由于谷歌平台收费规则,在有些情况使用 CPU 比 GPU 在经济上更划算。...英特尔也 AI 上投入了大量资金,收购初创公司来将 AI 和高性能计算(HPC)能力融入即将推出芯片中。...谷歌训练深度学习模型,价格上 CPU 比 GPU 更划算 数据中心大战,个人使用云端 CPU 和 GPU 情况前苹果软件工程师 Max Woolf 一直使用 Keras 和 TensorFlow...通常情况,64 vCPU 与 32 vCPU 性能相差不多(甚至更差)。平衡训练速度和成本方面,用 16 核 CPU + 编译 TensorFlow 似乎是最佳选择。...当然, Max 指出,这里之所以有成本优势,只能在谷歌特殊机制,那就是权限低虚拟机用较低价格提供。Max 认为,个人使用情况使用谷歌 CPU 训练深度学习模型是值得考虑

    2K100

    评测 | CPU上TensorFlow基准测试:优于GPU深度学习

    不过相比 GPU 而言,动态分配 CPU 就便宜很多了。前苹果员工 Max Woolf 最近测试了 CPU 阵列执行 TensorFlow 任务时效率,并得到了令人满意结果。...利用价格差使用 CPU 代替 GPU 可以为我们节约不少使用成本。 我一直使用 Keras 和 TensorFlow 开展一些个人深度学习项目。...由于没有需求,所以没有使用大量 CPU 对深度学习库进行基准化测试方法。同时 GPU 是深入学习硬件奥卡姆剃刀问题解决方案。...,我通过训练模型时运行前文提到测试脚本来计算相对于 GPU 实例训练总训练时间。...与简单卷积神经网络(CNN)性质类似,尽管已编译 TensorFlow 库实例 CPU 表现更好。

    2K60

    深入iOS系统底层之指令集介绍

    VCPU实际上是一个对真实CPU所具有的能力一个简单模拟类。我们来看一CPU组成: ?...CPU一条指令可以同时处理多少条数据,或者一条数据同时被多少条指令处理,以及一个CPU时间周期内可以同时执行多少条指令等规则来划分。...并且某个时钟周期内,CPU只能处理一个数据流。因此这种机器被称作单指令数据流机器。早期计算机都是SISD机器,如冯诺.依曼架构,如IBM PC机,早期巨型机和许多8位家用机等。...单指令数据流机器(SIMD) SIMD是采用一个指令处理多个数据流。这类机器在数字信号处理、图像处理、以及多媒体信息处理等领域非常有效。...多指令数据流机器(MIMD) MIMD机器可以同时执行多个指令,这些指令分别对不同数据流进行操作。

    1K10

    应用迁回企业内部时机?

    虽然优势有很多,但是它并不适合所有的应用程序。那么,用户该如何知道何时是把应用程序迁移回企业内部良机呢? 很多企业都花费了大量时间和IT预算把内部应用程序迁移至公共。...公共是验证大数据概念和模型一个理想平台,但是扩展分析处理以满足实际生产需求需要对大型数据集进行长时间数据传输。如果一家企业无法实现快速数据复制以满足这一要求,那么公共云中这就是一个问题。...但是,在这种情况,企业可能仍然希望公共云中对数据进行归档。亚马逊Glarcier就是这样一个选择,它可为需要存储大量数据企业提供归档存储服务。...2.高数据流量费用 虽然一般来说具有较好性价比,但是迁移还是会引入新、通常也是意想不到费用。例如,一些企业可能会让开发团队编写代码以支持云和内部应用程序之间数据流,这样就会产生费用。...如果针对这些数据流开发必要网络和应用程序访问控制应用费用过高或费时过长,那么最好做法就是把这些应用程序迁移回企业内部。 3.监管问题 商业模式改变会影响企业托管他们应用程序位置。

    54240

    「无服务器架构」动手操作Knative -第二部分

    服务(也称为消费者)是使用事件Knative服务。 让我们更详细地看看这些。...一旦事件被拉入Knative,它就需要保存到内存中,或者保存到更持久地方,比如Kafka或谷歌发布/订阅。这发生在通道上。它有多个实现来支持不同选项。...Hello World事件 对于Hello World事件,让我们读取来自谷歌发布/订阅消息并在Knative服务中注销它们。...集成与视觉API教程中,我展示了如何使用Knative事件连接谷歌存储和谷歌视觉API。 存储是一种全球可用数据存储服务。可以将bucket配置为保存映像时发出发布/订阅消息。...首先,Knative中,所有的出站流量缺省情况都会被阻塞。这意味着默认情况,您甚至不能从Knative服务调用Vision API。这最初让我感到惊讶,所以请确保配置了网络出站访问。

    2K30

    通过 Java 来学习 Apache Beam

    主要连接器类型有: 基于文件(例如 Apache Parquet、Apache Thrift); 文件系统(例如 Hadoop、谷歌存储、Amazon S3); 消息传递(例如 Apache Kafka...快速入门 一个基本管道操作包括 3 个步骤:读取、处理和写入转换结果。这里每一个步骤都是用 Beam 提供 SDK 进行编程式定义本节中,我们将使用 Java SDK 创建管道。...beam-runners-direct-java:默认情况 Beam SDK 将直接使用本地 Runner,也就是说管道将在本地机器上运行。...时间窗口 Beam 时间窗口 流式处理中一个常见问题是将传入数据按照一定时间间隔进行分组,特别是处理大量数据时。在这种情况,分析每小时或每天聚合数据比分析数据集每个元素更有用。...Q 资讯 计算全球变局与中国故事 点个在看少个 bug

    1.2K30

    可以提高云计算性能6种技术

    其目标是使用最佳分配虚拟CPU(vCPU)、内存和专用特征来调整实例大小。如果实例太大,额外资源对计算工作负载性能并没有好处,最终会浪费资金。...许多情况,监控服务跟踪负载特性,例如平均vCPU利用率。当工作负载超过定义利用率阈值时,监视警报会触发自动扩展服务,该服务遵循预定义计划来添加资源,并设置负载平衡首选项。...缓存是放置尽可能快存储中频繁访问数据副本,位于尽可能靠近应用程序位置。与使用常规存储等待数据相比,应用程序可以使用缓存信息更快地执行涉及数据任务。...而与此相反,企业开发人员将某些软件行为或功能代码加载到平台中,平台中,只有某些现实世界或程序化事件触发时才会部署和运行。功能完成后,它将被卸载,不再消耗计算资源。...由计算提供商加载、操作和卸载该功能,而不是用户。 虽然很少有应用程序完全由事件驱动,但开发人员可以使用功能来创建对实际和基于软件事件(如物联网数据流)高效响应。

    1.1K30

    大数据分析工具大汇总

    Twitter处理工具Summingbird:与Storm和Scalding相似,开发者可以使用非常接近原生Scala或者JavaSummingbird上执行MapReduce作业。...SpringXD:通过任意数量处理器,SpringXD架构支持事件驱动数据流摄入。是由Spring集成适配器支持。...Mortar:Mortar是一个通用大规模科学数据平台。它建立AmazonWeb服务使用弹性MapReduce(EMR)启动Hadoop集群并处理大型数据集。...Google:Hadoop谷歌平台上使用开源ApacheHadoop谷歌计算引擎虚拟机。...Summingbird是一个大规模数据处理系统,支持开发者以批处理模式(基于Hadoop/MapReduce)或处理模式(基于Storm)或混合模式(即组合前两种模式)以统一方式执行代码。

    1.7K70

    分析世界新闻:通过谷歌查询系统探索GDELT项目

    一些事件种类例如抗议或和平呼吁这样数据流,具有高度结构化模式,可专供RDBMS系统使用,而且已在几十年使用过程中不断被优化。...其他数据流,例如叙述和情感种类,表示则是专门用于极端小规模情况全新元数据运用,而对该规模数据进行编码则少有先例。难度更大是,需评估维度数量不断增长,要求流体模式也要能够不断扩展。...开放性信息:作为开放数据,所有的GDELT数据流都可以免费获得。这意味着GDELT数据需要在一个能够将数据代管与管理资源、查询资源相分离平台上运营。谷歌查询平台就能够使人们公开获取数据组信息。...例如:要想观察新闻媒体发布信息周期和模式,就要求能在一个移动窗口交叉对照整个数据库,此外还需要透明计算和数据移动缩放。进行该类分析所需大量处理器离不开像谷歌查询平台这样一个代管环境。...通常,谷歌查询平台可用于观察一国抗议或冲突纵向趋势,把当前动荡放在其历史背景分析。

    3.6K80

    Apache Beam 初探

    Apache Beam是Apache软件基金会越来越多数据流项目中最新增添成员。这个项目的名称表明了设计:结合了批处理(Batch)模式数据流(Stream)处理模式。...Dataflow是一种原生谷歌数据处理服务,是一种构建、管理和优化复杂数据流水线方法,用于构建移动应用、调试、追踪和监控产品级应用。...就目前状态而言,对Beam模型支持最好就是运行于谷歌平台之上Cloud Dataflow,以及可以用于自建或部署谷歌之上Apache Flink。...如Apache Beam项目的主要推动者Tyler Akidau所说: “为了让Apache Beam能成功地完成移植,我们需要至少有一个部署自建或非谷歌时,可以与谷歌Cloud Dataflow...Beam成形之后,现在Flink已经成了谷歌之外运行Beam程序最佳平台。 我们坚信Beam模型是进行数据流处理和批处理最佳编程模型。

    2.2K10

    谷歌破世界纪录!圆周率计算到小数点后 31.4 万亿位

    Iwao 表示,这次记录是利用计算完成,这也是第一次使用打破吉尼斯世界纪录,证明了谷歌基础设施能够可靠地完成长时间、高计算量任务。...Iwao 谷歌官方博客上详细介绍了这次计算过程,并且,所计算出来 31.4 万亿个数字也已经成为开放资源可供下载,欢迎所有想用这些数字做实验的人下载使用。...此外,随着计算进行,潜在硬件中断或故障中生存下来会变得越来越困难。 我们决定使用来计算 π。使用 Compute Engine,谷歌高性能基础设施,比使用专用物理机器有许多好处。...云中运行还允许我们将计算出数字完全作为磁盘快照发布。不到一个小时时间内,每天只需 40 美元,你就可以复制快照、处理结果并处理计算资源。...方便你自己工作中使用这些数字,我们将计算出 π 数字作为快照在谷歌平台上提供。每个快照都包含一个带有十进制数字文本文件,你可以根据这些图像创建一个新永久磁盘。

    2.5K20

    技术雷达——科技宏观趋势

    曾几何时,人们使用服务时会研究多时;而今使用on-premise式服务时人们才会非常谨慎。过去一年来,云端托管已经成为大家非常感兴趣的话题。...“GIFEE”的话题才刚开始,Kubernetes基本已经成了所有人都能用谷歌式基础架构。谷歌努力推进项目,投入了大量资源,希望把人们吸引到谷歌产品上。...数据流即是标准 本期技术雷达中,我们探讨了一系列与Kafka相关问题:Kafka、Kafka Streams、Kafka作为正确数据之源、Kafka作为轻量级ESB。然而我们为什么要强调数据流?...我们喜欢基于事件流式架构所带来福利——松散耦合、自主组件、高性能和高扩展性——但分析要求推动了对数据流要求。离开数据流便无法实现实时分析。 与数据流兴起相关是事件驱动架构成熟度。...有些新技术还在涌现,例如用数据流作为企业事实/状态持久化存储。我们并非百分百确定所有这些技术都是好主意(CQRS已经坑了许多不设戒备心的人),但数据流已深入人心,这一点毋庸置疑。 ----

    75560

    React中组件间通信方式

    Props props适用于父子组件通信,props以单向数据流形式可以很好完成父子组件通信,所谓单向数据流,就是数据只能通过props由父组件流向子组件,而子组件并不能通过修改props传过来数据修改父组件相应状态...实际上如果传入一个基本数据类型给子组件,子组件中修改这个值的话React中会抛出异常,如果对于子组件传入一个引用类型对象的话,子组件中修改是不会出现任何提示,但这两种情况都属于改变了父子组件单向数据流...,Refs提供了一种方式,允许我们访问DOM节点或在render方法中创建React元素,典型React数据流中,props是父组件与子组件交互唯一方式,要修改一个子组件,你需要使用props...来重新渲染它,但是某些情况,需要在典型数据流之外强制修改子组件,被修改子组件可能是一个React组件实例,也可能是一个DOM元素,渲染组件时返回是组件实例,而渲染DOM元素时返回是具体DOM...,项目规模不大情况,完全可以使用中央事件总线EventBus 方式,EventBus可以比较完美地解决包括父子组件、兄弟组件、隔代组件之间通信,实际上就是一个观察者模式,观察者模式建立了一种对象与对象之间依赖关系

    2.5K30

    【重识原生】计算第2.4节——主流虚拟化技术之KVM

    如之前介绍,VT-x提供了一套称作VMX工作模式,工作模式处理器又具有两类操作模式:VMX root operation和VMX non-root operation。...影子页表解决了传统IA32架构内存虚拟化问题,由于影子页表可被载入物理 MMU 为客户机直接寻址使用, 所以客户机大多数内存访问都可以没有 KVM 介入情况正常执行,没有额外地址转换开销,...大规模计算环境中会使用OVS(Open vSwitch)或SDN方案,而进程运行在用户态,如果继续使用内核态vhost-net,依然存在大量用户态与内核态切换,所以引入了vhost-user(内核态...除非CPU寄存器中存在一些位大小差异,例如,32位处理器上模拟64位处理器可能需要新增许多额外指令,这也需要更多时间TCG转换器中进行编程。...虚拟机通过仿真硬件与QEMU交互,并将IO执行情况控制数据流交互给QEMU,QEMU代表虚拟机对磁盘镜像文件执行I / O操作。

    2.7K20

    分布式机器学习平台大比拼(附论文)

    根据实现原理和架构不同,我们将分布式机器学习平台分为三种不同基本类型: 基础数据流模式 参数服务器模型 先进数据流模式 对于三种主流实现方式做了简短介绍,分别利用Spark、PMLS和Tensorflow...谷歌希望员工可以不需要精通分布式知识情况编写机器学习代码,所以开发了Tensorflow来实现这一目标。基于同样理由,谷歌也曾经为大数据处理提供了MapReduce分布式框架。...一些评测结果 我们使用亚马逊服务来进行试验,利用了Amazon EC2 m4.xlarge 实例 每个包含 Intel Xeon E5-2676 v3 处理器 and 16GiB RAM. 750Mbps...下图显示了各个平台对于DNNs处理速度。其中Spark处理两层网络时性能下降主要来自于大量迭代计算。 下图是不同平台对于CPU利用率。Spark使用率最高,主要来自于大量串联负载。...与其致力于更先进通用数据流平台,不吐集中精力来实现更好数据/模型分级,提高数据/模型重视度。 Spark系统中CPU开销则是先于网络限制瓶颈。编程语言性能同样影响着系统表现。

    1.7K50

    横向对比三大分布式机器学习平台:Spark、PMLS、TensorFlow

    先进数据流(advanced dataflow) 我们对这三种方法进行了简要介绍并举例进行了说明,其中基本数据流方法使用了 Apache Spark、参数服务器模型使用了 PMLS(Petuum)、先进数据流模型使用了...这会带来大量额外开销,因为每次迭代都需要创造一个新 RDD 来保存更新后模型参数。更新模型涉及到整个机器/磁盘上重排数据,这就限制了 Spark 扩展性。...这是 Spark 基本数据流模型(DAG)不足之处。Spark 并不能很好地支持机器学习所需迭代。 PMLS PMLS 是专为机器学习设计,没有其它杂乱历史。...一些评估结果 我们评估使用了 Amazon EC2 m4.xlarge 实例。每个实例包含 4 个由 Intel Xeon E5-2676 v3 驱动 vCPU 和 16 GiB RAM。...提供更好数据/模型分级比更先进通用数据数据流平台更有用;应该将数据/模型看作头等公民。 但是,可能会有一些让人惊奇和微妙地方。 Spark 中,CPU 开销会先于网络限制变成瓶颈。

    93060
    领券