如何在不加载所有数据的情况下，按时间戳分区查询BigQuery堆栈驱动器接收的Google负载均衡请求？

文章/答案/技术大牛

发布

1回答

如何将负载均衡器日志实时导出到BigQuery？

google-bigquery、load-balancing、google-cloud-dataflow、google-cloud-pubsub

我们正在尝试将所有的http请求导出到我们的google负载均衡器到大查询中。不幸的是，我们注意到数据在3分钟后到达BigQuery。从本教程开始：用流插入pub/sub表创建带有所提供模板

浏览 0提问于2019-07-17得票数 0

1回答

google-bigquery、google-cloud-stackdriver、google-cloud-load-balancer

我正在尝试按时间戳查询我的数据集，但我为完整的数据集扫描收费。是否可以只查询特定的时间戳，并减少分析的数据大小？请注意，我使用的是Stackdrive Sink，它在我的数据集上实时传输数据。

浏览 19提问于2019-03-06得票数 0

回答已采纳

3回答

类似SOCRATA SODA的查询

socrata、soda

如何在苏格拉塔苏打API中请求类似的查询？一旦进入BigQuery或任何sql数据

浏览 3提问于2014-08-10得票数 1

回答已采纳

1回答

谷歌BigTable的模式设计

google-cloud-platform、google-bigquery、bigtable

在我的项目中，我使用的是谷歌BigQuery，它保存了大量的数据。BigQuery列是： account_id，session_id，transaction_id，用户名，事件，时间戳。在我的仪表板中，我根据时间戳(最后30天)获取整个数据。因为我有非常大的数据，所以性能非常慢(获取最后30天的数据需要13秒)

浏览 3提问于2022-05-25得票数 0

1回答

Cassandra读取查询，使用queries框架数据返回空结果

spring-boot、cassandra、cqlsh、tombstone

当我执行Cassandra查询时，它总是返回空的结果，但是cassandra表中有记录。当删除操作发生在同一个分区上时，我将面临这个问题。例如：分区A包含1条M记录，更早的时候，我在同一个分区A上删除了900 K记录。后来，我无法在相同分区上获得剩余的100 K记录。有时抛出ReadTimeoutException或返回空的结果.这是在使用querying框架数据cassandra查询时发生<em

浏览 7提问于2020-10-16得票数 3

2回答

<-> -> BigQuery

python、google-app-engine、google-bigquery、google-cloud-storage

我们正在开发处理日志数据的项目。我的想法是问题是这是实际的解决办法吗？日志数据<

浏览 5提问于2014-09-05得票数 2

回答已采纳

1回答

在BigQuery中对大型时间序列数据集进行排序以便导出

d3.js、google-cloud-platform、google-bigquery

我这样做的原因是，我可以在许多不同的细节级别查看时间序列数据。目前，我使用Python SDK通过csv上传到BigQuery来加载数据。csv文件是测量系统输出的文件，我对此没有控制权。在99%的情况下，时间戳GroupId用于将数据分组到“bin”中，然后我们可以使用这些bin通过获取每个bin的最大值和最小值来进行下采样。因此，当我需要对

浏览 42提问于2020-01-04得票数 0

2回答

cassandra 1.x中按日期范围查询的最简单示例

nosql、cassandra

我想存储一个ID和一个日期，我想从dateA到dateB检索所有条目，我到底需要什么才能执行select from my_column_family where date >= dateA and date

浏览 7提问于2011-12-26得票数 3

4回答

是否可以查询存储的云存储日志数据而不使用BigQuery对其进行清理？

google-cloud-platform、google-bigquery、stackdriver

我有大量日志数据从StackDriver导出到。我正在尝试使用BigQuery运行查询。但是，在BigQuery Dataset中创建表时，我将得到大量日志数据是从包含大量唯一列名的StackDriver接收器中导出的。其中一些名称不符合BigQuery表的要求。解决这个问题的办法是什么

浏览 0提问于2019-09-04得票数 0

回答已采纳

2回答

在Hive中使用的分区表是什么？

hadoop、hive

我知道分区表用于水平分配负载，但它们的确切用途是什么？有人能用一个简单的例子向我解释吗？

浏览 4提问于2013-10-24得票数 0

回答已采纳

4回答

动力BI雅典娜增量刷新

powerbi、etl、presto、amazon-athena、incremental-load

我已经成功地使用了Power的增量刷新和MySQL数据源。但是，我无法用AWS雅典娜进行配置，因为后者似乎将所需参数RangeStart和RangeEnd中的值解释为字符串。由于数据源大约有5000万行，所以我宁愿每天都避免从头开始查询。在Cube中的Guy 中，可以清楚地看到Power向Azure发送的查询有一个转换为datetime2函数--对于雅典娜/普雷斯托来说可能缺少类似的功能，它需要类型构造器时间戳</e

浏览 1提问于2019-07-26得票数 1

回答已采纳

3回答

如何重新启动标准服务

python-3.x、google-app-engine、google-api、gcloud

上下文:我有一个应用程序，用于交互图形和数据分析。为了计算图表和数据摘要，它使用了一个在应用程序初始化时通过查询google BigQuery加载的数据集。然后，数据作为全局变量(在内存中)保存，并用于可能由不同用户运行的所有数据计算和绘图中(每个用户在会话中保存自己的过滤器/掩码)。此数据集在夜间每天在BigQuery</em

浏览 0提问于2019-03-17得票数 1

回答已采纳

3回答

如何在内存、磁盘使用和其他属性方面负载平衡

linux、networking、performance、memory

我已经发现像NGINX这样的负载平衡器，但是这些工具似乎只需要记住CPU的使用和网络流量才能工作。对于其他变量，例如每个节点上可用的磁盘数量，或者可用的内存量，我将如何加载平衡？我是否需要编写自己的请求处理服务，以便在决定将请求发送到哪个节点时利用这些变量？这是我的用例，我正在构建一个用于擦除代码的分布式文件系统，并希望负载均衡器向节点发送一个文件的</e

浏览 0提问于2016-04-21得票数 8

7回答

如何使HTTP调用到达amazon负载均衡器后面的所有实例？

amazon-web-services、amazon-ec2、elastic-load-balancer

我有一个web应用程序，运行在Amazon弹性负载均衡器后面，附带了3个实例。该应用程序有一个/refresh端点来重新加载参考数据。只要有新的数据可用，就需要运行它，这每周发生几次。我一直在为所有实例分配公共地址，并独立地进行刷新(使用ec2-url/refresh)。我同意的观点，ELB背后的EC2实例不应该允许直接的公共访问。现在，我的问题是如何让elb-url/

浏览 0提问于2016-09-14得票数 19

回答已采纳

4回答

如何安排数十万项任务？

python

我们有成千上万的任务需要以各种任意的间隔运行，有些是每小时，有些是每天，等等。这些任务是资源密集型的，需要在许多机器上进行分配。据我所知，我

浏览 3提问于2010-03-16得票数 17

回答已采纳

2回答

查询优先的MongoDB方法？

mongodb、database-design、nosql

我开始为一个肯定会有大量并发访问的项目设计一个全新的MongoDB数据库。我之所以选择MongoDB，是因为我知道它的可扩展性和查询速度。然而，我知道即使使用MongoDB，出于性能的考虑，我也应该尝试尽可能少地访问数据库。我知道另一个NoSQL数据库Apache Cassandra提倡“查询优先”方法，这意味着您应该首先考虑您的查询，然后根据它们组织您的数据结构

浏览 0提问于2013-04-19得票数 1

2回答

当火花从mysql中读取或写入时，创建了多少任务？

mysql、apache-spark

据我所知，火花执行者同时处理许多任务，以保证处理数据parallelly.Here是一个问题。当连接到外部数据存储时，例如mysql，有多少任务可以完成这项工作?换句话说，是同时创建多个任务，每个任务读取所有数据，还是数据只从一个任务读取并以其他方式分发到集群？如何将数据写入mysql，有多少连接？下面是一些从mysql读取或写入数据的代码： def jdbc(sqlContext: SQLContext, url: String, drive

浏览 8提问于2022-09-27得票数 0

2回答

如何设置多个web和数据库服务器？

mysql、hosting、scalability、architecture、database-replication

我的网站在流量方面一直在增长，而mysql上的负载也在增加。我想要一个解决方案来帮助处理mysql上增加的负载(所有的查询都已经优化了)，因为流量+备份服务器增加了，如果我的主服务器出现故障，它可以作为故障转移。我读过关于设置多个web和数据库服务器的文章，但有几个问题： 1)如何在维护相同内容的同时设置多个web服务器(每次更新时我都要将文件上传到所有服务器，还

浏览 0提问于2010-09-30得票数 3

7回答

是否有办法确保GAE上的任务队列具有FIFO (先进先出)行为？

java、google-app-engine、task-queue

GAE文档说FIFO是影响任务执行顺序的因素之一，但同样的文档说“系统的调度可能会‘跳转’新任务到队列的首位”，我已经通过测试证实了这种行为。结果是:我的事件被处理得乱七八糟。医生说：任务在队列中的位置。App尝试基于FIFO >(先入先出)顺序处理任务。通常，任务被插入到队列的末尾，并从队列的头执行。队列中的任务积压。系统试图通过特别优化的通知向调度

浏览 7提问于2012-04-02得票数 7

回答已采纳

3回答

寻找一个短期解决方案，以提高网站的性能与额外的服务器

php、mysql、performance、optimization、cluster-analysis

所有文件和数据库都托管在具有以下配置的专用Linux计算机上：我们一开始很小，然后数据库变得更大，现在网站的性能明显下降。我们经常遇到服务器空间溢出，mysql调用过多等问题，我们没有太多处理这些问题的经验。我们最近得到了另一台服务器，我们正在考虑使用它来提高性能。由于它有更好的</e

浏览 2提问于2012-11-22得票数 1

点击加载更多

如何将负载均衡器日志实时导出到BigQuery？