如何读取带有不支持类型的Spark的拼接？

、

我想使用PySpark从一个包含UINT64列的拼图文件中提取数据，该列当前映射到Spark中的typeNotSupported()。我不需要这些列，所以我希望可以使用以下命令使用谓词pushdown来拉取其他列： spark.read.parquet('path/to/dir/').select('legalcol1', 'legalcol2An error was encountered: An error occurred while c

浏览 21提问于2020-04-21得票数 5

1回答

Spark SQL忽略动态分区筛选器值

、

在AWS的EMR 5.20上运行Spark 2.4时遇到问题。我有一个字符串列作为分区，它有日期值。我的目标是将该列的最大值作为筛选器引用。这些值类似于2019年1月1日的2019-01-01。在这个查询中，我试图过滤到某个日期值(这是一个字符串数据类型)，而Spark最终读取所有目录，而不仅仅是结果max(value)。= (select max(mypartitioncolumn) from myothertable) group by 1,2,

浏览 29提问于2019-02-21得票数 2

2回答

使用s3-dist-cp合并拼接文件

、、

我尝试了"--groupBy“和"--targetSize”选项，它确实将小文件合并为更大的文件。但我无法在Spark或AWS Athena中阅读它们。任何帮助都是非常感谢的。

浏览 5提问于2017-12-16得票数 4

2回答

如何通过Spack JDBC选择特定的列？

、、

现在我正在使用Spark连接我的oracle数据库。但是，有一个名为“带有时区的时间戳”的列类型，它是Oracle中的一个特定列。当我从包含此类型列的表中加载数据时，它将引发一个错误"java.sql.SQLException:不支持的类型-101“。有人知道如何从表中加载特定的列吗？然后，我可以避免选择“带有时区<

浏览 1提问于2016-10-04得票数 1

回答已采纳

1回答

Pyspark dataframe拼接vs.增量:不同的行数

、、、

据我所知，Delta正在以拼接的形式存储数据，只是在它上面增加了一个具有高级功能的层。但是，当使用Pyspark读取数据时，如果使用spark.read.parquet()或spark.read.format('delta').load()读取dataframe，我会得到不同的结果 df= spark.read.format('delta').load("my_data")

浏览 28提问于2021-01-27得票数 1

回答已采纳

1回答

在RDD上强制使用模式，同时将其转换为DataFrame

、、

我是非常新的阿帕奇·斯帕克。我正在尝试将csv文件加载到Spark RDD和DataFrames中。dataDF = sqlContext.read.load(trackfilepath, 这给

浏览 9提问于2017-03-11得票数 0

回答已采纳

1回答

本地spark和拼图文件

、

我有单个交易的交易信息(例如，客户代码、产品、产品组、价格等)这在报告产品组等的聚合等时非常有效。但是，如果我想跨月检索特定客户的信息，这并不是非常有效/快速。我尝试按year_month & customer_code进行分区，但是有很多磁盘i/o，因为现在每个分区都是一个包含一行数据的客户代码。在Spark中的逻辑是，它在拼图文件中的每个属性都有最小最大值，我希

浏览 4提问于2015-10-20得票数 0

2回答

使用Python将Dask Dataframe转换为Spark dataframe

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

1回答

DateTime在BigQuery中的数据类型

、

我有一个分区表，其中一个列是DateTime类型的，而该表是在同一列上分区的。根据星星之火-bigquery文档，相应的Spark类型是字符串类型。我试着做同样的事情，但是我得到了数据类型不匹配的问题。df.withColumn("createdDate", lit(nowPST.toLocalDateTime().toString()));Caused by: com.google.c

浏览 2提问于2021-01-04得票数 0

1回答

Vuejs2.6如何拼接datarray的元素？

、、

我有这样的数据数组： ?但是我不能删除1个带有拼接的元素，比如： remove (index) {} 我找到了一种方法 JSON.parse(JSON.stringify(todos)) 当我需要读取数据时，这是可以的，但如何进行拼接？

浏览 19提问于2019-04-27得票数 0

回答已采纳

1回答

快速拼接:如何禁用rle编码

、、、

这比我之前使用pyspark的方法要快得多。Unsupported encoding: RLE 有没有办法在使用快速拼接write方法时禁用RLE？

浏览 4提问于2017-05-11得票数 1

1回答

如何在Spark .NET中实现分布式组合(N选K)？

、、

我有一个项目，我有一个很大的C(100,20)个组合，每个组合集都有少量的工作。我正在使用带有visual studio的Spark .NET作为我的技术(参见下面的设置)：https://docs.microsoft.com/en-us/dotnet/spark/tutorials/get-started Spark .NET有一个带有SQL类型

浏览 14提问于2020-08-13得票数 0

1回答

在拼图中的map类型列上使用spark-sql过滤下推

、、、

我正在尝试以嵌套的方式在拼图中存储我的数据，并使用映射类型列将复杂的对象存储为值。如果有人能告诉我过滤器下推是否适用于列或not.For的映射类型，下面的示例是我的sql查询- `select measureMap['CR01'].tenorMap['1M'] from RiskFactorwhere businessDate='2016-03-14' and bookId='FI-UK'`

浏览 2提问于2016-06-21得票数 6

2回答

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

、、、

我正在尝试创建AWS Glue ETL Job，将数据从存储在S3中的拼图文件加载到红移表中。拼图文件是使用带有‘简单’文件模式选项的pandas编写到一个S3 bucked中的多个文件夹中的。02/file_3.PARGET 我可以使用AWS Glue Crawler在AWS Glue Catalog中创建一个表，并且可以从Athena查询该表，但当我尝试创建将同一表复制到Redshift的ETL如果我抓取单个文件或抓取一个文件夹中的多个文件，它就会工作，只

浏览 1提问于2017-11-14得票数 3

1回答

如何在HDP 2.6.5中使用配置单元仓库连接器

、

我需要从spark中读取hive表，这是ACID启用的。HWC是否只在HDP 3 version.Kindly advise中工作。Spark版本:2.3.0 H

浏览 15提问于2020-03-09得票数 1

1回答

Spark SQL不支持的数据类型TimestampType

、

我刚刚开始使用spark和scala.Trying来读取文本文件并将其保存为拼图文件。对我来说，我使用的一个字段是TimeStamp，文档上说spark1.1.0支持java.util.TimeStamp。我在保存到parquet文件时遇到的运行时错误是线程"main“java.lang.RuntimeException中出现异常:在org.apache.spark.sql.parquet.ParquetTypesConverter$$anonfun$fromDataType

浏览 2提问于2014-10-11得票数 3

4回答

如何在Spark sql中访问HIVE ACID表？

、、、

如何在Spark sql中访问HIVE ACID表？

浏览 2提问于2018-11-08得票数 1

1回答

将blob数据从RDBMS (Sybase)导入Cassandra

、、

在DSE5.0中，sqoop仍然是推荐的方法吗？根据发布说明()：有更好的方法吗？如有任何帮助/建议，将不胜感激。编辑:根据DSE文档()，不支持从spark写入blob列。不支持下列星火特性和API：支持读取所有类型的</

浏览 4提问于2016-12-11得票数 0

回答已采纳

1回答

如何用Python在HDFS中打开拼图文件？

、、

我正在寻找读取存储在HDFS中的拼接文件，我正在使用Python来完成此操作。我有下面的代码，但它不能在HDFS中打开文件。你能帮我修改代码吗？sc = spark.sparkContext sqlContext = SQLContext(sc) df = sqlContext.read.parquet

浏览 9提问于2018-02-02得票数 2

回答已采纳

2回答

火花放电中datetime64与日期时间的转换

、、、

我正在尝试将我的spark中的日期列从date转换为np.datetime64，我如何实现这一点？

浏览 1提问于2020-06-05得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark SQL忽略动态分区筛选器值

使用s3-dist-cp合并拼接文件

如何通过Spack JDBC选择特定的列？

Pyspark dataframe拼接vs.增量:不同的行数

在RDD上强制使用模式，同时将其转换为DataFrame

本地spark和拼图文件

使用Python将Dask Dataframe转换为Spark dataframe

DateTime在BigQuery中的数据类型

Vuejs2.6如何拼接datarray的元素？

快速拼接:如何禁用rle编码

如何在Spark .NET中实现分布式组合(N选K)？

在拼图中的map类型列上使用spark-sql过滤下推

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

如何在HDP 2.6.5中使用配置单元仓库连接器

Spark SQL不支持的数据类型TimestampType

如何在Spark sql中访问HIVE ACID表？

将blob数据从RDBMS (Sybase)导入Cassandra

如何用Python在HDFS中打开拼图文件？

火花放电中datetime64与日期时间的转换

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐