内部阶段的概念是误导的,或者我是不正确地解释这一点。请纠正我的理解。根据文件
可以在三个云platforms(AWS/Azure/GCP).
发布于 2021-09-10 17:57:49
外部阶段由您(客户)管理,您可以随意安排文件/保护其中的文件。然后,当您想要将数据从外部阶段加载到雪花中时,只需引用这些外部阶段。
内部阶段由雪花管理,您可以将PUT文件放入其中,其他所有内容都由雪花管理。雪花内部阶段的储存是从你的抽象出来的。当我说PUT时,可以使用接受本地文件并将其上传到内部阶段的雪花CLI来运行这个命令。
为什么内部阶段存在?我想大概是这样的:
为了灵活起见,可以使用雪花的内部blob存储(不管是什么),也可以使用自己的存储来生成数据。
~上获得自己的内部阶段区域,就像主目录一样。另外,每个表都有自己的内部阶段,您可以将其put到.中。
发布于 2021-09-10 06:11:30
雪花特有的概念是舞台,它是在将数据加载到目标表之前的最后一个位置。
所有作为外部或内部文件承载的内容都必须复制到雪花表(COPY命令)中,以利用雪花的专有微分区、存储机制和类似于零拷贝克隆之类的东西。或者,您仍然可以将文件保存在S3桶中作为外部阶段,但将文件注册为外部表到雪花,并能够在其上运行SQL。这些是csv,parquet,avro,orc和json。当然,您没有得到上面列出的好处。
基本上,在加载到雪花表之前,所有内容都是一个文件(顺便说一句,使用改进的压缩算法也可以实现更好的压缩)
阅读:https://docs.snowflake.com/en/user-guide/data-load-overview.html
发布于 2021-09-09 17:36:56
内部阶段是雪片提供的储存,并支付给你。外部阶段是指由客户拥有和支付的存储。
您是正确的,这仍然是一个公共云资源,但内部阶段是不可访问的,除了雪花或雪花连接器。因此,它是“内部”的。
https://stackoverflow.com/questions/69122362
复制相似问题