这些数据在抽取后,通常需转换为仓库兼容的内存格式,以便后续的处理和集成,例如,将多种源数据统一转为WhaleTunnel/SeaTunnel格式供处理引擎使用。 例如,在白鲸开源的WhaleTunnel/SeaTunnel当中利用界面/脚本进行轻量级别数据清洗,增加字段、修改数据类型、修改字段名称、过滤不需要的数据等。 在Load时候,也尽量不使用JDBC模式,因为大量数据加载时候insert/update会行程系统瓶颈,例如,WhaleTunnel/SeaTunnel是全部内存转化和高速加载的,不会把中间数据存储磁盘或数据库当中
作为一个云原生、高性能并带有强大可视化界面的 DataOps 系统, WhaleStudio 增加了商业客户所需的企业级特性,涵盖 WhaleScheduler 与WhaleTunnel 两大产品核心功能
现在Apache SeaTunnel已经支持了160多种数据源,而白鲸开源商业版的WhaleTunnel支持了200多种数据源。
WhaleStudio是白鲸开源科技根据全球领先的DataOps理念打造的新一代数据集成调度工具,它由两大核心组件组成,WhaleScheduler 与 WhaleTunnel,将全球领先的调度开发组件与数据集成组件集成在一起提供给用户全球领先的完整