首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • LLM 时代,DataAgent × WhaleTunnel 如何将数据库变更瞬时 “转译” 为洞察?

    DataAgent×WhaleTunnel:让集成更智能,让洞察更实时当智能 Agent 与数据集成框架结合,数据基础设施的形态将被彻底改变。 白鲸开源WhaleTunnel 新一代实时多源数据同步引擎支持上百种数据源与跨云环境,性能较传统方案提升可达 30 倍。 而当 DataAgent 赋能其中,WhaleTunnel 不再只是“数据搬运工”,而是具备语义理解与自我优化能力的数据神经系统。 这种融合,让 WhaleTunnel 从“高速数据管道”进化为“智能数据中枢”——数据不仅被传输,更被理解与优化。每一次变更、每一条日志、每一组指标,都能被 LLM 实时“翻译”为洞察。 当自然语言成为新的数据编排接口,当 WhaleTunnel 的数据流由智能 Agent 实时调度与解释,我们将迎来一个前所未有的时代:数据不再只是被“使用”,而是能主动“思考”。

    19310编辑于 2025-11-05
  • (三)从分层架构到数据湖仓架构系列:数据仓库分层之贴源层和数据仓库层设计

    例如,WhaleTunnel这样的工具支持多种系统的DDL变更捕获,保证了ODS层数据在数据仓库、数据湖或实时数据仓库中的一致性,不会因为源系统的改变而中断ETL流程。 埋点数据首先经由Nginx上报,再由Flume收集并存储在Kafka等消息队列中,随后由SeaTunnel或WhaleTunnel拉取至离线数据仓库(如HDFS)。 典型的日计算任务会在凌晨执行,通过SeaTunnel、DataX或WhaleTunnel从业务数据库提取数据,计算前一天的业务指标,并生成报表。 实时数据源可利用WhaleTunnel监控MySQL的Binlog变化,将数据实时写入Kafka或HDFS。按方式划分在实际应用中,可根据需求选择增量、全量或拉链存储方式。 建议方案:Apache SeaTunnel或WhaleTunnel生成的CDC日志直接进入缓冲层。如果业务涉及拉链数据,同样将其存放于缓冲层,以确保数据变更的准确记录。

    76810编辑于 2025-10-29
  • 新兴数据湖仓手册·从分层架构到数据湖仓架构(2025):数据仓库分层的概念与设计

    这些数据在抽取后,通常需转换为仓库兼容的内存格式,以便后续的处理和集成,例如,将多种源数据统一转为WhaleTunnel/SeaTunnel格式供处理引擎使用。 例如,在白鲸开源的WhaleTunnel/SeaTunnel当中利用界面/脚本进行轻量级别数据清洗,增加字段、修改数据类型、修改字段名称、过滤不需要的数据等。 在Load时候,也尽量不使用JDBC模式,因为大量数据加载时候insert/update会行程系统瓶颈,例如,WhaleTunnel/SeaTunnel是全部内存转化和高速加载的,不会把中间数据存储磁盘或数据库当中

    46410编辑于 2025-10-15
  • 来自专栏DolphinScheduler

    GOSIM 开源出海工作坊:给开源创业者的忠告

    作为一个云原生、高性能并带有强大可视化界面的 DataOps 系统, WhaleStudio 增加了商业客户所需的企业级特性,涵盖 WhaleScheduler 与WhaleTunnel 两大产品核心功能

    17610编辑于 2025-09-25
  • 2024年,中国开源商业到底行不行?我的答案是,行!

    现在Apache SeaTunnel已经支持了160多种数据源,而白鲸开源商业版的WhaleTunnel支持了200多种数据源。

    33110编辑于 2025-01-21
  • 为什么海外大厂开始重新评估 Airbyte?

    跨云和多数据库全覆盖SeaTunnel和WhaleTunnel的核心竞争力在于其高度抽象的连接器架构,这让它在处理复杂环境时展现出了极强的“通吃”能力。

    14910编辑于 2026-02-04
  • 来自专栏数据猿

    2023中国开源软件领域最具商业合作价值企业盘点

    WhaleStudio是白鲸开源科技根据全球领先的DataOps理念打造的新一代数据集成调度工具,它由两大核心组件组成,WhaleScheduler 与 WhaleTunnel,将全球领先的调度开发组件与数据集成组件集成在一起提供给用户全球领先的完整

    87940编辑于 2023-10-27
领券