首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >[开源]新一代数据可观测性系统,提供元数据管理和数据质量检查功能,让您心中有数!

[开源]新一代数据可观测性系统,提供元数据管理和数据质量检查功能,让您心中有数!

作者头像
艺齐飞
发布2025-11-30 11:08:03
发布2025-11-30 11:08:03
2280
举报
文章被收录于专栏:一飞开源一飞开源

一飞开源,介绍创意、新奇、有趣、实用的开源应用、系统、软件、硬件及技术,一个探索、发现、分享、使用与互动交流的开源技术社区平台。致力于打造活力开源社区,共建开源新生态!

一、开源项目简介

Datavines

Datavines 是一站式开源数据可观测性平台,提供元数据管理、数据概览报告、数据质量管理,数据分布查询、数据趋势洞察等核心能力,致力于帮助用户全面地了解和掌管数据,让您做到心中有数。

二、开源协议

使用Apache-2.0开源协议

三、界面展示

四、功能概述

DataVines 是一个易用的数据质量服务平台,支持多种指标和验证规则。它通过提供数据血缘、质量和分布模式的可见性,帮助组织建立稳健的数据治理实践。该平台帮助团队在数据问题影响业务决策之前识别并解决这些问题,确保数据在整个生命周期中保持可信和可靠。

特性

数据目录

  • 定时获取数据源元数据,构造数据目录
  • 定时监听元数据变更情况
  • 支持元数据的标签管理
数据目录
数据目录

数据质量监控

  • 内置 27 个数据质量检查规则,开箱即用
  • 支持 4 种数据质量检查规则类型单表单列检查类型单表自定义SQL检查类型跨表准确性检查类型两表值比对检查类型
  • 支持配置定时任务进行定时检查
  • 支持配置 SLA 用于检查结果告警
数据质量检查
数据质量检查

数据概览

  • 支持定时执行数据探测,输出数据概览报告
  • 支持自动识别列的类型自动匹配合适的数据概况指标
  • 支持表行数趋势监控
  • 支持列的数据分布情况查看
数据目录
数据目录

多种运行模式

  • 提供Web页面配置检查作业、运行作业、查看作业执行日志、查看错误数据和检查结果
  • 支持在线生成作业运行脚本,通过 datavines-submit.sh 来提交作业,可与调度系统配合使用
作业脚本
作业脚本

容易部署&高可用

  • 平台依赖少,容易部署
  • 最小仅依赖 MySQL 既可启动项目,完成数据质量作业的检查
  • 支持水平扩容,自动容错
  • 无中心化设计,Server 节点支持水平扩展提高性能
  • 作业自动容错,保证作业不丢失和不重复执行

五、技术选型

架构设计

DataVinesArchitecture
DataVinesArchitecture

安装

使用Maven3.6.1以及以上版本

代码语言:javascript
复制
$ mvn clean package -Prelease -DskipTests

环境依赖

  1. Java 运行环境:Jdk8
  2. Datavines 支持 JDBC 引擎,如果你的数据量较小或者只是想做功能验证,可以使用 JDBC 引擎
  3. 如果您要想要基于 Spark 来运行 Datavines ,那么需要保证你的服务器具有运行 Spark 应用程序的条件

快速入门

请参考官方文档:快速入门指南

开发指南

请参考官方文档:开发指南

DataVines 代表了数据可观测性和质量管理的全面解决方案。其数据目录、质量监控、概要分析和多表验证能力的结合,为组织提供了建立稳健数据治理实践所需的工具。 该平台基于插件的架构确保了灵活性和可扩展性,使其能够适应不断发展的数据景观和需求。通过支持众多数据源、执行引擎和验证规则,DataVines 能够满足各种规模和行业组织的需求。 无论您是刚刚开始数据质量之旅,还是希望增强现有实践,DataVines 都为确保数据在整个生命周期中保持准确、可靠和可信提供了坚实的基础。

六、源码地址

访问一飞开源:https://code.exmay.com/

#一飞开源 #开源项目 #新一代数据可观测系统

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一飞开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、开源项目简介
  • Datavines
  • 二、开源协议
  • 三、界面展示
  • 四、功能概述
  • 特性
  • 数据目录
  • 数据质量监控
  • 数据概览
  • 多种运行模式
  • 容易部署&高可用
  • 五、技术选型
  • 架构设计
  • 安装
  • 环境依赖
  • 快速入门
  • 开发指南
  • 六、源码地址
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档