跳转到主要内容

#1开源数据目录

DataHub的可扩展元数据平台支持数据发现、数据可观察性和联邦治理,帮助您降低数据生态系统的复杂性。

元数据360

结合技术、运营和业务元数据,提供数据实体的360度视图。

左移

应用“左移”实践,使用摄取转换器、支持dbt元映射和其他功能预先丰富重要元数据。

活动元数据

通过通知关键利益相关者、突破性业务关键管道、跨实体传播元数据等,实时处理元数据的更改。

开源

DataHub最初在LinkedIn上构建,随后在Apache 2.0许可下开源。它现在有一个蓬勃发展的社区,有超过100名贡献者,并在许多公司广泛使用。

前瞻性建筑

DataHub遵循基于推送的架构,这意味着它是为不断变化的元数据而构建的。模块化设计使其能够随任何组织的数据增长而扩展,从办公桌下的单个数据库到遍布全球的多个数据中心。

大规模生态系统

DataHub预先构建了与您最喜欢的系统的集成:Kafka、Airflow、MySQL、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery等。社区不断增加更多的集成,所以这个列表越来越长。

元数据管理的现代方法

自动元数据摄取

基于推送的摄取可以使用预先构建的发射器,也可以使用我们的框架发出自定义事件。

基于拉取的摄取对元数据源进行爬网。我们已经与Kafka、MySQL、MS SQL、Postgres、LDAP、Snowflake、Hive、BigQuery等预构建了集成。可以使用我们的气流集成或其他选择的调度器自动摄入。

在文档中了解有关DataHub的元数据摄取的更多信息。

source:
  type: "mysql"
  config:
    username: "datahub"
    password: "datahub"
    host_port: "localhost:3306"
sink:
  type: "datahub-rest"
  config:
    server: 'http://localhost:8080'

 

DataHub Lineage Screenshot

发现可信数据

浏览和搜索不断更新的数据集、仪表盘、图表、ML模型等目录。

在上下文中理解数据

DataHub是文档、模式、所有权、沿袭、管道、数据质量、使用信息等的一站式商店。

DataHub元数据屏幕截图

本文:https://datahubproject.io/