Datahub安装

2022-04-26

    1. DataHub简介

    DataHub是由Linkedin开源的, 为现代数据栈而生的元数据管理平台。其目的是解决各种数据生态系统的元数据管理问题,它提供元数据检索、数据发现、数据监测和数据监管能力,帮助大家解决数据管理的复杂性。

    DataHub基于Apache License 2开源。集成了大部分流行数据生态系统接入能力,包括:Kafka、Airflow、 MySQL、 Oracle、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery等。

    Github:https://github.com/linkedin/datahub

    官网: https://datahubproject.io

    2. DataHub 安装

    2.1 硬件要求

    DataHub官方要求的最低配置为:2 个 CPU、8GB RAM、2GB 交换区和 10GB 磁盘空间。

    本文的示例环境为阿里云centos8云服务器

    2.2 安装docker

    使用官方安装脚本自动安装安装命令如下:

    curl -fsSL https://get.docker.com | bash -s docker --mirror Aliyun

    也可以使用国内 daocloud 一键安装命令:

    curl -sSL https://get.daocloud.io/docker | sh

    查看是否安装成功:

    docker --version

    启动 Docker:

    sudo systemctl start docker

    2.3 安装jq

    yum install epel-release     

    yum -y install jq

    2.4 安装python3

    DataHub要求 Python 版本3.6+,本例采用python3.8.2

    1 安装必备的插件:

    1.1 先升级:

    # yum install -y update

    1.2 再安装 gcc和make插件:

    #yum install gcc gcc-c++

    #yum -y install gcc automake autoconf libtool make

    #yum groupinstall -y 'Development Tools'

    # yum install -y gcc openssl-devel bzip2-devel libffi-devel

    2. 下载和编译python3.8.2

    2.1 下载python3.8.2

    #wget https://www.python.org/ftp/python/3.8.2/Python-3.8.2.tgz

    2.2 解压缩:# tar -zxvf Python-3.8.2.tgz

    2.3 用脚本检验整个编译环境

    # cd Python-3.8.2

    # ./configure prefix=/usr/local/python3 --enable-optimizations

    2.4 用make命令编译安装

    # make && make install

    2.5 修改环境变量

    # export PATH=$PATH:/usr/local/python3/bin/

    3. 安装PIP

    # curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

    # python3.8 get-pip.py

    4、测试

    python3 -v

    这样python3就正常安装到centos8上了

    2.5 安装 DataHub CLI

    DataHub CLI 是DataHub命令行工具,要求安装和配置 Python 3.6+。通过此命令行工具可以部署更新DataHub、导入元数据等。

    1、升级 pip、wheel、setuptools

    python3 -m pip install --upgrade pip wheel setuptools

    2、卸载DataHub CLI

    python3 -m pip uninstall datahub acryl-datahub || true  

    3、下载安装DataHub CLI  

    python3 -m pip install --upgrade acryl-datahub    

    4、查看DataHub CLI版本号,验证是否安装成功

    python3 -m datahub version    

    2.6 部署DataHub

    1、用DataHub CLI命令在docker下部署、启动DataHub。

    python3 -m datahub docker quickstart

    首次执行quickstart会下载安装多个docker镜像,时间会有点慢,大概需要10几分钟。如果下载失败或者长时间无法完成,请尝试添加国内docker镜像源。这里用的是daocloud国内镜像,执行以下命令:

    curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://f1361db2.m.daocloud.io

    关机重启后可以再次执行quickstart命令启动datahub。

    如果要升级datahub,且保留已有数据,执行以下命令:

    python3 -m datahub docker nuke --keep-data
    python3 -m datahub docker quickstart

    2、部署启动成功后,显示DataHub is now running

    执行docker container ls命令可以看到多了以下docker容器:

    部署成功后打开网址(http://本地ip地址:9002),界面如下图所示:

    注意:要开放外网访问端口9002和8080,9002为网站访问端口,8080为api访问端口

    默认登录名和密码是 datahub、datahub