侧边栏壁纸
博主头像
云和运维博主等级

行动起来,活在当下

  • 累计撰写 27 篇文章
  • 累计创建 1 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

芒果数据质量部署手册

Miracle
2024-02-29 / 0 评论 / 0 点赞 / 4 阅读 / 2357 字 / 正在检测是否收录...
  1. 离线镜像部署

# 1.下载部署文件
wget http://oss.hc-yun.com/airflow-spark/airflow-spark.tgz
tar xvf airflow-spark.tgz -C /home

# 2.下载 redis/postgres 镜像
cd /home/airflow-spark/source
wget http://oss.hc-yun.com/airflow-spark/redis-postgres.tgz 

# 3.下载 airflow/spark 镜像
wget http://oss.hc-yun.com/airflow-spark/airflow-spark-py37.tgz

# 4.安装 docker 环境(docker/docker-compose)
./start.sh dockerenv

# 5. 导入离线镜像
./start.sh import

# 6. 修改配置
# 1. 修改配置 /home/airflow-spark/dags-2.2.4/config.py
# 2. 修改配置 /home/airflow-spark/data-quality/application.properties
# 3. 修改配置/home/airflow-spark/data-quality-python/jobs/config.ini

# 7.部署
cd /home/airflow-spark
./start.sh start
  1. 在线构建镜像部署

# 1.下载部署文件
wget http://oss.hc-yun.com/airflow-spark/airflow-spark.tgz
tar xvf airflow-spark.tgz -C /home

# 2.安装 docker 环境(docker/docker-compose)
./start.sh dockerenv

# 3.构建镜像
cd /home/airflow-spark
docker-compose build

# 4.部署
cd /home/airflow-spark
./start.sh start
  1. 验证部署

# 1. 命令行查看容器健康状态
cd /home/airflow-spark
docker-compose ps

# 2. 浏览器打开以下url测试服务是否正常(替换 127.0.0.1 为实际服务器IP地址)
# airflow   :  http://127.0.0.1:8083
# spark    :  http://127.0.0.1:8080  http://127.0.0.1:18080  

# 3. 注意事项
# 1. airflow 相关配置参数在 /home/airflow-spark/.env 请在启动容器之前修改
# 2. 如果是hadoop 为多namenode节点(hadoop 高可用) 需要取消 docker-compose.yml hdfs-site.xml 文件映射注释并复制 hadoop 配置 hdfs-site.xml 到同级目录之后再启动容器

# 4. web 配置数据质量
# 1. 数据库执行以下语句时间为当前日期 -2天 update loong.data_quality_config set calc_time = "2022-04-10 00:00:00";

# 5. 如果airflow执行不通过可登录 airflow-worker 容器执行 spark 命令测试
spark-submit \
  --master spark://spark-master:7077 \
  --files /home/airflow/data-quality/application.properties \
  --name arrow-spark \
  --class com.haocang.data.quality.DataQualityPublisher /home/airflow/data-quality/data-quality-1.1.6.0001.jar

spark-submit \
  --master spark://spark-master:7077 \
  --name arrow-spark --queue root.default /home/airflow/data-quality-python/jobs/data-quality-calc.py

spark-submit \
  --master spark://spark-master:7077 \
  --files /home/airflow/data-quality/application.properties \
  --name arrow-spark \
  --class com.haocang.data.quality.DataQualityPublisher \
  --queue root.default /home/airflow/data-quality/data-quality-1.1.6.0001.jar
0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区