侧边栏壁纸
博主头像
SRE实战博主等级

助力中小微企业运筹帷幄。

  • 累计撰写 27 篇文章
  • 累计创建 11 个标签
  • 累计收到 0 条评论

目 录CONTENT

文章目录

芒果数据质量部署手册

SRE实战
2022-07-07 / 0 评论 / 0 点赞 / 130 阅读 / 531 字 / 正在检测是否收录...
温馨提示:
本文最后更新于 2022-07-13,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。
  1. 离线镜像部署

# 1.下载部署文件
wget http://oss.hc-yun.com/airflow-spark/airflow-spark.tgz
tar xvf airflow-spark.tgz -C /home

# 2.下载 redis/postgres 镜像
cd /home/airflow-spark/source
wget http://oss.hc-yun.com/airflow-spark/redis-postgres.tgz 

# 3.下载 airflow/spark 镜像
wget http://oss.hc-yun.com/airflow-spark/airflow-spark-py37.tgz

# 4.安装 docker 环境(docker/docker-compose)
./start.sh dockerenv

# 5. 导入离线镜像
./start.sh import

# 6. 修改配置
# 1. 修改配置 /home/airflow-spark/dags-2.2.4/config.py
# 2. 修改配置 /home/airflow-spark/data-quality/application.properties
# 3. 修改配置/home/airflow-spark/data-quality-python/jobs/config.ini

# 7.部署
cd /home/airflow-spark
./start.sh start
  1. 在线构建镜像部署

# 1.下载部署文件
wget http://oss.hc-yun.com/airflow-spark/airflow-spark.tgz
tar xvf airflow-spark.tgz -C /home

# 2.安装 docker 环境(docker/docker-compose)
./start.sh dockerenv

# 3.构建镜像
cd /home/airflow-spark
docker-compose build

# 4.部署
cd /home/airflow-spark
./start.sh start
  1. 验证部署

# 1. 命令行查看容器健康状态
cd /home/airflow-spark
docker-compose ps

# 2. 浏览器打开以下url测试服务是否正常(替换 127.0.0.1 为实际服务器IP地址)
# airflow   :  http://127.0.0.1:8083
# spark    :  http://127.0.0.1:8080  http://127.0.0.1:18080  

# 3. 注意事项
# 1. airflow 相关配置参数在 /home/airflow-spark/.env 请在启动容器之前修改
# 2. 如果是hadoop 为多namenode节点(hadoop 高可用) 需要取消 docker-compose.yml hdfs-site.xml 文件映射注释并复制 hadoop 配置 hdfs-site.xml 到同级目录之后再启动容器

# 4. web 配置数据质量
# 1. 数据库执行以下语句时间为当前日期 -2天 update loong.data_quality_config set calc_time = "2022-04-10 00:00:00";

# 5. 如果airflow执行不通过可登录 airflow-worker 容器执行 spark 命令测试
spark-submit \
  --master spark://spark-master:7077 \
  --files /home/airflow/data-quality/application.properties \
  --name arrow-spark \
  --class com.haocang.data.quality.DataQualityPublisher /home/airflow/data-quality/data-quality-1.1.6.0001.jar

spark-submit \
  --master spark://spark-master:7077 \
  --name arrow-spark --queue root.default /home/airflow/data-quality-python/jobs/data-quality-calc.py

spark-submit \
  --master spark://spark-master:7077 \
  --files /home/airflow/data-quality/application.properties \
  --name arrow-spark \
  --class com.haocang.data.quality.DataQualityPublisher \
  --queue root.default /home/airflow/data-quality/data-quality-1.1.6.0001.jar
0

评论区