- 离线镜像部署
# 1.下载部署文件
wget http://oss.hc-yun.com/airflow-spark/airflow-spark.tgz
tar xvf airflow-spark.tgz -C /home
# 2.下载 redis/postgres 镜像
cd /home/airflow-spark/source
wget http://oss.hc-yun.com/airflow-spark/redis-postgres.tgz
# 3.下载 airflow/spark 镜像
wget http://oss.hc-yun.com/airflow-spark/airflow-spark-py37.tgz
# 4.安装 docker 环境(docker/docker-compose)
./start.sh dockerenv
# 5. 导入离线镜像
./start.sh import
# 6. 修改配置
# 1. 修改配置 /home/airflow-spark/dags-2.2.4/config.py
# 2. 修改配置 /home/airflow-spark/data-quality/application.properties
# 3. 修改配置/home/airflow-spark/data-quality-python/jobs/config.ini
# 7.部署
cd /home/airflow-spark
./start.sh start
- 在线构建镜像部署
# 1.下载部署文件
wget http://oss.hc-yun.com/airflow-spark/airflow-spark.tgz
tar xvf airflow-spark.tgz -C /home
# 2.安装 docker 环境(docker/docker-compose)
./start.sh dockerenv
# 3.构建镜像
cd /home/airflow-spark
docker-compose build
# 4.部署
cd /home/airflow-spark
./start.sh start
- 验证部署
# 1. 命令行查看容器健康状态
cd /home/airflow-spark
docker-compose ps
# 2. 浏览器打开以下url测试服务是否正常(替换 127.0.0.1 为实际服务器IP地址)
# airflow : http://127.0.0.1:8083
# spark : http://127.0.0.1:8080 http://127.0.0.1:18080
# 3. 注意事项
# 1. airflow 相关配置参数在 /home/airflow-spark/.env 请在启动容器之前修改
# 2. 如果是hadoop 为多namenode节点(hadoop 高可用) 需要取消 docker-compose.yml hdfs-site.xml 文件映射注释并复制 hadoop 配置 hdfs-site.xml 到同级目录之后再启动容器
# 4. web 配置数据质量
# 1. 数据库执行以下语句时间为当前日期 -2天 update loong.data_quality_config set calc_time = "2022-04-10 00:00:00";
# 5. 如果airflow执行不通过可登录 airflow-worker 容器执行 spark 命令测试
spark-submit \
--master spark://spark-master:7077 \
--files /home/airflow/data-quality/application.properties \
--name arrow-spark \
--class com.haocang.data.quality.DataQualityPublisher /home/airflow/data-quality/data-quality-1.1.6.0001.jar
spark-submit \
--master spark://spark-master:7077 \
--name arrow-spark --queue root.default /home/airflow/data-quality-python/jobs/data-quality-calc.py
spark-submit \
--master spark://spark-master:7077 \
--files /home/airflow/data-quality/application.properties \
--name arrow-spark \
--class com.haocang.data.quality.DataQualityPublisher \
--queue root.default /home/airflow/data-quality/data-quality-1.1.6.0001.jar
评论区