更新时间:2018-01-12 16:12:44
滚动发布
滚动发布(rolling update)是最常见的一种发布模式。比如我有10台机器,一台一台的进行部署。每台机器进行部署时,需要保证没有请求会派发到该机器,否则用户就会看到502的错误。所以需要有一个“下线”的操作,把当前机器从负载均衡中摘除,然后在部署完成之后,再把自己挂回到负载均衡中,这个过程称为“上线”。接下来会讲解,配合阿里云SLB如何做上线/下线操作。
基于阿里云SLB的滚动发布
在SLB中进行如下配置:
图中的关键点:
- 健康检查路径,需要由实例上的web服务器提供,在本例中是
/nginx-status
。 - 健康检查间隔,配置为2S。
- 健康阈值,配置为2,也就说2次健康检查失败,则认为该后端服务器不可用。同样的,两次连续的健康检查成功,就会认为该后端服务器可用。
按照这个配置,如果/nginx-status
这个URL不可用超过4S,则SLB会把该服务器摘除。在这4S内,应用服务仍需要是可用的,因为还会有请求派发过来。可以通过如下方式达到这个效果。
配置nginx
将/nginx-status
这个URL派发到一个本地文件,使用如下配置文件:
server {
location ~ ^/(nginx-status) {
root /home/admin/status;
}
}
并在机器上放置文件:/home/admin/status/nginx-status
。当该文件被删除时候,/nginx-status
这个请求会返回404,4S之后,该实例就会被从SLB中摘除。这个过程也就是“下线”的过程。
与之对应,touch /home/admin/status/nginx-status
这个操作就是上线的过程,也是4S之后生效。
上/下线脚本
所以对应的,应用启停的脚本就是这样样子:
下线
rm /home/admin/status/nginx-status
sleep 6
重启应用
上线
touch /home/admin/status/nginx-status
sleep 6
前面的sleep保证,下线完成了再进行重启;后面的sleep,保证上线完成了再进行下一台(批)机器的部署。
应用重启脚本
上线和下线之间是重启的脚本。对于tomcat应用来说,典型的启动脚本就是sh catalina.sh start
。执行完这一句,命令就退出了。但是事实上应用还没起来,有些比较大的应用可能需要一两分钟才能启动完成。如果在启动完成之前就上线,那么打到这台实例的请求还是有问题。所以需要有一个脚本来判断tomcat是否真的起来了。通常可以判断某个URL是否返回200。比如类似/health
这样的URL
。
完整示例
下面是是一个完整的例子,您可以以该例子为基础,按照自己项目的实际情况进行修改使用。
SLB与机器实例
SLB的创建与配置此处略,详见SLB的文档。SLB的后端服务器需要加入到云效的管理中,此处也不再赘述。
代码库
本例使用的代码库是https://code.aliyun.com/rdc-demos/springboot-example
,其中也包括了构建配置。
部署配置及脚本
本例是一个springboot的应用,打出来的jar包名字为app-0.1.0.jar
。相应环境中的部署配置如下:
需要拷贝到机器上的有两个文件:appctl.sh
,nginx.conf
。其中appctl.sh
中包含了应用启停、判断应用是否启动成功,及上下线的操作;nginx.conf
是nginx配置文件,包含了SLB使用的健康检查的URL,/nginx-status
,的配置。
拷贝及修改相应文件
首先,将appctl.sh
拷贝到/home/admin
下。
appctl.sh
PROG_NAME=$0
ACTION=$1
ONLINE_OFFLINE_WAIT_TIME=6 # 实例上下线的等待时间
APP_START_TIMEOUT=50 # 等待应用启动的时间
APP_PORT=8080 # 应用端口
HEALTH_CHECK_URL=http://127.0.0.1:${APP_PORT}/health # 应用健康检查URL
HEALTH_CHECK_FILE_DIR=/home/admin/status # 脚本会在这个目录下生成nginx-status文件
APP_HOME=/home/admin/application # 从package.tgz中解压出来的jar包放到这个目录下
JAR_NAME=app-0.1.0.jar # jar包的名字
APP_LOG=${APP_HOME}/logs/app.log # 应用的日志文件
PID_FILE=${APP_HOME}/pid # 应用的pid会保存到这个文件中
创建出相关目录
mkdir -p ${HEALTH_CHECK_FILE_DIR}
mkdir -p ${APP_HOME}
mkdir -p ${APP_HOME}/logs
usage() {
echo "Usage: $PROG_NAME {start|stop|online|offline|restart}"
exit 2
}
online() {
touch -m $HEALTH_CHECK_FILE_DIR/nginx-status || exit 1
echo "wait app online in ${ONLINE_OFFLINE_WAIT_TIME} seconds..."
sleep ${ONLINE_OFFLINE_WAIT_TIME}
}
offline() {
rm -f $HEALTH_CHECK_FILE_DIR/nginx-status || exit 1
echo "wait app offline in ${ONLINE_OFFLINE_WAIT_TIME} seconds..."
sleep ${ONLINE_OFFLINE_WAIT_TIME}
}
health_check() {
exptime=0
echo "checking ${HEALTH_CHECK_URL}"
while true
do
status_code=`/usr/bin/curl -L -o /dev/null --connect-timeout 5 -s -w %{http_code} ${HEALTH_CHECK_URL}`
if [ x$status_code != x200 ];then
sleep 1
((exptime++))
echo -n -e "\rWait app to pass health check: $exptime..."
else
break
fi
if [ $exptime -gt ${APP_START_TIMEOUT} ]; then
echo
echo 'app start failed'
exit 1
fi
done
echo "check ${HEALTH_CHECK_URL} success"
}
start_application() {
echo "start jar"
if [ -f "$PID_FILE" ] && kill -0 "$(cat ${PID_FILE})"; then
echo "Application is running, exit"
exit 0
fi
rm -rf ${APP_HOME}/${JAR_NAME}
tar -zxvf /home/admin/package.tgz -C ${APP_HOME}
java -jar ${APP_HOME}/${JAR_NAME} > ${APP_LOG} 2>&1 &
echo $! > ${PID_FILE}
}
stop_application() {
echo "stop jar"
if [ -f "$PID_FILE" ]; then
kill -9 `cat $PID_FILE`
rm $PID_FILE
else
echo "pid file $PID_FILE does not exist, do noting"
fi
}
start() {
start_application
health_check
online
}
stop() {
offline
stop_application
}
case "$ACTION" in
start)
start
;;
stop)
stop
;;
online)
online
;;
offline)
offline
;;
restart)
stop
start
;;
*)
usage
;;
esac
然后将nginx.conf
拷贝到/etc/nginx/nginx.conf
。注意,/etc/nginx/nginx.conf
是已经存在的文件,请确保只将nginx.conf
中有用的部分放入您现有的文件中。如果只是测试,可以先把/etc/nginx/nginx.conf
备份,然后用nginx.conf
覆盖。
nginx.conf:
http {
server {
listen 80;
server_name localhost default;
location ~ ^/(nginx-status) {
root /home/admin/status;
}
location / {
proxy_pass http://127.0.0.1:8080;
}
}
}
配置好之后,使用云效,进行发布,