更新时间:2018-01-12 16:12:44
滚动发布
滚动发布(rolling update)是最常见的一种发布模式。比如我有10台机器,一台一台的进行部署。每台机器进行部署时,需要保证没有请求会派发到该机器,否则用户就会看到502的错误。所以需要有一个“下线”的操作,把当前机器从负载均衡中摘除,然后在部署完成之后,再把自己挂回到负载均衡中,这个过程称为“上线”。接下来会讲解,配合阿里云SLB如何做上线/下线操作。
基于阿里云SLB的滚动发布
在SLB中进行如下配置:


图中的关键点:
- 健康检查路径,需要由实例上的web服务器提供,在本例中是
/nginx-status。 - 健康检查间隔,配置为2S。
- 健康阈值,配置为2,也就说2次健康检查失败,则认为该后端服务器不可用。同样的,两次连续的健康检查成功,就会认为该后端服务器可用。
按照这个配置,如果/nginx-status这个URL不可用超过4S,则SLB会把该服务器摘除。在这4S内,应用服务仍需要是可用的,因为还会有请求派发过来。可以通过如下方式达到这个效果。
配置nginx
将/nginx-status这个URL派发到一个本地文件,使用如下配置文件:
server {location ~ ^/(nginx-status) {root /home/admin/status;}}
并在机器上放置文件:/home/admin/status/nginx-status。当该文件被删除时候,/nginx-status这个请求会返回404,4S之后,该实例就会被从SLB中摘除。这个过程也就是“下线”的过程。
与之对应,touch /home/admin/status/nginx-status这个操作就是上线的过程,也是4S之后生效。
上/下线脚本
所以对应的,应用启停的脚本就是这样样子:
下线rm /home/admin/status/nginx-statussleep 6重启应用上线touch /home/admin/status/nginx-statussleep 6
前面的sleep保证,下线完成了再进行重启;后面的sleep,保证上线完成了再进行下一台(批)机器的部署。
应用重启脚本
上线和下线之间是重启的脚本。对于tomcat应用来说,典型的启动脚本就是sh catalina.sh start。执行完这一句,命令就退出了。但是事实上应用还没起来,有些比较大的应用可能需要一两分钟才能启动完成。如果在启动完成之前就上线,那么打到这台实例的请求还是有问题。所以需要有一个脚本来判断tomcat是否真的起来了。通常可以判断某个URL是否返回200。比如类似/health这样的URL。
完整示例
下面是是一个完整的例子,您可以以该例子为基础,按照自己项目的实际情况进行修改使用。
SLB与机器实例
SLB的创建与配置此处略,详见SLB的文档。SLB的后端服务器需要加入到云效的管理中,此处也不再赘述。
代码库
本例使用的代码库是https://code.aliyun.com/rdc-demos/springboot-example,其中也包括了构建配置。
部署配置及脚本
本例是一个springboot的应用,打出来的jar包名字为app-0.1.0.jar。相应环境中的部署配置如下:
需要拷贝到机器上的有两个文件:appctl.sh,nginx.conf。其中appctl.sh中包含了应用启停、判断应用是否启动成功,及上下线的操作;nginx.conf是nginx配置文件,包含了SLB使用的健康检查的URL,/nginx-status,的配置。
拷贝及修改相应文件
首先,将appctl.sh拷贝到/home/admin下。
appctl.sh
PROG_NAME=$0ACTION=$1ONLINE_OFFLINE_WAIT_TIME=6 # 实例上下线的等待时间APP_START_TIMEOUT=50 # 等待应用启动的时间APP_PORT=8080 # 应用端口HEALTH_CHECK_URL=http://127.0.0.1:${APP_PORT}/health # 应用健康检查URLHEALTH_CHECK_FILE_DIR=/home/admin/status # 脚本会在这个目录下生成nginx-status文件APP_HOME=/home/admin/application # 从package.tgz中解压出来的jar包放到这个目录下JAR_NAME=app-0.1.0.jar # jar包的名字APP_LOG=${APP_HOME}/logs/app.log # 应用的日志文件PID_FILE=${APP_HOME}/pid # 应用的pid会保存到这个文件中创建出相关目录mkdir -p ${HEALTH_CHECK_FILE_DIR}mkdir -p ${APP_HOME}mkdir -p ${APP_HOME}/logsusage() {echo "Usage: $PROG_NAME {start|stop|online|offline|restart}"exit 2}online() {touch -m $HEALTH_CHECK_FILE_DIR/nginx-status || exit 1echo "wait app online in ${ONLINE_OFFLINE_WAIT_TIME} seconds..."sleep ${ONLINE_OFFLINE_WAIT_TIME}}offline() {rm -f $HEALTH_CHECK_FILE_DIR/nginx-status || exit 1echo "wait app offline in ${ONLINE_OFFLINE_WAIT_TIME} seconds..."sleep ${ONLINE_OFFLINE_WAIT_TIME}}health_check() {exptime=0echo "checking ${HEALTH_CHECK_URL}"while truedostatus_code=`/usr/bin/curl -L -o /dev/null --connect-timeout 5 -s -w %{http_code} ${HEALTH_CHECK_URL}`if [ x$status_code != x200 ];thensleep 1((exptime++))echo -n -e "\rWait app to pass health check: $exptime..."elsebreakfiif [ $exptime -gt ${APP_START_TIMEOUT} ]; thenechoecho 'app start failed'exit 1fidoneecho "check ${HEALTH_CHECK_URL} success"}start_application() {echo "start jar"if [ -f "$PID_FILE" ] && kill -0 "$(cat ${PID_FILE})"; thenecho "Application is running, exit"exit 0firm -rf ${APP_HOME}/${JAR_NAME}tar -zxvf /home/admin/package.tgz -C ${APP_HOME}java -jar ${APP_HOME}/${JAR_NAME} > ${APP_LOG} 2>&1 &echo $! > ${PID_FILE}}stop_application() {echo "stop jar"if [ -f "$PID_FILE" ]; thenkill -9 `cat $PID_FILE`rm $PID_FILEelseecho "pid file $PID_FILE does not exist, do noting"fi}start() {start_applicationhealth_checkonline}stop() {offlinestop_application}case "$ACTION" instart)start;;stop)stop;;online)online;;offline)offline;;restart)stopstart;;*)usage;;esac
然后将nginx.conf拷贝到/etc/nginx/nginx.conf。注意,/etc/nginx/nginx.conf是已经存在的文件,请确保只将nginx.conf中有用的部分放入您现有的文件中。如果只是测试,可以先把/etc/nginx/nginx.conf备份,然后用nginx.conf覆盖。
nginx.conf:
http {server {listen 80;server_name localhost default;location ~ ^/(nginx-status) {root /home/admin/status;}location / {proxy_pass http://127.0.0.1:8080;}}}
配置好之后,使用云效,进行发布,