一提到“Kill”命令,大家是不是很兴奋,潜意识觉得自己大展宏图之刻即将到来,仿佛自己就是那个黑暗的夜空下拿着长剑的武士,站在高高的山崖顶层,xx一切。。。别,醒醒吧,孩子(大侠)!大家在停止Java进程时(当然,不仅仅是Java,其他应用也同样适用,本文主要针对Java程序进行解析),有没有想过为什么要用kill -9呢?这样操作对吗?
Kill 命令很容易让人产生误解,以为它仅仅就是用来杀死进程的,就像汉语有句话“我喜欢上你”,如果不针对具体的应用场景的话,会出问题的。言归正传,我们来看一下 man page 对它的解释:Kill - send a signal to a process。
从官方的解释可以看出:Kill 的本意是向进程发送信号的命令。当然我们可以向进程发送一个终止运行的信号,此时的 Kill 命令才是名至实归。事实上如果我们不给 Kill 命令传递信号参数,它默认传递终止进程运行的信号给进程!这是 Kill 命令最主要的用法,也是本文要重点解析的内容。
一般情况下,终止一个前台进程使用 Ctrl + C 就可以了。对于一个后台进程大部分就只能需要借助 Kill 命令来实施了。
我们先看个场景,代码功能为使用Timer模拟一个工作线程,该线程重复工作20次,并输出相关信息,简单代码如下所示:
package com.cn.luga.java.lang;
import java.util.Timer;
import java.util.TimerTask;
import java.util.concurrent.atomic.AtomicInteger;
/**
* Date: 30-1-21
* Time: 11:01
*/
public class TestShutdownHook {
//简单模拟工作
static Timer timer = new Timer("work-timer");
//计数工作次数
static AtomicInteger count = new AtomicInteger(0);
/**
* hook线程
*/
static class CleanWorkThread extends Thread{
@Override
public void run() {
System.out.println("clean some work.");
timer.cancel();
try {
Thread.sleep(2 * 1000);//sleep 2s
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
public static void main(String[] args) throws InterruptedException {
//将hook线程添加到运行时环境中去
Runtime.getRuntime().addShutdownHook(new CleanWorkThread());
System.out.println("main class start ..... ");
//简单模拟
timer.schedule(new TimerTask() {
@Override
public void run() {
count.getAndIncrement();
System.out.println("doing work " + count);
if (count.get() == 20) { //工作20次退出
System.exit(0);
}
}
}, 0, 2 * 1000);
}
}
通过上述代码,我们看到上述程序中存在System.exit()方法,意味着,可以借助此方法进行进程的关闭,如果我们强行进行kill -9操作的话,此应用程序会抛异常的,如果是在实际的业务场景,可能会导致数据丢失,业务异常。因为如果直接使用kill -9 pid,JVM注册的钩子不会被调用的。
JDK在1.3之后提供了Java Runtime.addShutdownHook(Thread hook)方法,可以注册一个JVM关闭的钩子,其参数语法如下:
hook -- 一个初始化但尚未启动的线程对象,注册到JVM钩子的运行代码。 IllegalArgumentException -- 如果指定的钩已被注册,或如果它可以判定钩已经运行或已被运行。 IllegalStateException -- 如果虚拟机已经是在关闭的过程中。
SecurityException -- 如果存在安全管理器并且它拒绝的RuntimePermission(“shutdownHooks”)。
我们来看下Kill命令的相关源码,Kill是用户进程发送信号的系统调用,它的系统服务例程为sys_kill。sys_kill其中siginfo结构在include\asm-i386\siginfo.h之中,该文件中只有一个include,所以真正的定义在include\asm-generic\siginfo.h中。
sys_kill调用了kill_something_info函数,具体可参考源码所示:
static int kill_something_info(int sig, struct siginfo *info, int pid)
{
if (!pid) {
return kill_pg_info(sig, info, process_group(current));
} else if (pid == -) {
int retval = , count = ;
struct task_struct * p;
read_lock(&tasklist_lock);
for_each_process(p) {
if (p->pid > && p->tgid != current->tgid) {
int err = group_send_sig_info(sig, info, p);
++count;
if (err != -EPERM)
retval = err;
}
}
read_unlock(&tasklist_lock);
return count ? retval : -ESRCH;
} else if (pid < ) {
return kill_pg_info(sig, info, -pid);
} else {
return kill_proc_info(sig, info, pid);
}
}
基于kill_something_info,从该函数中,我们可以看到kill系统调用的pid参数的规则及其代表的意义,具体如下:
下面我们看下kill_something_info里面的具体函数,在前面的kill_something_info中涉及的kill_pg_info函数,表示将信号发送到一个组,该函数第3个参数为组id。具体如下:
int
kill_pg_info(int sig, struct siginfo *info, pid_t pgrp)
{
int retval;
read_lock(&tasklist_lock);
retval = __kill_pg_info(sig, info, pgrp);
read_unlock(&tasklist_lock);
return retval;
}
可以看到,在加锁之后,简单调用了__kill_pg_info函数,具体如下:
int __kill_pg_info(int sig, struct siginfo *info, pid_t pgrp)
{
struct task_struct *p = NULL;
int retval, success;
if (pgrp <= )
return -EINVAL;
success = ;
retval = -ESRCH;
do_each_task_pid(pgrp, PIDTYPE_PGID, p) {
int err = group_send_sig_info(sig, info, p);
success |= !err;
retval = err;
} while_each_task_pid(pgrp, PIDTYPE_PGID, p);
return success ? : retval;
}
其中do_each_task_pid宏和while_each_task_pid宏位于include\linux\pid.h之中,同时该文件中有pid_type枚举类型等,和kernel\pid.c文件一起,包含着pid的相关内容。再具体的内容这里不再赘述,大家可去查看相关源码。
kill_something_info函数的kill_pg_info所涉及的内容较多,本文暂列出部分。我们接下来看kill_proc_info函数,其加锁之后调用了group_send_sig_info函数,具体如下:
int
kill_proc_info(int sig, struct siginfo *info, pid_t pid)
{
int error;
int acquired_tasklist_lock = ;
struct task_struct *p;
rcu_read_lock();
if (unlikely(sig_needs_tasklist(sig))) {
read_lock(&tasklist_lock);
acquired_tasklist_lock = ;
}
p = find_task_by_pid(pid);
error = -ESRCH;
if (p)
error = group_send_sig_info(sig, info, p);
if (unlikely(acquired_tasklist_lock))
read_unlock(&tasklist_lock);
rcu_read_unlock();
return error;
}
关于到底是Kill -9 还是Kill -15,以下为简要对比解析:
[administrator@JavaLangOutOfMemory ~ ]% Kill -15
被称为优雅的退出。当使用kill -15时,系统会发送一个SIGTERM的信号给对应的程序。当程序接收到该信号后,具体要如何处理是应用程序自己可以决定的。可以选择:
1、立即停止程序
2、释放响应资源后停止程序
3、忽略该信号,继续执行程序
因为kill -15信号只是通知对应的进程要进行"安全、干净的退出",程序接到信号之后,退出前一般会进行一些"准备工作",如资源释放、临时文件清理等等,如果准备工作做完了,再进行程序的终止。但是,如果在"准备工作"进行过程中,遇到阻塞或者其他问题导致无法成功,那么应用程序可以选择忽略该终止信号。
这也就是为什么我们有的时候使用kill命令是没办法"杀死"应用的原因,因为默认的kill信号是SIGTERM(15),而SIGTERM(15)的信号是可以被阻塞和忽略的。
大部分程序接收到SIGTERM信号后,会先释放自己的资源,然后在停止。但是也有程序可以在接受到信号量后,做一些其他的事情,并且这些事情是可以配置的。如果程序正在等待IO,可能就不会立马做出相应,或者等待其他项目的响应。
[administrator@JavaLangOutOfMemory ~ ]% Kill -9
与kill -15相比,kill -9就相对强硬一点,系统会发出SIGKILL信号,他要求接收到该信号的程序应该立即结束运行,不能被阻塞或者忽略。
所以,相比于kill -15命令,kill -9在执行时,应用程序是没有时间进行"准备工作"的,所以这通常会带来一些副作用,数据丢失或者终端无法恢复到正常状态等。
那么在实际的业务场景中,如何停掉Java应用进程呢?下面给出些建议:
1、尽可能用应用框架提供的服务操作命令,例如,针对Tomcat Web容器,我们可以编写脚本触发其shutdown.sh命令。
2、借助Shell调用ShutdownHook方法,如果无法判断直接Kill -9对杀死进程有没有影响的条件下。
3、若此应用服务进程调用较为单一,在合适的时刻,优先使用Kill -15,实在不行再考虑Kill -9。