前言

最近遇到一个类加载死锁的问题,于是梳理了一下Java的类加载机制,最终问题得到解决,也对Java的类加载有了更深的理解。

双亲委派

下图是Java类加载的双亲委派的结构图:

总结一句话就是,在进行类加载的时候优先请求父类加载器去加载,如果加载不到再到自己的环境路径中去加载。具体的逻辑在ClassLoader.loadClass()方法中:

protected Class<?> loadClass(String name, boolean resolve)
        throws ClassNotFoundException
    {
        synchronized (getClassLoadingLock(name)) {
            // First, check if the class has already been loaded
            Class<?> c = findLoadedClass(name);
            if (c == null) {
                long t0 = System.nanoTime();
                try {
                    if (parent != null) {
                        c = parent.loadClass(name, false);
                    } else {
                        c = findBootstrapClassOrNull(name);
                    }
                } catch (ClassNotFoundException e) {
                    // ClassNotFoundException thrown if class not found
                    // from the non-null parent class loader
                }

                if (c == null) {
                    // If still not found, then invoke findClass in order
                    // to find the class.
                    long t1 = System.nanoTime();
                    c = findClass(name);

                    // this is the defining class loader; record the stats
                    sun.misc.PerfCounter.getParentDelegationTime().addTime(t1 - t0);
                    sun.misc.PerfCounter.getFindClassTime().addElapsedTimeFrom(t1);
                    sun.misc.PerfCounter.getFindClasses().increment();
                }
            }
            if (resolve) {
                resolveClass(c);
            }
            return c;
        }
    }

整体的加载逻辑很清晰,但是findLoadedClass()引起了我的注意,按照注释的理解就是判断这个类有没有加载过。具体怎么判断一个类有没有加载过并没有说明,而且这个方法的最终实现的native的,没法通过java源码直接查看。

findLoadedClass 逻辑验证

为了验证findLoadedClass的逻辑分别用Class.forName()ClassLoader.loadClass()加载类,然后再调用findLoadedClass()方法看结果,具体代码如下:

ClassLoader loader = new ClassLoader(){}; 
loader.loadClass("java.util.ArrayList");
Method method = ClassLoader.class.getDeclaredMethod("findLoadedClass", String.class);
method.setAccessible(true);
System.out.println(method.invoke(loader,"java.util.ArrayList"));

输出 null

ClassLoader loader = new ClassLoader(){}; 
Class.forName("java.util.ArrayList",true,loader);
Method method = ClassLoader.class.getDeclaredMethod("findLoadedClass", String.class);
method.setAccessible(true);
System.out.println(method.invoke(loader,"java.util.ArrayList"));

输出 class java.util.ArrayList

两种加载方式,加载的类输出结果居然一样,在stackoverflow上提问,也没有得到很好的解释,无奈直接翻看java虚拟机规范,发现里面提到了这篇论文《Dynamic Class Loading in the JavaTM Virtual Machine》。其中提到了两个概念,初始类加载器(initiating classloader)和定义类加载器(defining classloader),定义类加载器就是最终加载这个类并调用defineclass方法的类加载器,例如,java.util.String的定义类加载器就是BootstrapClassLoader,因为java.util.String类在rt.jar中,这个jar是由BootstrapClassLoader加载的。初始类加载器就是发起这次类加载的第一个类加载器,比如我们简单的写一个输出“helloworld”程序,由于“helloworld”是字符串,必然会触发对String的加载,而发起这次加载的就是AppClassLoader,并最终由定义类加载器BootstrapClassLoader完成加载,AppClassLoader就是初始类加载器。文章的4.1章节提到,JVM会在内部维护一个缓存字典(SystemDictionary),其中classLoader和className作为key,class实例作为value,大体结构如下:

<classLoader,className> class
<L1,A> A.class
<L2,B> B.class

实际上,findLoadedclass查找的就是这个数据结构,当一个类加载的时候,会将添加到这个数据结构中,同时也会把添加到这个数据结构中(但是这两个记录添加的时机不一样,最终导致了上面提到的Class.forName 和 ClassLoader.loadClass的差别,后面会详细介绍)。所以上面列举的输出“hello World”的例子中,只要第一次加载过之后,后面Appclassloader就不会再对同一个类进行双亲委派加载了,因为缓存中有了一条记录,findLoadedclass会直接返回已经加载的Class。

类加载过程

通过查看JVM源码,梳理了一下一个Class加载的大概流程(由于在加载一个类的过程中,会有加载、验证、准备、解析、初始化等过程,期间可能会触发一些相关类的加载,比如加载子类的过程中会加载父类等等,为了简化过程,在此图中没有描述这种关系):

从图中可以看出,上面例子的问题,只有Class.forName才会在SystemDictionary中加入的记录,直接调用loadClass的话,只会把的记录加入到SystemDictionary中,所以,在初始类加载器中调用findloadedClass的时候返回null。

在调试过程中,还发现我们显示的声明或定义一个类的对象的时候,实际上jvm虚拟机最初调用的也是Class.forName0的native实现。所以在反射调用的尽量通过Class.forname的方式进行,这样能够保证初始类加载器和定义类加载器的缓存都生效,而ClassLoader.loadClass只会使定义类加载器缓存生效。

虚拟机类加载机制

把描述类的数据从class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机直接使用的 Java 类型。在Java语言里面,类型的加载、连接和初始化都是在程序运行期间完成的。

类加载的时机

类的整个生命周期包括:加载(loading)、验证(verification)、准备(preparation)、解析(resolution)、初始化(initialization)、使用(using)和卸载(unloading) 7个阶段。其中 验证、准备、解析 3个部分统称连接(linking)。

5种必须立即初始化的情况:

  1. 遇到new, getstatic, putstatic 或 invokestatic 这4挑字节码指令;
  2. 使用 java.lang.reflect 包的方法对类进行反射调用;
  3. 初始化一个类的时候,其父类还没有初始化,必须先触发其父类的初始化;(对于接口,只有在真正用到其父接口的时候才会初始化)
  4. 虚拟机启动时,用户指定要执行的主类;
  5. 当使用 JDK 1.7 的动态语言支持时,如果一个 java.lang.invoke.MethodHandle 实例最后的解析结果 REF_getStatic, REF_putStatic, REF_invokeStatic 的方法句柄,并且这个方法句柄锁对应的类没有进行出事,则需要先触发其初始化。
  6. 对于静态字段,只有直接定义这个字段的类才会被初始化。getstatic 或 putstatic

类加载过程

  • 在加载阶段,虚拟机需要完成以下3件事:
    1. 通过一个类的全限定名来获取定义此类的二进制字节流;
    2. 将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构;
    3. 在内存中生成一个代表这个类的 java.lang.Class 对象 ,作为方法区这个类的各种数据的访问入口。
  • 验证阶段大致上会完成下面4个阶段的校验动作:文件格式验证、元数据验证、字节码验证、符号引用验证。

  • 准备阶段正式为类变量分配内存并设置类变量初始值。如果类变量是非常量的,那么这个初始值一般是零值,常量则根据class文件的里的ConstantValue设置为目标值。

  • 解析阶段是将常量池内的符号引用转换为直接引用的过程。

    1. 符号引用(Symbolic References):符号引用以一组符号来描述所引用的目标,符号可以是任何形式的字面量,只要使用时能无歧义地定位到目标即可。符号引用与虚拟机的内存布局无关。

    2. 直接引用(Direct Reference):直接引用可以是直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。直接引用与虚拟机的内存布局有关。如果有了直接引用,引用的目标必定已在内存中。

  • 初始化阶段是类加载的最后一步,到此阶段才真正开始执行类定义中的java程序代码。(执行类构造器 <clinit>()方法)<clinit>() 方法是由编译器自动收集类中所有的类变量的赋值动作和静态语句块( static{})中的语句合并产生,收集的顺序由语句在源文件中出现的顺序决定,静态语句块中只能访问到定义在静态语句块之前的变量,定义在它之后的变量,可以赋值,但不能访问。

类加载器

类加载器用于完成“通过一个类的全限定名来获取描述此类的二进制字节流”。

任何一个类,都需要由加载它的类加载器和这个类本身来确立其在 JVM 中的唯一性,每个类加载器都拥有一个独立的类名称空间。

从JVM的角度,只存在两种不同的类加载器:

  • 启动类加载器(Bootstrap ClassLoader),是JVM的一部分;
  • 其他所有的类加载器,用Java语言实现,独立于JVM,全部继承自 java.lang.ClassLoader。

从开发人员角度,程序会使用到3中系统提供的类加载器:

  • 启动类加载器(Bootstrap ClassLoader):负责加载存放在 \lib 目录中的,或者被 -Xbootclasspath 参数所指定的路径中的,且是虚拟机识别的(仅安装文件名识别,如 rt.jar)类库。
  • 扩展类加载器(Extension ClassLoader):负责加载 \lib\ext 目录中下、或者被java.ext.dirs 系统变量制定的路径下的所有类库。
  • 应用程序类加载器(Application ClassLoader):这个类加载器也称为系统类加载器,负责加载用户类路径上所指定的类库。

上图展示的关系称为类加载器的双亲委派模型(Parents Delegation Model)。

双亲委派模型要求除了启动类加载器之外,其余的类加载器都应当有自己的父类加载器,这种父子关系一般用组合实现:一个类加载器收到类加载请求时,首先委托给父类去加载,父类又递归地委托给自己的父类去加载,只有在父类无法加载时才自己尝试去加载。双亲委派模型不是强制的,只是建议。
适当地不遵守双亲委派模型可以实现一些特殊的类加载需求,比如热部署。
双亲委派的逻辑在loadclass方法中。