《深入拆解java 虚拟机》笔记

2018/07/20 1 分钟阅读

简介

简介
为什么java 要在虚拟机里运行？
java 代码是怎么运行的
数据类型
方法的执行过程

从表到里学习JVM实现要了解JVM是如何实现的，首先必须要知道JVM到底是什么、不是什么，表面上应该提供怎样的功能。

虚拟机概论，推荐《Virtual Machines: Versatile Platforms for Systems and Processes》，帮助您了解“虚拟机”一词到底指代什么，有什么不同类型，大概有哪些实现方法，等等。读完这本书有助获得一个清晰的大局观。

为什么java 要在虚拟机里运行？

java 作为高级语言，语法复杂，抽象程度高，直接在硬件上运行难度大
可移植性
提供一个托管环境
- 帮我们处理一些代码冗长且容易出错的部分，比如垃圾回收
- 提供数据越界、动态类型检查等
就前两点来说，go runtime 也有同样的特性。go 也独立出一个 runtime 来支持如goroutine, channel, 以及Garbage collection，但Go语言程序是编译为机器代码来执行的。Analysis of the Go runtime scheduler
java 运行时可以动态加载磁盘或网络上的 class 文件运行，这是go runtime 所不支持的。

为什么jvm支持的指令序列称为字节码，因为其操作码被固定为一个字节。

java 代码是怎么运行的

《程序员的自我修养》小结

针对以下概念

linux c 可执行文件格式（通常是elf）
class 文件格式
进程内存结构

可以肯定的是

为什么会有数据段。我们知道冯诺依曼体系将指令和数据存在一起。汇编指令，调用数据就那么几种方式：立即数，寄存器，和直接寻址，间址寻址。除了立即数，就必须是数据存在在一个地方，由指令根据地址去访问，这就是为什么要有数据段。可见，所谓指令和数据存在一起，直观上大部分更像是指令和地址存在一起。
指令访问内存数据，内存地址是数据段地址 + 偏移算出来的。
jvm 进程或者其它linux 进程都秉承同一个进程内存结构，即主体是代码段 + 数据段（其它的如文字常量区啥的也都一样）。数据段分为静态数据段 + 动态数据段。
动态数据段分为堆和栈，为什么要分开参见《程序员的自我修养》小结
堆区和代码区是所有线程共享的，栈区是线程独有的，或者说栈区是thread safe的

class 文件抽象了什么？

从机器码到汇编码，操作码从0101变成了英文单词
然后是一个大汇编文件可以分别由几个小汇编文件组成，中间涉及到链接等
然后c 语言，将人从寄存器、操作码等机器细节中解脱出来。这个变换有点抖，欢迎大家补充。
我们说byte code可读性好很多，那么byte code构建于machine code之上，byte code相对于 machine code抽象了什么？a byte code is a virtualized machine code. Unlike machine code for a real processor, byte code is often for an idealized or virtual processor that doesn’t actually exist. Byte code is based on a CPU architecture like a register or stack machine but often uses general features common to any CPU or instructions and concepts that don’t exist on any CPU.
byte code 是被解释执行，c语言代码是被编译为 machine code 执行的，所以直接对比并不完全恰当。解释执行相对编译执行的一个不同就是：解释执行是有上下文的，堆、栈、常量区、方法区都是 byte code的的上下文。而machine code 单看每一个行 code，操作码、操作数等都必须是精确的。

jvm 进程有以下不同：

jvm 将栈细分为面向 java方法的java 方法栈、C++ native 方法的本地方法栈以及存放各个线程执行位置的 pc 寄存器
与elf 文件与进程内存结构比较简单的对应关系不同，class 文件会被jvm加载到方法区中。也就是说，不准确的说，class 文件所有内容会进入jvm 方法区。

所以，不要将jvm 内存区域看的那么特别。比如对于堆区，jvm 中的垃圾回收，c/c++ 因为是手动回收，自然没有gc问题。但两者都有内存碎片问题，只是jvm 在内存回收的同时顺带做了碎片整理。c主要是还是靠os 基于页的管理来部分解决（碎片只会在虚拟内存中产生，是不会映射到物理内存上的），部分追求性能的可以采用程序内部的局部内存池。

数据类型

分为

基本类型
引用类型
- 类
- 解口
- 数组类
- 泛型参数

在jvm 中，类的唯一性是由类加载器一以及类的全名一同确定的。这就可以解释 class.getClassLoader() 可以返回classLoader

InputStream in = Thread.currentThread().getContextClassLoader().getResourceAsStream("xx.properties"); 每一个线程还会有一个上下文类加载器，这属于双亲委派模型的补丁，可以看下Java类加载器之线程上下文类加载器(ContextClassLoader)

方法的执行过程

java语言、编译器、虚拟机、机器指令其实也是一个通过分层拆解复杂度的过程。比如java 语言里有重载，jvm 识别方法的关键在于类名、方法名以及方法描述符（由方法的参数类型以及返回类型所构成），因此不准确的说，jvm中不存在重载这一概念。

符号引用的转换

所谓“绑定” 就是讲符号引用（编译器解阶段）绑定为实际引用（jvm阶段）。

	适用于	实际引用类型
静态绑定	一般方法、重载	指向方法的指针
动态绑定	重写	一个方法表的索引

类加载阶段，会构造一个与该类相关联的方法表。

子类方法表中包含父类方法表中的所有方法
子类方法在方法表中的索引值与它所重写的父类方法的索引值相同

一个class 文件有多个组成，我以前只是知道会将javap 中的字节码加载到 jvm方法区，其实是对常量池中的符号引用等还做了转换。建议熟悉下 class 文件结构实例分析JAVA CLASS的文件结构，虽然跟javap 的输出顺序一致，但表示方式很不一样。

方法的执行

访问栈上的调用者，读取调用者的动态类型
读取该类型的方法表
读取方法表中某个索引值所对应的目标方法

很自然，为了加快上述过程的速度，jvm 有两个优化手段：内联缓存和方法内联。

处理异常

深入理解Java虚拟机笔记—运行时栈帧结构

栈帧(Stack Frame)是用于支持虚拟机进行方法调用和方法执行的数据结构
一个线程中的方法调用链可能会很长，很多方法都同时处于执行状态。对于执行引擎来讲，活动线程中，只有虚拟机栈顶的栈帧才是有效的，称为当前栈帧(Current Stack Frame)，这个栈帧所关联的方法称为当前方法(Current Method)。执行引用所运行的所有字节码指令都只针对当前栈帧进行操作。
java 编译器干了很多事，比如局部变量表、异常表都是在编译阶段生成或确定的。

异常实例的构造十分昂贵，这是由于在构造异常实例时，java虚拟机便需要生成该异常的栈轨迹（stack trace）。该操作会逐一访问当前线程的java栈帧，并且记录下各种调试信息，包括栈帧所指向方法的名字、方法所在的类名、文件名，以及在代码中的第几行触发该异常。所以，不是异常对象占了多大地方，而是构造异常对象（主要指的是Stack Frame）非常麻烦。这个“昂贵”从代码层面就很难理解

当程序触发异常时，java 虚拟机会从上至下遍历异常表中的所有条目，如果匹配，则将控制流转移至该条目target 指针指向的字节码。若未找到，则会弹出当前方法对应的栈帧，在caller 方法中重复上述操作。最坏情况下，java 虚拟机需要遍历当前线程java栈上所有方法的异常表。

finally的处理，对当前jvm来说，是复制finally 代码块的内容分别放在 try-catch 的后面。即实际是try - finally; catch finally

参见java 反射学习下动态代理的本质。

李乾坤

《深入拆解java 虚拟机》笔记

简介

为什么java 要在虚拟机里运行？

java 代码是怎么运行的

数据类型

方法的执行过程

符号引用的转换

方法的执行

处理异常

留下评论

猜您还喜欢

群聊

Loop工程

从长期回报、Credit Assignment 到 PPO

Code Agent