二进制小总结_JAVA相关

真值与机器值

真值很好理解，就是十进制的数字前面再加上正负号，这是人类可以简单识别的数字，比如 0、±16、±1084、±10.34、±100.453 等，而正数前面的+符号可以省略。机器值从字面理解就是机器（计算机）识别的值，实际上也确实是这个意思。

计算机中通过高低电平表示1或者0，这样就可以表示一个二进制的数值。一个1或者0表示的数值位称为一个bit，而计算机中存储和传输数据的最小单位是一个字节（byte）也就是8个bit，所以说计算机所有计算本质上都是基于二进制。

在计算机中，我们可以使用1个或者多个字节存储一个数，但无论是多少个字节，其大小肯定是固定的，同时其所能表示的数值的范围也是固定的。比如说对使用1个字节存储的数进行计算或者传输，那么这个数所能表示的最小值为00000000最大值为11111111，转换为十进制为0 ~ 255。那么无论对这个数做了什么计算，无论计算之后的结果为多少都不能超出这个范围，同理使用2个字节存储的数范围为0 ~ 65535。

由于很多时候一个数据需要使用2个或者2个以上的字节表示，那么这种数据无论是存储还是传输的时候都会有一个顺序的问题，也就是大小端对齐（字节序）问题。在存储时高位字节在前为大端对齐，反之为小端对齐。在数据传输时先传输高位字节为大端字节序，反之为小端字节序。目前绝大多数平台内部都是小端对齐的方式存储数据，而大多数通信协议却都是用大端字节序传输数据，所以这一点值得注意一下。

符号位与数值位

计算机中使用二进制存储传输和计算数值，但是不能只有数值，计算的时候还得有正负之分。在计算机中使用最高bit位的数值来表示正负号，这个bit位称作符号位。

计算机中符号位的值为0表示这个数为正数，符号位值为1表示这个树为负数。由于符号位表示符号所以其不表示具体的值，除开符号位剩余的bit位用来表示数值也就是数值位。比如1个字节的整数00000001，其中最高bit（最左边）位的0为符号位，表示这个数为正数，数值位为1，所以其真值为1。同理2个字节的整数00000000_0000001，其真值也是1。

原码、反码和补码

计算机只识别机器码，其实也就是二进制数，并且使用最高bit位表示符号位。那么两个真值为8和-8的8位整数，它们在计算机内部的机器值是否就分别是00001000和10001000？其实并不是，这只是8和-8的原码，而机器算计中的机器值是使用补码存储和计算的。

计算机中，正数的原码、反码和补码是一样的，所以上面那个例子中，真值为8的8位整数的机器值确实是00001000，但是-8就不是这么回事了。负数的首先将原码数值位按位取反得到反码，然后再将反码数值位加1之后则得到补码。我们来看一下-8这个例子，其原码为10001000，数值位按位取反之后的反码为11110111，然后数值位加1之后的补码为11111000。所以真值为-8的8位整数在计算机中的机器值为11111000，我们来看下面这张表

	原码	反码	补码
int8	00000001	00000001	00000001
int8	10000001	11111110	11111111
int16	00000000_00000001	00000000_00000001	00000000_00000001
int16	10000000_00000001	11111111_11111110	11111111_11111111
…	…	…	…

注：int8为8bit位整数占用1byte，int16为16bit位整数占用2byte。

刚说的是原码转补码的步骤，其实补码转原码的步骤是一样的。首先正数的原码补码是一样的不需要转换，我们看负数11111000，首先将数值位按位取反得到10000111，然后再将数值位加1得到10001000。我们再来看一个8位的整数10000000，是不是发现这个数原码和补码是一样的，那么这个看起来像是“-0”的数是怎么回事呢？其实可以将这个数看成是一个特殊值，它的真实含义就是最小值。8位的这种“-0”的真值为-128，16位的这种“-0”真值为-32768。所以只需要记住100…000这种补码就是最小值就行，我们看下面的这张表

	二进制补码	十进制
int8	10000000	-128
int16	10000000_00000000	-32768
int32	10000000_00000000_00000000_00000000	-2147483648
int64	10000000_00000000_00000000_00000000_00000000_00000000_00000000_00000000	-9223372036854775808

有两对8bit位的整数4、8和4、-8，我们分别看一下他们在计算机中是怎么做加法计算的。首先看4和8的补码分别为00000100和00001000，只需要将每个bit位相加就行，结果为00001100，其真值为12。我们再来4和-8的计算，它们补码分别为00000100和11111000，然后将它们按位相加（注意符号位也要做加法）得到11111100，其原码为10000100，真值为-4。

再来看一下减法计算，比如8bit位的整数-8减去4，首先可以将4处理一下可以变为(-8) + (-4)，这样是不是就又变为了加法了？-8和-4的补码分别为11111000和11111100，将它们按位相加得到补码11110100（注意这是8位的整数，超出部分发生了溢出），转换成原码为10001100，真值为-12。

再来看一下乘法，比如8bit位的整数-8乘以13，他们的补码分别为11111000和00001101。其中-8为被乘数，13为乘数，并且乘数有8个bit位，需要将被乘数按位与和位计算8次然后将结果相加，看如下分析：

1、被乘数的第0个bit位值为1，将被乘数乘以1然后左移0位得到：11111000；
2、被乘数的第1个bit位值为0，将被乘数乘以0然后左移1位得到：00000000；
3、被乘数的第2个bit位值为1，将被乘数乘以1然后左移2位得到；11100000；
4、被乘数的第3个bit位值为1，将被乘数乘以1然后左移3位得到；11000000；
5、被乘数的第4个bit位值为0，将被乘数乘以0然后左移4位得到；00000000；
6、被乘数的第5个bit位值为0，将被乘数乘以0然后左移5位得到；00000000；
7、被乘数的第6个bit位值为0，将被乘数乘以0然后左移6位得到；00000000；
8、被乘数的第7个bit位值为0，将被乘数乘以0然后左移7位得到；00000000；

由此可以得计算得到8组补码（注意上面做位移涉及到的整数溢出，只能是8个bit位），然后将它们做加法得到10011000（也存在整数溢出）转换为原码为11101000，真值为-104。

至于除法则是使用交替加减法的方式，本文只是对计算原理做一下扩展，这里不再继续深入做介绍，如果有想了解的可以自行上网查询。

通过上面的分析可以知道，使用补码可以将所有计算都转化为加法计算，这样可以让计算机底层对于整数（浮点数再此不做讲解，有时间会再单独写一篇文章作介绍）计算变得简单，反码属于历史遗留，因为其存在±0的问题。

Java中的基本数据类型

在计算机编程语言中都会有数据类型的概念，数据类型是用来修饰变量的。不同数据类型所修饰的变量，其指代的数据在内存中占用空间的大小（基本类型变量使用的空间、指针或引用变量指向的地址空间等，后面简单称数据类型占用的内存空间）是固定的。即使在一些弱类型语言中，虽然变量可以不用显示地声明数据类型，但当第一次为变量赋值时，还是会隐式地为其附上数据类型属性。

对于java来说，由于其具有跨平台的特性，所以基本数据类型所占用的内存空间大小（字节数）是固定的。我们来看一下java中的几个基本数据类型：

	byte	char	short	int	float	long	double	boolean
字节数	8bit / 1byte	16bit / 2byte	16bit / 2byte	32bit / 4byte	32bit / 4byte	64bit / 8byte	64bit / 8byte	/
取值范围	-2⁷ ~ 2⁷ – 1	0 ~ 2¹⁶ – 1	-2¹⁵ ~ 2¹⁵ – 1	-2³¹ ~ 2³¹ – 1	–	-2⁶³ ~ 2⁶³ – 1	–	false \| true
默认值	0	0	0	0	0.0	0	0.0	false
后缀	/	/	/	/	f \| F	l \| L	d \| D	/

注：jvm规范并没有指明boolean类型占用几个字节的空间，所以根据jvm产品的不同，实现的方式也可能不同。最广泛的说法是，jvm内部使用int代替boolean类型，也就是占用4个字节。另外这里没有列出浮点数的大小范围，由于本文只介绍整数，后面如果有时间则会单独出一篇介绍浮点数的博文。

我们来看下面几个例子

// 案例1，下面的10进制真值的写法，但是当编译器编译完成之后，在内存中还是会以补码的形式存在
int value1 = 10;
int value2 = -10;
System.out.printf("value1=%d, value2=%d\n", value1, value2); // 结果为: value1=10, value2=-10

// 案例2，下面是2进制补码的写法，在数字前面加上'0b'或者'0B'，'_'只是一个分隔符
int value3 = 0b00000000_00000000_00000000_00001010; // 2进制int类型10的补码
int value4 = 0B11111111_11111111_11111111_11110110; // 2进制int类型-10的补码
System.out.printf("value3=%d, value4=%d\n", value3, value4); // 结果为: value3=10, value4=-10

// 案例3，下面是16进制补码的写法，在数字前面加上'0x'或者'0X'，大于9的数值使用a~f或A-F表示
int value5 = 0x0000000a; // 16进制int类型10的补码
int value6 = 0Xfffffff6; // 16进制int类型-10的补码
System.out.printf("value5=%d, value6=%d\n", value5, value6); // 结果为: value5=10, value6=-10

// 案例4，下面是8进制补码的写法，在数字前面加上'0'
int value7 = 012; // 8进制int类型10的补码
int value8 = 037777777766; // 8进制int类型-10的补码
System.out.printf("value7=%d, value8=%d\n", value7, value8); // 结果为: value7=10, value8=-10

/*
 * 注: 这里不论是10进制还是16进制等方式写的整数，在计算机内部都是以二进制补码的形式体现，
 *     也就是上面案例2的中2进制的形式体现。
 */

额外说明一下，这些基本数据类型只会出现在线程栈中，或者再详细一点，只会出现在线程栈的运行时栈帧（方法的工作空间）的局部变量表和操作数栈中。也就是说，只有在局部方法中才可以声明基本数据类型的局部变量。对象的成员变量或者类的静态变量即使是基本数据类型，最终也会被自动装箱为包装类型，然后在堆中开辟空间。但也有例外，在现在的高性能jvm中一般都会有jit（即时编译）系统，在逃逸分析时如果对象被判断为未逃逸（对象不是入参、不是返回值并且也没有被方法外部变量引用），则会做标量替换（拆分对象为基本数据类型）然后在线程栈或者CPU寄存器中分配空间，方法执行完成之后随着运行时栈帧出栈而被回收，可减少GC的工作负载。

Java中的整数类型转换

整数的基本类型之间可以互相转换，甚至char类型都可以转换为byte、short、int、long等类型，反之亦然。但是不同的数据类型，其所占用的内存空间大小是不一样的，那么这里就涉及到补全和溢出的问题了。

整数类型按所占内存空间从小到大排序分别为byte、short、int、long，由占用空间小的转型为占用空间大的为向上转型，反之为向下转型。java中类型转换运算符为括号，括号中为转换的目标类型，例如long value = (long) Integer.MAX_VALUE;。向上类型转换可以隐式地完成，也就是说不需要显示地编写出类型转换运算符例如long value = Integer.MAX_VALUE;。但是向下类型转换时，可能会发生整数溢出（舍弃高字节位），所以必须显式的写出类型转换运算符，例如short value = (short) Integer.MAX_VALUE;。

如果是向上转型时，使用符号位的值填充高字节位。向下转型时，直接舍掉高字节位。我们看下面两张表，从上往下看为向下转型，从下往上看则为向上转型：

类型	二进制正数补码	十进制正数
long	00000000_00000000_00000000_00000000_00000000_00000000_00000000_01111111	127
int	00000000_00000000_00000000_01111111	127
short	00000000_01111111	127
byte	01111111	127

类型	二进制负数补码	十进制负数
long	11111111_11111111_11111111_11111111_11111111_11111111_11111111_10000000	-128
int	11111111_11111111_11111111_10000000	-128
short	11111111_10000000	-128
byte	10000000	-128

可以看到，不论转换成什么类型，最终的值还是不变的。我们看下面的案例：

// 案例1
byte value = (byte) Short.MAX_VALUE; // Short.MAX_VALUE为short类型的最大值: 32767
// 案例2
short value = Byte.MIN_VALUE; // Byte.MIN_VALUE为byte类型的最小值: -128

案例1为一个向下类型转换，由于32767这个值超过了byte能表示的最大值，所以其必然会发生整数溢出。short类型的32767的二进制补码为01111111_11111111，向下转型为byte舍掉高位字节的二进制补码为11111111，其值变为了-1。

案例2为一个向上类型转换，byte类型的-128的二进制补码为10000000，将其转换为short类型之后的二进制补码为11111111_10000000。我们知道虽然其表示的值没有变还是-128，但是如果我们在向上类型转换之后，还想让原来的符号位表示数值，也就是得到byte类型-128这个值的无符号数，则可以做按位与计算int value = Byte.MIN_VALUE & 0xff;

Java中的字面量

Java中可以可以定义两种类型的整数字面量，分别为int和long。例如int value = 10;或者long value = 10L;，可以看到其中long类型的字面量需要加上’L’类型的后缀，当然也可以是’l’。

Java中无法直接定义byte和short类型的字面量，但是如果这么写byte value = 127;编译也没错，那么这里的127是不是就是byte类型的字面量呢？其实不是，这个127还是int类型的，只不过做了向下类型转换而已。但是前面说向下类型转换必须显式的写出类型转换运算符，这里没有那么是不是前面说错了呢？其实也不是，int类型127的二进制补码为00000000_00000000_00000000_01111111，向下转型为byte类型之后的二进制补码为01111111，那些被舍弃的0可以看做是填充位所以并没有发生整数溢出。由于字面量是静态不可变的值，编译器在编译的时候就知道其并不会发生整数溢出，所以就直接做了隐式类型转换。但是我们来看字面量为128的int类型整数，其二进制补码为00000000_00000000_00000000_10000000，转换为byte类型之后的补码为10000000，原本属于数值位的1变为了符号位，这里发生了整数溢出，所以需要显式的加上类型转换运算符byte value = (byte) 128;。

我们来看下面这些关于字面量的隐式类型转换的案例

// 案例1
byte value1 = 127;

// 案例2，-128在byte能够表示的数值范围内，编译器直接做了隐式类型转换。
byte value2 = -128; // 赋值给value1的二进制补码为: 10000000

// 案例3，Short.MAX_VALUE是一个常量，编译器编译的时候可以明确的知道其值为32767，所以编译器会先计算出32767 - 32640的值然后赋值给value3变量
byte value3 = Short.MAX_VALUE - 32640; // 赋值给value3的二进制补码为: 01111111

// 案例4，下面由于变量value4被final修饰，其值在编译期间是不可变的，编译器也能明确知道其值不会发生整数溢出
final byte int value4 = 127;
byte value5 = value4;

// 案例5
static final int value6 = 32767;
void func() {
	short value7 = value6;
}

我们看这一行代码long value = 2147483647，这是一个向上转型的例子，将int类型的字面量2147483647转换为long类型。但是如果字面量为2147483648就必须这么写long value = 2147483648L;，因为2147483648这个值已经超过了int类型的最大值，必须使用long类型的字面量表示。

内存对齐和有效位移

不管是四则运算还是位运算，参与计算的整数有可能是不同的数据类型，也就意味着它们在内存中的占用的字节数不同，所以在计算的时候需要将转换为相同的类型，也就是内存对齐。

如果是byte、short、int等类型的数据做计算，默认会将byte和short了类型的数据先转换为int类型的数据然后在做计算。如果参与计算的数据中有long类型的数据，则会将非long类型的数据先转换为long类型，然后在做计算。

位移计算的时候数据类型要么是int类型要么是long类型，也就是说计算的说要么有32的bit位要么有64个bit为，那么我们做位移的时候是不是可以位移无限的bit位呢？当然不是，有效位移的位数为0到bit为数量（字宽）减去1，也就是说int的有效位移大小为0 ~ 31，long的有效位移数量为0 ~ 63。如果超出这个范围的话则会与31或者63做按位与计算，比如int数据位移36位则实际位移为36 & 31 = 4。

Varints 128位可变长整型

通过前面的说明，大家应该对计算机中的整数有了清晰的理解。比如有一个int类型的整数，我们需要在网络传输传输它，那么发送方只需要传输4个字节的数据就行，接收方也只需要接收4个字节。比如我们传输一个值为10的int类型数据，大家可以知道其实只需要传输一个字节就行，但是谁也不能保证下一个传输的数据使用一个字节会不会溢出，所以这时候我们就需要设计一个可以变换字节数量的编解码方式，并且数据接收方也能够知道自己需要接受几个字节，Varints就是为了解决这个问题的。

Varints是按小端字节序排列，也就是低位字节在前高位字节在后。每个字节的第7个bit位不表示数值，只是用来标识是否为最后一个字节，如果第7个bit位值为1则代表不是最后一个字节，如果值为0则代表为最后一个字节，如下表：

真值	补码	varints
100	01100100	[01100100]
1000	00000011_11101000	[11101000, 00000111]
100000	00000000_00000001_10000110_10100000	[10100000, 10001101, 00000010]
…	…	…

我们看上表中，红色部分为标识是否最后一个字节的bit位，那么这样是不是就可以表示一个无穷大的整数了，不过一般也没必要太大，就拿java来说，最大也就long类型的8个字节64个bit位大小。其实正真生产过程中应用所处理处理数据时，遇到小数值的概率要比遇到大数值的概率要大得多，所以varints可以在做网络传输或者数据存储时可以省不少流量和空间，而且可以便于扩展。不说别的，直接上代码了：

public final class ByteUtil {

    private ByteUtil() {}
    
    public static byte[] enVarInt(int value) {
        int size = 0;
        byte[] temps = new byte[5];
        for (; (value & 0xffffff80) != 0; value >>>= 7, ++size) {
            temps[size] = (byte) (value & 0x7f | 0x80);
        }
        temps[size] = (byte) value;
        byte[] result = new byte[size + 1];
        System.arraycopy(temps, 0, result, 0, result.length);
        return result;
    }
    
    public static byte[] enVarInt(long value) {
        int size = 0;
        byte[] temps = new byte[10];
        for (; (value & 0xffffffffffffff80L) != 0; value >>>= 7, ++size) {
            temps[size] = (byte) (value & 0x7fL | 0x80L);
        }
        temps[size] = (byte) value;
        byte[] result = new byte[size + 1];
        System.arraycopy(temps, 0, result, 0, result.length);
        return result;
    }
    
    public static IntPair deVarInt(int offset, byte... buffer) {
        isLegalArg(offset >= 0 && offset < buffer.length, String.format("offset=%d, bufferLen=%d, Must meet: offset >= 0 && offset < %d", offset, buffer.length, buffer.length));
        int bitSize = 0, result = 0, length = 0;
        for (; offset < buffer.length && bitSize < Integer.SIZE; ++offset) {
            int value = buffer[offset] & 0xff;
            result |= (value & 0x7f) << bitSize;
            bitSize += 7;
            ++length;
            if (0 == (value & 0x80)) {
                break;
            }
        }
        return IntPair.of(length, result);
    }
    
    public static IntLPair deVarLong(int offset, byte... buffer) {
        isLegalArg(offset >= 0 && offset < buffer.length, String.format("offset=%d, bufferLen=%d, Must meet: offset >= 0 && offset < %d", offset, buffer.length, buffer.length));
        int bitSize = 0, length = 0;
        long result = 0;
        for (; offset < buffer.length && bitSize < Long.SIZE; ++offset) {
            int value = buffer[offset] & 0xff;
            result |= (value & 0x7fL) << bitSize;
            bitSize += 7;
            ++length;
            if (0 == (value & 0x80)) {
                break;
            }
        }
        return IntLPair.of(length, result);
    }

    private static void isLegalArg(boolean isLegalArg, String message) {
        if (!isLegalArg) {
            throw new IllegalArgumentException(message);
        }
    }

}

ZigZag

前面我们讲解了varints可以省流量和空间，因为一般遇到小数值的概率要比遇到大数值的概率要大得多，同时我们也说了计算机内部是只是别补码的，如果处理一个数值很小但是却是负数的时候，单凭varints可就不能达到省流量和省空间的效果了。前面我们也讲到符号位为整数的最高bit位，那么即使一个负数的数值再小，整个整数看起来也不小，所以这时候就需要使用到ZigZag来吧符号位处理一下。

ZigZag编码时，正数不做任何处理。对于负数则将整体数值位按位取反再左移一位，然后将符号位放到第0个bit位上，这样处理之后就会得到一个与原来不一样的整数，然后再按varints进行编码。直接上ZigZag的代码了：

public final class ByteUtil {

    private ByteUtil() {}

    public static int enZigZag(int value) {
        return (value << 1) ^ (value >> 31);
    }
    
    public static long enZigZag(long value) {
        return (value << 1) ^ (value >> 63);
    }
    
    public static int deZigZag(int value) {
        return (value >>> 1) ^ -(value & 1);
    }
    
    public static long deZigZag(long value) {
        return (value >>> 1) ^ -(value & 1);
    }

}

附加代码

import java.util.Objects;

public class IntLPair {
    
    private int left;
    
    private long right;
    
    public IntLPair() {
    }
    
    private IntLPair(int left, long right) {
        this.left = left;
        this.right = right;
    }
    
    public static IntLPair of(int left, long right) {
        return new IntLPair(left, right);
    }
    
    public int getInt() {
        return left;
    }
    
    public void setInt(int left) {
        this.left = left;
    }
    
    public long getLong() {
        return right;
    }
    
    public void setLong(long right) {
        this.right = right;
    }
    
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        IntLPair intLPair = (IntLPair) o;
        return left == intLPair.left &&
                right == intLPair.right;
    }
    
    @Override
    public int hashCode() {
        return Objects.hash(left, right);
    }
    
    @Override
    public String toString() {
        return "IntLPair{" +
                "left=" + left +
                ", right=" + right +
                '}';
    }
    
}

import java.util.Objects;

public class IntLPair {
    
    private int left;
    
    private long right;
    
    public IntLPair() {
    }
    
    private IntLPair(int left, long right) {
        this.left = left;
        this.right = right;
    }
    
    public static IntLPair of(int left, long right) {
        return new IntLPair(left, right);
    }
    
    public int getInt() {
        return left;
    }
    
    public void setInt(int left) {
        this.left = left;
    }
    
    public long getLong() {
        return right;
    }
    
    public void setLong(long right) {
        this.right = right;
    }
    
    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        IntLPair intLPair = (IntLPair) o;
        return left == intLPair.left &&
                right == intLPair.right;
    }
    
    @Override
    public int hashCode() {
        return Objects.hash(left, right);
    }
    
    @Override
    public String toString() {
        return "IntLPair{" +
                "left=" + left +
                ", right=" + right +
                '}';
    }
    
}