目录
  1. 1. String特性分析
    1. 1.1. 1.String不变性
      1. 1.1.1. 定义一个字符串
      2. 1.1.2. 使用变量来赋值变量
      3. 1.1.3. 字符串连接
      4. 1.1.4. 总结
    2. 1.2. 2.为什么String设计成不变性
      1. 1.2.1. 字符串池
      2. 1.2.2. 缓存Hashcode
      3. 1.2.3. 使其他类的使用更加便利
      4. 1.2.4. 安全性
      5. 1.2.5. 不可变对象天生就是线程安全的
  2. 2. 彻底了解JDK6和JDK7中substring的原理和区别
    1. 2.1. substring() 的作用
    2. 2.2. 调用substring()时发生了什么
    3. 2.3. JDK 6中的substring
    4. 2.4. JDK 6中的substring导致的问题
    5. 2.5. JDK 7 中的substring
  3. 3. 深入分析Java中的length和length()
    1. 3.1. 为什么数组有length属性?
    2. 3.2. Java中为什么没有定义一个类似String一样Array类
    3. 3.3. 为什么String有length()方法?
  4. 4. StringBuilder在高性能场景下的用法
String知识点梳理

String特性分析

1.String不变性

一旦一个string对象在内存(堆)中被创建出来,他就无法被修改。特别要注意的是,String类的所有方法都没有改变字符串本身的值,都是返回了一个新的对象。

如果你需要一个可修改的字符串,应该使用StringBuffer 或者 StringBuilder。否则会有大量时间浪费在垃圾回收上,因为每次试图修改都有新的string对象被创建出来

定义一个字符串

1
String s = "abcd";

字符串不变性-定义字符串.jpeg
s中保存了string对象的引用。下面的箭头可以理解为“存储他的引用”

使用变量来赋值变量

1
String s2 = s;

字符串不变性-赋值变量.jpeg
s2保存了相同的引用值,因为他们代表同一个对象

字符串连接

1
s = s.concat("ef");

字符串不变性-连接.jpeg
s中保存的是一个重新创建出来的string对象的引用

总结

一旦一个string对象在内存(堆)中被创建出来,他就无法被修改。特别要注意的是,String类的所有方法都没有改变字符串本身的值,都是返回了一个新的对象。

如果你需要一个可修改的字符串,应该使用StringBuffer 或者 StringBuilder。否则会有大量时间浪费在垃圾回收上,因为每次试图修改都有新的string对象被创建出来

2.为什么String设计成不变性

  String是Java中一个不可变的类,所以他一旦被实例化就无法被修改。不可变类的实例一旦创建,其成员变量的值就不能被修改。不可变类有很多优势。本文总结了为什么字符串被设计成不可变的。将涉及到内存、同步和数据结构相关的知识

字符串池

  字符串池是方法区中的一部分特殊存储。当一个字符串被被创建的时候,首先会去这个字符串池中查找,如果找到,直接返回对该字符串的引用。

下面的代码只会在堆中创建一个字符串

1
2
String string1 = "abcd";
String string2 = "abcd";

下面是图示:
堆中字符串.png
如果字符串可变的话,当两个引用指向指向同一个字符串时,对其中一个做修改就会影响另外一个(请记住该影响,有助于理解后面的内容)

缓存Hashcode

  Java中经常会用到字符串的哈希码(hashcode)。例如,在HashMap中,字符串的不可变能保证其hashcode永远保持一致,这样就可以避免一些不必要的麻烦。这也就意味着每次在使用一个字符串的hashcode的时候不用重新计算一次,这样更加高效。

在String类中,有以下代码:

1
private int hash;//this is used to cache hash code.

以上代码中hash变量中就保存了一个String对象的hashcode,因为String类不可变,所以一旦对象被创建,该hash值也无法改变。所以,每次想要使用该对象的hashcode的时候,直接返回即可。

使其他类的使用更加便利

在介绍这个内容之前,先看以下代码:

1
2
3
4
5
6
7
HashSet<String> set = new HashSet<String>();
set.add(new String("a"));
set.add(new String("b"));
set.add(new String("c"));

for(String a: set)
a.value = "a";

在上面的例子中,如果字符串可以被改变,那么以上用法将有可能违反Set的设计原则,因为Set要求其中的元素不可以重复。上面的代码只是为了简单说明该问题,其实String类中并没有value这个字段值

安全性

  String被广泛的使用在其他Java类中充当参数。比如网络连接、打开文件等操作。如果字符串可变,那么类似操作可能导致安全问题。因为某个方法在调用连接操作的时候,他认为会连接到某台机器,但是实际上并没有(其他引用同一String对象的值修改会导致该连接中的字符串内容被修改)。可变的字符串也可能导致反射的安全问题,因为他的参数也是字符串

代码示例:

1
2
3
4
5
6
7
boolean connect(string s){
if (!isSecure(s)) {
throw new SecurityException();
}
//如果s在该操作之前被其他的引用所改变,那么就可能导致问题。
causeProblem(s);
}

不可变对象天生就是线程安全的

因为不可变对象不能被改变,所以他们可以自由地在多个线程之间共享。不需要任何同步处理。

总之,String被设计成不可变的主要目的是为了安全和高效。所以,使String是一个不可变类是一个很好的设计

彻底了解JDK6和JDK7中substring的原理和区别

  String是Java中一个比较基础的类,每一个开发人员都会经常接触到。而且,String也是面试中经常会考的知识点。String有很多方法,有些方法比较常用,有些方法不太常用。今天要介绍的subString就是一个比较常用的方法,而且围绕subString也有很多面试题

substring(int beginIndex, int endIndex)方法在不同版本的JDK中的实现是不同的。了解他们的区别可以帮助你更好的使用他。为简单起见,后文中用substring()代表substring(int beginIndex, int endIndex)方法

substring() 的作用

substring(int beginIndex, int endIndex)方法截取字符串并返回其[beginIndex,endIndex-1]范围内的内容

1
2
3
String x = "abcdef";
x = x.substring(1,3);
System.out.println(x);

输出内容:

1
bc

调用substring()时发生了什么

你可能知道,因为x是不可变的,当使用x.substring(1,3)对x赋值的时候,它会指向一个全新的字符串:
substring调用示意图.jpeg
然而,这个图不是完全正确的表示堆中发生的事情。因为在jdk6 和 jdk7中调用substring时发生的事情并不一样

JDK 6中的substring

String是通过字符数组实现的。在jdk 6 中,String类包含三个成员变量: char value[]int offsetint count。他们分别用来存储真正的字符数组,数组的第一个位置索引以及字符串中包含的字符个数

当调用substring方法的时候,会创建一个新的string对象,但是这个string的值仍然指向常量池中的同一个字符数组。这两个对象中只有count和offset 的值是不同的
substring的jdk6内存示意图.jpeg
下面是证明上说观点的Java源码中的关键代码:

1
2
3
4
5
6
7
8
9
10
11
//JDK 6
String(int offset, int count, char value[]) {
this.value = value;
this.offset = offset;
this.count = count;
}

public String substring(int beginIndex, int endIndex) {
//check boundary
return new String(offset + beginIndex, endIndex - beginIndex, value);
}

JDK 6中的substring导致的问题

  如果你有一个很长很长的字符串,但是当你使用substring进行切割的时候你只需要很短的一段。这可能导致性能问题,因为你需要的只是一小段字符序列,但是你却引用了整个字符串(因为这个非常长的字符数组一直在被引用,所以无法被回收,就可能导致内存泄露)。在JDK 6中,一般用以下方式来解决该问题,原理其实就是生成一个新的字符串并引用他

1
x = x.substring(x, y) + ""

关于JDK 6中subString的使用不当会导致内存系列已经被官方记录在Java Bug Database中:
JDK6 substring内存泄漏.png

内存泄露:在计算机科学中,内存泄漏指由于疏忽或错误造成程序未能释放已经不再使用的内存。 内存泄漏并非指内存在物理上的消失,而是应用程序分配某段内存后,由于设计错误,导致在释放该段内存之前就失去了对该段内存的控制,从而造成了内存的浪费

JDK 7 中的substring

上面提到的问题,在jdk 7中得到解决。在jdk 7 中,substring方法会在堆内存中创建一个新的数组。
substring的jdk71内存示意图.jpeg
Java源码中关于这部分的主要代码如下:

1
2
3
4
5
6
7
8
9
10
11
//JDK 7
public String(char value[], int offset, int count) {
//check boundary
this.value = Arrays.copyOfRange(value, offset, offset + count);
}

public String substring(int beginIndex, int endIndex) {
//check boundary
int subLen = endIndex - beginIndex;
return new String(value, beginIndex, subLen);
}

以上是JDK 7中的subString方法,其使用new String创建了一个新字符串,避免对老字符串的引用。从而解决了内存泄露问题。

所以,如果你的生产环境中使用的JDK版本小于1.7,当你使用String的subString方法时一定要注意,避免内存泄露

深入分析Java中的length和length()

在开始正文之前,请你快速回答如下问题:

在不使用任何带有自动补全功能IDE的情况下,如何获取一个数组的长度?以及,如何获取一个字符串的长度?

这个问题我问过不同水平的程序员,包括初级和中级水平的。他们都不能准确而自信地回答这个问题(如果你能很准确很自信的回答这个问题,那么证明针对这一知识点你比大多数中级程序员掌握的好)。由于现在很多IDE都有代码补全功能,这使得开发人员在很多问题上都理解的很肤浅。本文将介绍几个关于Java数组的关键概念。

上面问题的正确回答姿势应该是这样的:

1
2
3
4
5
int[] arr = new int[3];
System.out.println(arr.length);//使用length获取数组的程度

String str = "abc";
System.out.println(str.length());//使用length()获取字符串的长度

那么问题来了,为什么数组有length属性,而字符串没有?或者,为什么字符串有length()方法,而数组没有?

为什么数组有length属性?

  首先,数组是一个容器对象(Java中的数组是对象吗?),其中包含固定数量的同一类型的值。一旦数组被创建,他的长度就是固定的了。数组的长度可以作为final实例变量的长度。因此,长度可以被视为一个数组的属性

有两种创建数组的方法:1、通过数组表达式创建数组。2、通过初始化值创建数组。无论使用哪种方式,一旦数组被创建,其大小就固定了

使用表达式创建数组方式如下,该方式指明了元素类型、数组的维度、以及至少一个维度的数组的长度。

该声明方式是符合要求的,因为他指定了一个维度的长度(该数组的类型为int,维度为2,第一维度的长度为3)

1
int[][] arr = new int[3][];

使用数组初始化的方式创建数组时需要提供所有的初始值。形式是使用{和}将所有初始值括在一起并用,隔开

1
int[] arr = {1,2,3};

注:这里可能会有一个疑问,既然数组大小是初始化时就规定好的,那么int[][] arr = new int[3][];定义的数组并没有给出数组的第二维的大小,那么这个arr的长度到底是如何“规定好”的呢?

其实,arr的长度就是3。其实Java中所有的数组,无论几维,其实都是一维数组。例如arr,分配了3个空间,每个空间存放一个一维数组的地址,这样就成了“二维”数组。但是对于arr来说,他的长度就是3

1
2
3
4
int[][] a=new int[3][];
System.out.println(a.length);//3
int[][] b=new int[3][5];
System.out.println(b.length);//3

Java中为什么没有定义一个类似String一样Array类

因为数组也是对象,所以下面的代码也是合法的:

1
Object obj = new int[10];

数组包含所有从Object继承下来方法(Java中数组的继承关系),除clone()之外。为什么没有一个array类呢?在Java中没有Array.java文件。一个简单的解释是它被隐藏起来了(注:Java中的数组有点类似于基本数据类型,是一个内建类型,并没有实际的类与他对应)。你可以思考这样一个问题——如果有一个Array类,那它会像什么样?它会仍然需要一个数组来存放所有的数组元素,对吗?因此,定义出一个Array类不是一个好的主意。(译者注:这里可能有点绕,道理有点类似于:鸡生蛋蛋生鸡问题,可能比喻也不是很恰当,请读者自行理解)

事实上我们可以获得数组的类定义,通过下面的代码:

1
2
int[] arr = new int[3];
System.out.println(arr.getClass());

输出:

1
class [I

“class [I”代表着”成员类型是int的数组”的class对象运行时类型的签名

为什么String有length()方法?

String背后的数据结构是一个char数组,所以没有必要来定义一个不必要的属性(因为该属性在char数值中已经提供了)。和C不同的是,Java中char的数组并不等于字符串,虽然String的内部机制是char数组实现的

注:要想把char[]转成字符串有以下方式:

1
2
3
4
char []s = {'a','b','c'};
String string1 = s.toString();
String string2 = new String(s);
String string3 = String.valueOf(s);

StringBuilder在高性能场景下的用法

采用ThreadLocalStringBuilder
http://calvin1978.blogcn.com/articles/stringbuilder.html

文章作者: Eric Liang
文章链接: https://ericql.github.io/2019/11/12/01-Java%E5%9F%BA%E7%A1%80%E7%AF%87/01-%E5%9F%BA%E7%A1%80%E7%9F%A5%E8%AF%86%E7%82%B9/String/String%E7%9F%A5%E8%AF%86%E7%82%B9%E6%A2%B3%E7%90%86/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Eric Liang
打赏
  • 微信
  • 支付宝