String特性分析
1.String不变性
一旦一个string对象在内存(堆)中被创建出来,他就无法被修改。特别要注意的是,String类的所有方法都没有改变字符串本身的值,都是返回了一个新的对象。
如果你需要一个可修改的字符串,应该使用StringBuffer 或者 StringBuilder。否则会有大量时间浪费在垃圾回收上,因为每次试图修改都有新的string对象被创建出来
定义一个字符串
1 | String s = "abcd"; |
s中保存了string对象的引用。下面的箭头可以理解为“存储他的引用”
使用变量来赋值变量
1 | String s2 = s; |
s2保存了相同的引用值,因为他们代表同一个对象
字符串连接
1 | s = s.concat("ef"); |
s中保存的是一个重新创建出来的string对象的引用
总结
一旦一个string对象在内存(堆)中被创建出来,他就无法被修改。特别要注意的是,String类的所有方法都没有改变字符串本身的值,都是返回了一个新的对象。
如果你需要一个可修改的字符串,应该使用StringBuffer 或者 StringBuilder。否则会有大量时间浪费在垃圾回收上,因为每次试图修改都有新的string对象被创建出来
2.为什么String设计成不变性
String是Java中一个不可变的类,所以他一旦被实例化就无法被修改。不可变类的实例一旦创建,其成员变量的值就不能被修改。不可变类有很多优势。本文总结了为什么字符串被设计成不可变的。将涉及到内存、同步和数据结构相关的知识
字符串池
字符串池是方法区中的一部分特殊存储。当一个字符串被被创建的时候,首先会去这个字符串池中查找,如果找到,直接返回对该字符串的引用。
下面的代码只会在堆中创建一个字符串
1 | String string1 = "abcd"; |
下面是图示:
如果字符串可变的话,当两个引用指向指向同一个字符串时,对其中一个做修改就会影响另外一个(请记住该影响,有助于理解后面的内容)
缓存Hashcode
Java中经常会用到字符串的哈希码(hashcode)。例如,在HashMap中,字符串的不可变能保证其hashcode永远保持一致,这样就可以避免一些不必要的麻烦。这也就意味着每次在使用一个字符串的hashcode的时候不用重新计算一次,这样更加高效。
在String类中,有以下代码:
1 | private int hash;//this is used to cache hash code. |
以上代码中hash变量中就保存了一个String对象的hashcode,因为String类不可变,所以一旦对象被创建,该hash值也无法改变。所以,每次想要使用该对象的hashcode的时候,直接返回即可。
使其他类的使用更加便利
在介绍这个内容之前,先看以下代码:
1 | HashSet<String> set = new HashSet<String>(); |
在上面的例子中,如果字符串可以被改变,那么以上用法将有可能违反Set的设计原则,因为Set要求其中的元素不可以重复。上面的代码只是为了简单说明该问题,其实String类中并没有value这个字段值
安全性
String被广泛的使用在其他Java类中充当参数。比如网络连接、打开文件等操作。如果字符串可变,那么类似操作可能导致安全问题。因为某个方法在调用连接操作的时候,他认为会连接到某台机器,但是实际上并没有(其他引用同一String对象的值修改会导致该连接中的字符串内容被修改)。可变的字符串也可能导致反射的安全问题,因为他的参数也是字符串
代码示例:
1 | boolean connect(string s){ |
不可变对象天生就是线程安全的
因为不可变对象不能被改变,所以他们可以自由地在多个线程之间共享。不需要任何同步处理。
总之,String被设计成不可变的主要目的是为了安全和高效。所以,使String是一个不可变类是一个很好的设计
彻底了解JDK6和JDK7中substring的原理和区别
String是Java中一个比较基础的类,每一个开发人员都会经常接触到。而且,String也是面试中经常会考的知识点。String有很多方法,有些方法比较常用,有些方法不太常用。今天要介绍的subString就是一个比较常用的方法,而且围绕subString也有很多面试题
substring(int beginIndex, int endIndex)方法在不同版本的JDK中的实现是不同的。了解他们的区别可以帮助你更好的使用他。为简单起见,后文中用substring()代表substring(int beginIndex, int endIndex)方法
substring() 的作用
substring(int beginIndex, int endIndex)方法截取字符串并返回其[beginIndex,endIndex-1]范围内的内容
1 | String x = "abcdef"; |
输出内容:
1 | bc |
调用substring()时发生了什么
你可能知道,因为x是不可变的,当使用x.substring(1,3)对x赋值的时候,它会指向一个全新的字符串:
然而,这个图不是完全正确的表示堆中发生的事情。因为在jdk6 和 jdk7中调用substring时发生的事情并不一样
JDK 6中的substring
String是通过字符数组实现的。在jdk 6 中,String类包含三个成员变量: char value[], int offset,int count。他们分别用来存储真正的字符数组,数组的第一个位置索引以及字符串中包含的字符个数
当调用substring方法的时候,会创建一个新的string对象,但是这个string的值仍然指向常量池中的同一个字符数组。这两个对象中只有count和offset 的值是不同的
下面是证明上说观点的Java源码中的关键代码:
1 | //JDK 6 |
JDK 6中的substring导致的问题
如果你有一个很长很长的字符串,但是当你使用substring进行切割的时候你只需要很短的一段。这可能导致性能问题,因为你需要的只是一小段字符序列,但是你却引用了整个字符串(因为这个非常长的字符数组一直在被引用,所以无法被回收,就可能导致内存泄露)。在JDK 6中,一般用以下方式来解决该问题,原理其实就是生成一个新的字符串并引用他
1 | x = x.substring(x, y) + "" |
关于JDK 6中subString的使用不当会导致内存系列已经被官方记录在Java Bug Database中:
内存泄露:在计算机科学中,内存泄漏指由于疏忽或错误造成程序未能释放已经不再使用的内存。 内存泄漏并非指内存在物理上的消失,而是应用程序分配某段内存后,由于设计错误,导致在释放该段内存之前就失去了对该段内存的控制,从而造成了内存的浪费
JDK 7 中的substring
上面提到的问题,在jdk 7中得到解决。在jdk 7 中,substring方法会在堆内存中创建一个新的数组。
Java源码中关于这部分的主要代码如下:
1 | //JDK 7 |
以上是JDK 7中的subString方法,其使用new String创建了一个新字符串,避免对老字符串的引用。从而解决了内存泄露问题。
所以,如果你的生产环境中使用的JDK版本小于1.7,当你使用String的subString方法时一定要注意,避免内存泄露
深入分析Java中的length和length()
在开始正文之前,请你快速回答如下问题:
在不使用任何带有自动补全功能IDE的情况下,如何获取一个数组的长度?以及,如何获取一个字符串的长度?
这个问题我问过不同水平的程序员,包括初级和中级水平的。他们都不能准确而自信地回答这个问题(如果你能很准确很自信的回答这个问题,那么证明针对这一知识点你比大多数中级程序员掌握的好)。由于现在很多IDE都有代码补全功能,这使得开发人员在很多问题上都理解的很肤浅。本文将介绍几个关于Java数组的关键概念。
上面问题的正确回答姿势应该是这样的:
1 | int[] arr = new int[3]; |
那么问题来了,为什么数组有length属性,而字符串没有?或者,为什么字符串有length()方法,而数组没有?
为什么数组有length属性?
首先,数组是一个容器对象(Java中的数组是对象吗?),其中包含固定数量的同一类型的值。一旦数组被创建,他的长度就是固定的了。数组的长度可以作为final实例变量的长度。因此,长度可以被视为一个数组的属性
有两种创建数组的方法:1、通过数组表达式创建数组。2、通过初始化值创建数组。无论使用哪种方式,一旦数组被创建,其大小就固定了
使用表达式创建数组方式如下,该方式指明了元素类型、数组的维度、以及至少一个维度的数组的长度。
该声明方式是符合要求的,因为他指定了一个维度的长度(该数组的类型为int,维度为2,第一维度的长度为3)
1 | int[][] arr = new int[3][]; |
使用数组初始化的方式创建数组时需要提供所有的初始值。形式是使用{和}将所有初始值括在一起并用,隔开
1 | int[] arr = {1,2,3}; |
注:这里可能会有一个疑问,既然数组大小是初始化时就规定好的,那么int[][] arr = new int[3][];定义的数组并没有给出数组的第二维的大小,那么这个arr的长度到底是如何“规定好”的呢?
其实,arr的长度就是3。其实Java中所有的数组,无论几维,其实都是一维数组。例如arr,分配了3个空间,每个空间存放一个一维数组的地址,这样就成了“二维”数组。但是对于arr来说,他的长度就是3
1 | int[][] a=new int[3][]; |
Java中为什么没有定义一个类似String一样Array类
因为数组也是对象,所以下面的代码也是合法的:
1 | Object obj = new int[10]; |
数组包含所有从Object继承下来方法(Java中数组的继承关系),除clone()之外。为什么没有一个array类呢?在Java中没有Array.java文件。一个简单的解释是它被隐藏起来了(注:Java中的数组有点类似于基本数据类型,是一个内建类型,并没有实际的类与他对应)。你可以思考这样一个问题——如果有一个Array类,那它会像什么样?它会仍然需要一个数组来存放所有的数组元素,对吗?因此,定义出一个Array类不是一个好的主意。(译者注:这里可能有点绕,道理有点类似于:鸡生蛋蛋生鸡问题,可能比喻也不是很恰当,请读者自行理解)
事实上我们可以获得数组的类定义,通过下面的代码:
1 | int[] arr = new int[3]; |
输出:
1 | class [I |
“class [I”代表着”成员类型是int的数组”的class对象运行时类型的签名
为什么String有length()方法?
String背后的数据结构是一个char数组,所以没有必要来定义一个不必要的属性(因为该属性在char数值中已经提供了)。和C不同的是,Java中char的数组并不等于字符串,虽然String的内部机制是char数组实现的
注:要想把char[]转成字符串有以下方式:
1 | char []s = {'a','b','c'}; |
StringBuilder在高性能场景下的用法
采用ThreadLocalStringBuilder
http://calvin1978.blogcn.com/articles/stringbuilder.html