首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Kotlin入门(5)字符串及其格式化

    上一篇文章介绍了数组的声明和操作,包括字符串数组的用法。注意到Kotlin的字符串类也叫String,那么String在Java和Kotlin中的用法有哪些差异呢?这便是本文所要阐述的内容了。   首先要说明的是String类型与基本变量类型之间的转换方式,在《Kotlin入门(3)基本变量类型的用法》中,提到基本变量类型可以通过toString方法转为字符串类型。反过来,字符串类型又该如何转为基本变量类型?如果使用Java编码,有以下几种转换方式: 字符串转整型:调用方法Integer.parseInt(***) 字符串转长整型:调用方法Long.parseLong(***) 字符串转浮点数:调用方法Float.parseFloat(***) 字符串转双精度数:调用方法Double.parseDouble(***) 字符串转布尔型:调用方法Boolean.parseBoolean(***) 字符串转字符数组:调用String对象的toCharArray方法   就上面的转换情况来看,Java的实现方式比较繁琐,既需要其它类型的类名,有需要其它类型的转换方法。而在Kotlin这边,转换类型相对简单,并且与基本变量类型之间的转换保持一致,具体说明如下: 字符串转整型:调用String对象的toInt方法 字符串转长整型:调用String对象的toLong方法 字符串转浮点数:调用String对象的toFloat方法 字符串转双精度数:调用String对象的toDouble方法 字符串转布尔型:调用String对象的toBoolean方法 字符串转字符数组:调用String对象的toCharArray方法 显而易见,Kotlin对字符串的类型转换更友好,也更方便记忆。 当然,转换类型只是字符串的基本用法,还有更多处理字符串的其他用法,比如查找子串、替换子串、截取指定位置的子串、按特定字符分隔子串等等,在这方面Kotlin基本兼容Java的相关方法。对于查找子串的操作,二者都调用indexOf方法;对于截取指定位置子串的操作,二者都调用substring方法;对于替换子串的操作,二者都调用replace方法;对于按特定字符分隔子串的操作,二者都调用split方法。 下面是Kotlin使用indexOf和substring方法的代码例子:

    01

    Java正确进行字符串编码转换

    字符串在java中统一用unicode表示( 即utf-16 LE) , 对于 String s = "你好哦!";如果源码文件是GBK编码, 操作系统(windows)默认的环境编码为GBK,那么编译时, JVM将按照GBK编码将字节数组解析成字符,然后将字符转换为unicode格式的字节数组,作为内部存储。当打印这个字符串时,JVM 根据操作系统本地的语言环境,将unicode转换为GBK,然后操作系统将GBK格式的内容显示出来。 当源码文件是UTF-8, 我们需要通知编译器源码的格式,javac -encoding utf-8 ... , 编译时,JVM按照utf-8 解析成字符,然后转换为unicode格式的字节数组, 那么不论源码文件是什么格式,同样的字符串,最后得到的unicode字节数组是完全一致的,显示的时候,也是转成GBK来显示(跟OS环境有关) 乱码如何产生?本质上都是由于字符串原本的编码格式与读取时解析用的编码格式不一致导致的。 例如:String s = "你好哦!"; System.out.println( new String(s.getBytes(),"UTF-8")); //错误,因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。 其中 getBytes() 是将unicode 转换为操作系统默认的格式的字节数组,即"你好哦"的 GBK格式,new String (bytes, Charset) 中的charset 是指定读取 bytes 的方式,这里指定为UTF-8,即把bytes的内容当做UTF-8 格式对待。 如下两种方式都会有正确的结果,因为他们的源内容编码和解析用的编码是一致的。 System.out.println( new String(s.getBytes(),"GBK")); System.out.println( new String(s.getBytes("UTF-8"),"UTF-8")); 那么,如何利用getBytes 和 new String() 来进行编码转换呢? 网上流传着一种错误的方法:GBK--> UTF-8: new String( s.getBytes("GBK") , "UTF-8); ,这种方式是完全错误的,因为getBytes 的编码与 UTF-8 不一致,肯定是乱码。但是为什么在tomcat 下,使用new String(s.getBytes("iso-8859-1") ,"GBK") 却可以用呢?

    01
    领券