Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >java全角半角标点符号转换

java全角半角标点符号转换

作者头像
冬天里的懒猫
发布于 2021-08-05 02:54:21
发布于 2021-08-05 02:54:21
2.4K00
代码可运行
举报
运行总次数:0
代码可运行

早上发现某个群居然爆出一个bug,上游系统存储的客户简称是商务人员自己填的,这个字段支持用户录入各种字符。但是下游对接的其他系统,在将这个字段应用到系统中的时候,不能支持全角的标点符号,如果这个字段有全角标点符号,则系统会出错。

看到这个问题,我首先觉得下游对接的系统也是奇葩,居然还不支持全角的字符串。但是一想到我们没办法强迫下游系统来改变他们的接口,而站在本系统的角度来考虑,未来下游系统还很多,毕竟客户的基本信息数据会应用到越来越多的系统中去。最好的方式就是我们将采集到的客户信息中的全角字符,都自动转为半角字符。将客户信息的接口加以约束,这样能一劳永逸。

说到全角和半角的标点符号问题,这里就需要介绍一下什么是全角,什么是半角。

全角:指一个字符占用两个标准字符位置。 汉字字符和规定了全角的英文字符及国标GB2312-80中的图形符号和特殊字符都是全角字符。一般的系统命令是非全角字符的,只有在文本处理时才会使用全角字符。

半角:指一字符占用一个标准的字符位置。 通常的英文字母、数字键、符号键都是半角的,半角的显示内码都是一个字节。在系统内部,以上三种字符是作为基本代码处理的,所以用户输入命令和参数时一般都使用半角。

全角与半角的使用场景 通常情况下,我们认为全角是占两个字节,而半角只占一个字节,但是需要注意的是,这都是相对标点符号而言。因为汉字不管全角还是半角,都是两个字节。而我们的所有程序代码中,都只支持半角字符,全角字符默认会当作文本。

全角字符和半角字符的范围: 经过观察,我们可以得到如下结论:

  • 1.半角字符是从33开始到126结束
  • 2.与半角字符对应的全角字符是从65281开始到65374结束
  • 3.其中半角的空格是32.对应的全角空格是12288
  • 4.半角和全角的关系很明显,除空格外的字符偏移量是65248(65281-33 = 65248)

这样我们可以做一个工具类来进行全角和半角字符的转换,针对本文开篇的问题,就可以很方便的解决:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
package com.dhb.springbootdata;

public class AsciiUtil {

	public static final char SBC_SPACE = 12288; // 全角空格 12288

	public static final char DBC_SPACE = 32; //半角空格 32

	// ASCII character 33-126 <-> unicode 65281-65374
	public static final char ASCII_START = 33;

	public static final char ASCII_END = 126;

	public static final char UNICODE_START = 65281;

	public static final char UNICODE_END = 65374;

	public static final char DBC_SBC_STEP = 65248; // 全角半角转换间隔

	public static char sbc2dbc(char src) {
		if (src == SBC_SPACE) {
			return DBC_SPACE;
		}

		if (src >= UNICODE_START && src <= UNICODE_END) {
			return (char) (src - DBC_SBC_STEP);
		}

		return src;
	}

	/**
	 * Convert from SBC case to DBC case
	 *
	 * @param src
	 * @return DBC case
	 */
	public static String sbc2dbcCase(String src) {
		if (src == null) {
			return null;
		}
		char[] c = src.toCharArray();
		for (int i = 0; i < c.length; i++) {
			c[i] = sbc2dbc(c[i]);
		}
		return new String(c);
	}

	public static char dbc2sbc(char src) {
		if (src == DBC_SPACE) {
			return SBC_SPACE;
		}
		if (src <= ASCII_END) {
			return (char) (src + DBC_SBC_STEP);
		}
		return src;
	}

	/**
	 * Convert from DBC case to SBC case.
	 *
	 * @param src
	 * @return SBC case string
	 */
	public static String dbc2sbcCase(String src) {
		if (src == null) {
			return null;
		}

		char[] c = src.toCharArray();
		for (int i = 0; i < c.length; i++) {
			c[i] = dbc2sbc(c[i]);
		}

		return new String(c);
	}

	public static void main(String[] args) {
		System.out.println(AsciiUtil.sbc2dbcCase("你好(张三)111?!"));
		System.out.println(AsciiUtil.dbc2sbcCase("你好(张三)111?!"));
		
		Character.MIN_VALUE
	}
}

上述代码执行结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
你好(张三)111?!
你好(张三)111?!
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/07/27 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2018-08-23 Java工具类——全角半角字符相互转换
https://blog.csdn.net/xyw591238/article/details/51719747 https://my.oschina.net/zjcx/blog/679604 https://segmentfault.com/a/1190000010841143
Albert陈凯
2018/09/20
1.8K0
用Python转换一些常见全角字符为半
最近在爬日文小说的过程中,经常遇到全角(甚至和和半角混用),造成我(强迫症)强烈不适,就着手专门写一个脚本处理之
py3study
2020/01/02
7050
java 全角转半角字符
/** * 全角空格为12288,半角空格为32 * 其他字符半角(33-126)与全角(65281-65374)的对应关系是:均相差65248 * * 将字符串中的全角字符转为半角 * @param src 要转换的包含全角的任意字符串 * @return 转换之后的字符串 */ public static String toSemiangle(String src) { char[] c = src.toCharArray(); for (int index = 0; in
前Thoughtworks-杨焱
2021/12/08
1.9K0
python3环境下的全角与半角转换代码和测试
全角和半角转换是文本预处理的常见工作之一,然而现在网上一搜python的相关代码,几乎都是python2版本的,因此根据人角和半角的转换规律,将其代码撰写如下:
sparkexpert
2019/05/26
3K0
java字符全角半角转换
序 本文展示一下如何将char进行半角与全角转换。 术语 全角 SBC case Sexagesimal to Binary Converter 60进制转为2进制 半角 DBC case Decimal to Binary Converter 10进制转为2进制 工具类 public class AsciiUtil { public static final char SBC_SPACE = 12288; // 全角空格 12288 public static final char D
code4it
2018/09/17
2.2K0
解决TextView排版混乱或者自动换行的问题
其实在TextView中遇到排版自动换行而导致混乱不堪的情况是非常常见的,而且导致这种问题产生的原因就是英文和中文混合输入,半角字符和全角字符混合在一起了。一般情况下,我们输入的数字、字母以及英文标点都是半角字符,所以占位无法确定,它们与汉字的占位不同,由于这个原因,导致很多文字的排版都是参差不齐的。 原因找到了,自然解决方法就来了,一般有以下两种方法来解决这种问题。 1、将TextView中的字符全角化。即将所有的数字、字母及标点全部转为全角字符,使它们与汉字同占两个字节,这样就可以避免由于占位导致的排版
非著名程序员
2018/02/09
4.7K0
C#全角和半角转换
在计算机屏幕上,一个汉字要占两个英文字符的位置,人们把一个英文字符所占的位置称为"半角",相对地把一个汉字所占的位置称为"全角"。在汉字输入时,系统提供"半角"和"全角"两种不同的输入状态,但是对于英文字母、符号和数字这些通用字符就不同于汉字,在半角状态它们被作为英文字符处理;而在全角状态,它们又可作为中文字符处理。半角和全角切换方法:单击输入法工具条上的 按钮或按键盘上的Shift+Space键来切换。 (1)全角--指一个字符占用两个标准字符位置。 汉字字符和规定了全角的英文字符及国标GB2312-8
张善友
2018/01/19
2.4K0
python 匹配文本全角转半角字符「建议收藏」
因为编码通常为为utf8,若直接匹配,中文括号的3字节编码会和一些中文的字节编码重复,产生意想不到的结果
全栈程序员站长
2022/09/13
1.5K0
C#全角转换成半角并检查建议收藏
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/120782.html原文链接:https://javaforall.cn
全栈程序员站长
2022/07/15
7410
全角半角转换?
但是,这似乎不算一个太偏门或太个性的问题,曾记得某次去建设银行做房产合同登记提取公积金时,他们非要将房号输入为全角的(说实话,我实在是觉得太奇怪了,所以一直到现在都没有忘记!)
大海Power
2021/08/30
1.6K0
彻底解决WordPress 中 半角全角字符转义 的问题
WordPress中会默认会自动转义一些字符,如将‘--’转义为‘-’破折号,网络上也称“转换全半角标点符号”或者“代码转义”。因为Wordpress 会智能地将源代码中的所有半角符号自动修正为全角符号,以防止外部源代码在网页上执行。这个功能所带来的麻烦就是在输入代码后,显示的不是原始代码,被人复制粘贴使用就会有问题。如果你的WordPress博客经常要分享代码的话,就需要彻底解决WordPress 中 半角全角字符转义 的问题。 结合Jeff的使用经验,结合网络上相关代码,以下给出终极攻略: 移除wpte
Jeff
2018/01/19
2.6K0
中文字符与中文标点符号判断
Java Character 实现Unicode字符集介绍 CJK中文字符和中文标点判断
BUG弄潮儿
2021/06/25
3.4K0
中文字符与中文标点符号判断
Python处理中文标点符号
中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !?。"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏. 调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。 如果想用英文的标点,则可调用string包的string.punctuation函数可得到
happy123.me
2018/06/04
9.2K0
全角字符和半角字符的区别和操作方法_手机有半角全角的区别吗
全角符号是双字节中文编码的历史遗留问题。当年在纯文本的界面中,为了让西文和中日韩的方块字对齐,就让西文字母、数字和标点也占用一个汉字的视觉空间,并使用 2 个字节存储。后来,其中的一些全角字符因为比较有用,就得到了广泛应用(比如全角的逗号「,」、问号「?」、感叹号「!」、空格「 」等),专用于中日韩文本,成为了标准的中日韩标点字符。而其它的许多全角符号失去了价值,因为我们现在很少需要让纯文本的中文和西文字字对齐了,就很少再用了。
全栈程序员站长
2022/11/01
1.8K0
刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK
英文字母再加一些其他标点字符之类的也不会超过256个,用一个字节来表示一个字符就足够了(2^8 = 256)。但其他一些文字不止这么多字符,比如中文中的汉字就多达10多万个,一个字节只能表示256个字符,肯定是不够的,因此只能使用多个字节来表示一个字符。
笨笨阿林
2022/05/09
4.7K0
刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK
淘宝API返回的空格trim()不掉,好着急好生气
在处理文本数据时,经常会遇到不同类型的空格字符。除了最常见的半角空格(ASCII码为32)之外,还有全角空格(Unicode编码为\u3000)。这两种空格虽然在视觉上看起来相同,但在计算机内部表示却不一样,因此在进行字符串处理时需要注意区分。
烟雨平生
2024/11/23
2210
淘宝API返回的空格trim()不掉,好着急好生气
【Java】18 增强流
缓冲流的基本原理,是在创建流对象时,会创建一个内置的默认大小的缓冲区数组,通过缓冲区读写,减少系统 IO 次数,从而提高读写的效率。
Demo_Null
2020/09/28
4720
【Java】18 增强流
js工具函数大全 || 实用篇
“ 关注 前端开发社区 ,回复 '领取资源',免费领取Vue,小程序,Node Js,前端开发用的插件以及面试视频等学习资料,让我们一起学习,一起进步
前端老道
2020/05/29
4.8K0
js工具函数大全 || 实用篇
JavaSE基础总结
生活中处处都是学问,要时刻提醒自己不可懈怠,真正的大师永远都有一颗学徒的心,生活的背后要赋予行动,承担代价,我就是那个不撞南墙不回头的人,选择了就绝不轻言放弃。----
栖西
2023/10/17
1730
JavaSE基础总结
JDK1.9-转换流
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
cwl_java
2019/12/10
6080
JDK1.9-转换流
相关推荐
2018-08-23 Java工具类——全角半角字符相互转换
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验