我有个奇怪的问题。我得到的文字来自谷歌云视觉包含非英语字符,但它们实际上是英语字符。这是谷歌云视觉OCR的一个错误。
我得到了一个这样的角色:Héllo
Notice that é is non English character.
我想转换成simple "Hello"
,这样我就可以处理这个词了。
我不是在找编程答案。我只是在找方法来做这个。
任何暗示都是有用的。
谢谢!
发布于 2020-06-10 05:50:09
如果Apache是您的一种选择,您可以使用他们的StringUtils库。stripAccents
方法应该适合您的需要。从源代码中可以看到,它实际上使用了java.text.Normalizer
,因此您也可以查看它。
https://stackoverflow.com/questions/62296610
复制相似问题