首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Java抓取字符集问题

Java抓取字符集问题
EN

Stack Overflow用户
提问于 2012-06-04 08:33:02
回答 2查看 201关注 0票数 0

我正在用Java抓取维基百科页面,以提取信息框中包含的信息。

除了字符编码之外,所有操作都很好。维基百科网页使用"UTF-8“编码。

Ubuntu eclipse控制台也使用"UTF-8“作为默认编码。然而,eclipse控制台在显示被刮掉的信息时会显示一些奇怪的符号。(例如:Smith Â· Ricardo而不是Smith · Ricardo)

这是我用来读取数据的函数(它遍历节点的所有子节点并在末尾加入他们的文本信息):

代码语言:javascript
运行
复制
private String getTextContent(Node node) {
    String text = "";
    List<Node> children = null;     

    if (isTextNode(node)) {
        return node.getNodeValue();
    }
    else if (!node.hasChildNodes()) {
        return "";
    }
    else {
        children = toList(node.getChildNodes());
        for (Node childNode : children) {
            text += getTextContent(childNode);
        }
    }
    return text;
}

我忘记提到我正在使用JTidy库进行抓取。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-04 09:02:21

控制台可能正确地解释了UTF-8,但是如果您在网络上读取数据时出现了错误的编码,那么您就会遇到问题。

指定UTF-8作为JTidy使用的编码。

票数 1
EN

Stack Overflow用户

发布于 2012-06-04 08:39:18

转到Eclipse右侧,单击>运行Configuration>Common选项卡,并检查那里是否有UTF-8。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10878424

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档