文章/答案/技术大牛

发布

社区首页 >问答首页 >Java抓取字符集问题

问Java抓取字符集问题
EN

Stack Overflow用户

提问于 2012-06-04 08:33:02

回答 2查看 201关注 0票数 0

我正在用Java抓取维基百科页面，以提取信息框中包含的信息。

除了字符编码之外，所有操作都很好。维基百科网页使用"UTF-8“编码。

Ubuntu eclipse控制台也使用"UTF-8“作为默认编码。然而，eclipse控制台在显示被刮掉的信息时会显示一些奇怪的符号。(例如：Smith Â· Ricardo而不是Smith · Ricardo)

这是我用来读取数据的函数(它遍历节点的所有子节点并在末尾加入他们的文本信息)：

private String getTextContent(Node node) {
    String text = "";
    List<Node> children = null;     

    if (isTextNode(node)) {
        return node.getNodeValue();
    }
    else if (!node.hasChildNodes()) {
        return "";
    }
    else {
        children = toList(node.getChildNodes());
        for (Node childNode : children) {
            text += getTextContent(childNode);
        }
    }
    return text;
}

我忘记提到我正在使用JTidy库进行抓取。

java

eclipse

ubuntu

character-encoding

wikipedia

回答 2

Stack Overflow用户

回答已采纳

发布于 2012-06-04 09:02:21

控制台可能正确地解释了UTF-8，但是如果您在网络上读取数据时出现了错误的编码，那么您就会遇到问题。

指定UTF-8作为JTidy使用的编码。

票数 1

Stack Overflow用户

发布于 2012-06-04 08:39:18

转到Eclipse右侧，单击>运行Configuration>Common选项卡，并检查那里是否有UTF-8。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10878424

复制

相似问题

问Java抓取字符集问题
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java抓取字符集问题EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Java抓取字符集问题
EN