我正在从事一个项目,涉及到监控大量rss/atom提要。我想使用hbase进行数据存储,我在设计模式时遇到了一些问题。对于第一次迭代,我希望能够生成一个聚合提要(所有提要中的最后100个帖子按反向时间顺序排列)。
目前,我正在使用两个表:
Feeds: column families Content and Meta : raw feed stored in Content:raw
Urls: column families Content and Meta : raw post version store in Content:raw and the rest of the data fou
hbase(main):067:0> version
1.1.2.2.3.2.0-2950, Wed Sep 30 18:24:54 UTC 2015
我有一个有12个节点的hbase设置,其中一个表有36个区域,分布在11个节点上,我在线合并了连续的区域(使用merge_region),并生成了18个区域。在那之后,一个小的压缩开始了,区域再次分裂,区域的数量增加到32个。为什么会发生这种情况,如何跟踪和理解这种行为?
我的一台Hbase区域服务器因为HDFS进入安全模式而离线--或者因为安全模式(鸡蛋问题)而无法恢复在线--所以我修复了这个问题,并让区域服务器重新工作,但之后我无法再查询Hbase。我收到一个错误,NotServingRegionException: Region is not online: <my table>...
另一个和类似的建议从Zookeeper中删除一些条目,但这听起来像是一条潜在的危险路线,特别是因为我们的错误消息不匹配。
这个问题的安全解决方案是什么?
我正在尝试在Hadoop上设置HBase,并且一直在关注和提供的各种优秀的在线教程。基本上一切都很好,我的Hdfs和MapRed在web界面上工作得很好,它显示我有2个节点(我的NameNode既是NameNode又是DataNode,但这只是为了测试目的)。
当我安装HBase的时候,我遇到了问题,我得到了很多不同的错误。我拥有的最新版本在我的从节点的日志文件中
INFO org.apache.zookeeper.server.NIOServerCnxn: Closed socket connection for client /10.2.xx.xx:43089 (no session es