我需要导入维基百科转储(mysql表,解压的文件需要大约50 to )到Hadoop(hbase)。现在,我首先将dump加载到mysql中,然后将数据从mysql传输到hadoop。但是将数据加载到mysql需要大量的时间--大约4-7天。是否可以将mysql转储直接加载到hadoop中(通过转储文件解析器或其他类似工具)?
这可能是一个愚蠢的问题,但如果我最近通过cat dump.mysql \ mysql dbname将一个完整的mysql转储还原到一个新的mysql实例中以便于迁移;我希望恢复包含自该完全转储以来的最新数据的最后一个增量转储,我是否可以以同样的方式将该转储导入到我的数据库中,并且它只会在不覆盖其他数据的情况下将其添加到数