我们有两个大表,具有相同的结构,用于存储英汉平行语料库。这两个表都包含千万级的记录。在一个表内和这两个表之间存在大量重复数据(例如,相同的英文和中文内容)。我们希望通过消除数据冗余来合并这两个表,以获得一个干净的表。然而,面对大数据的挑战,我们发现这项任务并不容易。主要的问题是,当我们尝试在MySQL中合并这两个表时,会出现内存溢出。表的数据结构
id --- en
我的网页应用程序需要经常查询二级连接。每个用户都有200个朋友,这些朋友每个都有200个朋友。我需要一些帮助来确定正确的数据库(和表结构),使这个web应用程序快速响应。业务逻辑:用户搜索他们的第一级和第二级连接,以获得使用特定服务的其他用户的列表(存储在一列中为无符号int)。这是这个应用程序的唯一功能。表结构用户表: User_ID (pk),Facebook_ID (s