背景是这样的:根据用户id分20张表记录核心数据,由于用户与用户之间所拥有的可能存在重复数据,所以每天晚上都要对总体数据进行去重统计,也就是要将20张表的数据合并去重(去重条件是姓名和联系方式一模一样),而且每天晚上都要跑这个任务
由于20张表的数据超过千万,而且还会增加,不太可能通过sql去重统计。我现在的做法是逐行读取将去重字段(姓名和联系方式)md5然后存入redis集合(会自动去重),最后用redis统计(办法很蠢,可是想不出其他办法了),但是这样脚本会跑接近两个小时,有时候还会失败
还有就是数据需要根据数据来源去重统计以及总数据去重统计,并且随时用户都有增删查改的操作,所以无法对所有数据汇总建立去重总表(如果建立去重总表,数据将分不出来源,无法统计,而且增删查改很难实时维护)
求助:请问各位大神,是否有比较靠谱的统计方案?急急急!(产品是爹,开发是孙子,再变态的需求也只能啃)
扬帆大鱼
慕田峪7331174
小唯快跑啊