Hive:在主表上执行递增更新的最佳方法
所以我在Hive中有一个主表,它将存储我的所有数据。
我希望能够每月加载大量数据数十亿行的增量数据更新。将有新数据和更新的条目。
解决此问题的最佳方法是什么,我知道Hive最近升级并支持更新/插入/删除。
我一直在想的是以某种方式找到将要更新的条目并从主表中删除它们然后只插入新的增量更新。但是在尝试此操作后,插入速度非常快,但删除速度非常慢。
另一种方法是使用update语句执行某些操作以匹配主表和增量更新中的键值并更新其字段。我还没试过这个。这听起来也很痛苦,因为Hive必须逐个更新每个条目。
任何人都有任何想法,如何最有效和最有效地做到这一点?我对Hive和数据库很新。
茅侃侃
SMILET
相关分类