Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。
将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,
对应 hash 值为 0的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;
对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020
转载自原文链接, 如需删除请联系管理员。
原文链接:hive中Buckets详解,转载请注明来源!