首页 » 技术分享 » hive中Buckets详解

hive中Buckets详解

 

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。

将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,

对应 hash 值为 0的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;

对应hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020

转载自原文链接, 如需删除请联系管理员。

原文链接:hive中Buckets详解,转载请注明来源!

0