hive存储格式和压缩格式(hive的压缩格式)

hive表的存储格式有

TEXTFILE

SEQUENCEFILE

三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩)

RCFILE

ORC

自定义格式

hive表存储格式是表自身的存储结构,内部涉及存储数据的结构,查询方法,索引构建等等。

支持的数据都是hadoop默认支持的。

如txt格式文件,或压缩格式zip、lzo、br2等等。

hive外部表只能直接加载这些格式的数据。

hive存储格式和压缩格式(hive的压缩格式)

数据做压缩和解压缩

数据做压缩和解压缩会增加CPU的开销。

同时又具有可以最大程度的减少文件所需的磁盘空间网络I/O的开销的优点。

I/O密集型的作业使用数据压缩

如此以来,最好对那些I/O密集型的作业使用数据压缩。

对于cpu密集型的作业,使用压缩会降低性能。

而hive中间结果是map输出传给reduce,所以应该使用低cpu开销和高压缩效率,一般最好使用snappy。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发表评论

登录后才能评论