hive表的存储格式有
TEXTFILE
SEQUENCEFILE
(三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩)
RCFILE
ORC
自定义格式
hive表存储格式是表自身的存储结构,内部涉及存储数据的结构,查询方法,索引构建等等。
支持的数据都是hadoop默认支持的。
如txt格式文件,或压缩格式zip、lzo、br2等等。
hive外部表只能直接加载这些格式的数据。
数据做压缩和解压缩
数据做压缩和解压缩会增加CPU的开销。
同时又具有可以最大程度的减少文件所需的磁盘空间和网络I/O的开销的优点。
I/O密集型的作业使用数据压缩
如此以来,最好对那些I/O密集型的作业使用数据压缩。
对于cpu密集型的作业,使用压缩会降低性能。
而hive中间结果是map输出传给reduce,所以应该使用低cpu开销和高压缩效率,一般最好使用snappy。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。