大数据学习教程SD版第七篇【Hive】
1. Hive 简介
数据仓库工具,将结构化数据映射成二维表,并提供类SQL查询,底层把HQL转换成MR程序
Hive 自带的客户端
hive clientbeeline client
特点
HQL 用于数据分析,但处理处理粒度粗处理大数据,但延迟高支持自定义函数
架构原理
Metastore 元数据存储 Client 客户端 MapReduce 计算引擎 HDFS 数据源
解析器 解析HQL 映射关系,元数据编译器 把HQL 转化成MR优化器 优化执行的逻辑执行器 把执行逻辑 物理化执行
2. Hive vs RDBMS
查询语言:类似SQL数据规模:数据量大数据更新:读多写少,导入导出执行延迟:量大,延迟高
3. Hive 安装
下载安装包解压安装包配置环境变量初始化元数据
./schematool -dbType derby -initSchema
启动测试
共有 0 条评论