关于 Hive 的文章
面试 | 不可不知的十大 Hive 调优技巧优秀实践

Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。可以说从事

因HIVE 元数据与HDFS上的数据不一致引起的问题的修复

前言 大家好,我是明哥! 本片博文是“大数据问题排查系列”之一,讲述某HIVE SQL 作业因为 HIVE 中的元数据与 HDFS中实际的数据不一致引起的一个问题的排查和修复。 以下是正文。 问题现象 客户端报错如下

Hive 数据倾斜问题定位排查及解决

多数介绍数据倾斜的文章都是以大篇幅的理论为主,并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题,这些理论很难直接应用,导致我们面对倾斜时还是不知所措。 今天我们不扯大篇理论,直接以例子来实践,排查

一文了解基于Flink1.12构建流批一体数仓的技术点

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代,其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。本文将以Flink1.12为例,一一介绍这些特性的基本使

云计算 2021-06-30
聊聊Hive常见的分析函数

1.基本语法 Function (arg1,..., argn) OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>])  Function (arg1,..., argn) 可以是下面的

「基础」SQL-Hive中的Select From 解析

  你好,我是巡山猫! 今天我们来讲讲Hive中最常用的 select from 语句知识要点。 Hive系列文章预计10-20篇,主要讲数据分析中最基础的SQL技能。 01-查询表中的内容 查询指定的某一列或某几列,命令如下: SELEC

云计算 2021-04-30
一文学会Hive解析Json数组

在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平台调用数据时,要对埋点数据进行解析。接下来就聊聊Hive中是如何解析json数据的。 H

云计算 2021-04-28
Hive千亿级数据倾斜解决方案

数据倾斜问题剖析 数据倾斜是分布式系统不可避免的问题,任何分布式系统都有几率发生数据倾斜,但有些小伙伴在平时工作中感知不是很明显。这里要注意本篇文章的标题—“千亿级数据”,为什么说千亿级

Hive中的内部表、外部表、分区表和分桶表

在Hive数据仓库中,重要点就是Hive中的四个表。Hive 中的表分为内部表、外部表、分区表和分桶表。 内部表 默认创建的表都是所谓的内部表,有时也被称为管理表。因为这种表,Hive 会(或多或少地)控制着数据的生命周期

聊聊Hive数据类型和简单使用

Hive使用的语句是Hql,和sql百分之九十都是相近的,因此,只要对SQL比较熟悉的,Hql基本不用怎么学。 基本数据类型 「基本数据类型」 tinyint/smallint/int/bigint: 整数类型 float/double: 浮点数类型 boolean:布

数据仓库和Hive环境搭建

上次介绍了HDFS,本来想进入Mapreduce,但感觉Mapreduce基本废弃,于是直接进入了Hive中来。 数据仓库 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库顾名思义,是一个很大的数据存储集合,出于企

Hive 和 Spark的爱恨情仇恩怨交织

  本文转载自微信公众号「明哥的IT随笔」,作者IT明哥。转载本文请联系明哥的IT随笔公众号。  最近在面试一些应聘大数据岗位的技术小伙伴时,发现不少朋友对业界 所谓的hive on spark和spark on hive分不

聊聊Hive中的集合数据类型

  本文转载自微信公众号「Java大数据与数据仓库」,作者柯同学。转载本文请联系Java大数据与数据仓库公众号。  除了使用础的数据类型string等,Hive中的列支持使用struct, map, array集合数据类型。 数据

手机游戏更多