一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像,使用vmware类似软件的同学指定,快照可以为虚拟机保存某个状态,如果做了更改,或者系统被折腾坏,还有个复原的操作。 快照应用在如下场景中
前言 大家好,我是明哥! 本片博文是“大数据问题排查系列”之一,讲述某HIVE SQL 作业因为 HIVE 中的元数据与 HDFS中实际的数据不一致引起的一个问题的排查和修复。 以下是正文。 问题现象 客户端报错如下
前言 HIVE 作为大数据生态的数仓解决方案,因为历史的原因在很多行业很多公司都有着广泛的应用。对于比较复杂的业务逻辑,HIVE SQL 往往比较难以表达,此时大家在开发中往往会辅以 HIVE UDF。所以充分
搭建数仓,hadoop虽然有点落伍,但还是不可或缺的。本文描述下单机版的hadoop运作机制。 HDFS是Google GFS的开源实现,是一个分布式文件系统,是大数据技术的基石,直接上架构图: 主要包含Namenode和Datano
今天带来的是全新的章节,大数据开发-HDFS,作为Hadoop生态系统的一个重要组成部分,其存在不可或缺,基础的才是最重要的,而HDFS就是这样一个存在。下面就开始HDFS的学习。 一、 HDFS介绍 HDFS(Hadoop Distributed
在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop
前言 在早期Hadoop刚出来的时候是没有解决HDFS单点问题的,这就意味着当NameNode的服务器宕机了就会导致整个集群瘫痪,这是非常危险的于是在Hadoop不断的更新下提出了Hadoop HA来解决NameNode单点问题,接下来我们就
前言 Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。 一、Hadoop 简介 Hadoop版本刚出来的时候是为了解决两个问
1 Hadoop 简介 1.1 Hadoop 由来 数据容量 大数据时代数据量超级大,数据具有如下特性: Volume(大量) Velocity(高速) Variety(多样) Value(低价值密度) 以前的存储手段跟分析方法现在行不通了!Hadoop 就是用来解决