Hadoop - 乐耶园

Hadoop之Mapreduce序列化

目录什么是序列化：什么是反序列化：为什么要序列化：Java的序列化：Hadoop序列化:自定义序列化接口：实现序列化的步骤：先看源码进行简单分析：序列化案例实操：案例需求：（1）输入数据：（2）输入数据格式：（3）期望输出数据格式需求分析：编写MapperReduce程序：什么是序列化： ......

396

2023-09-09

hadoop01——Hadoop伪分布式集群搭建手把手教学

需要的节点：主节点为hadoop1，其他节点分别为hadoop2，hadoop3。使用 jdk 文件：jdk-8u144- Linux -x64.tar.gz 使用的 CentOS ： CentOS-7-x86_64-DVD-1511 使用的软件：VMware15，虚拟机连接工具：xshell 需要的用户名： ......

306

2023-06-18

hadoop集群的搭建、完全分布式运行一看就会

前期准备模板机准备修改静态IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE="Ethernet" PROXY_METHOD="none" BROWSER_ONLY="no" BOOTPROTO=" static " //这里改成static DEFROUTE="yes" IPV ......

329

2023-05-28

Java大数据开发Hadoop MapReduce

目录1 MapRedcue的介绍1.1 MapReduce定义1.2 MapReduce的思想1.3 MapReduce优点1.4 MapReduce的缺点1.5 MapReduce进程1.6 MapReduce-WordCount2 Hadoop序列化2.1 序列化的定义2.2 hadoop序列化和java序列化的区别3 MapReduce 的原理3.1 ......

376

2023-04-05

Hadoop分布式文件系统HDFS

概述HDFS是hadoop提供的分布式存储的文件系统HDFS是典型的主从结构，一主（namenode）多从（datanode）HDFS的指令和linux指令相似(hadoop fs -xx)HDFS对文件进行存储之前，会将文件进行切块文件大小如果超过128MB，则默认一块为128MB,未到128MB,则文件大小即为文件块大小在HDFS中会自动对文件进行备份， ......

322

2022-12-17

大数据之Hadoop企业级生产调优手册(上)

1. HDFS—核心参数1.1 NameNode 内存生产配置1.2 NameNode 心跳并发配置1.3 开启回收站配置2. HDFS—集群压测2.1 测试 HDFS写性能2.2 测试HDFS 读性能3 HDFS—多目录3.1 NameNode 多目录配置3.2 DataNode 多目录配置3.3 集群数据均衡之磁盘间数据均衡4 HDFS—集群扩容及缩容4 ......

413

2022-11-08

Hadoop重点难点：Hadoop IO/压缩/序列化

Hadoop – IO输入文件从HDFS进行读取.输出文件会存入本地磁盘.Reducer和Mapper间的网络I/O,从Mapper节点得到Reducer的检索文件.使用Reducer实例从本地磁盘回读数据.Reducer输出- 回传到HDFS.序列化序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构 ......

364

2022-11-08

Hadoop重点难点：可靠性/Failover/Shuffle

HDFS – 可靠性HDFS 的可靠性主要有一下几点:冗余副本策略机架策略心跳机制安全模式效验和回收站元数据保护快照机制1.冗余副本策略可以在 hdfs-site.xml 中设置复制因子指定副本数量所有数据块都可副本DataNode 启动时,遍历本地文件系统,产生一份 HDFS 数据块和本地文件的对应关系列表 (blockreport) 汇报给 Nameno ......

379

2022-11-08

Hadoop重点难点：HDFS读写/NN/2NN/DN

Hadoop NameNode详解NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机，那么整个集群就瘫痪了。整个HDFS可存储的文件数受限于NameNode的内存大小。这个关键的元数据结构设计得很紧凑，因而一个有4G内存的Namenode就足够支撑大量的文件和目录。NameNode负责：文 ......

491

2022-11-08