大数据 - 乐耶园

python数据分析——大数据伦理风险分析

前言大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用，企业、政府以及个人都在不断地产生、收集和分析海量数据。然而，这些数据的利用也带来了诸多伦理风险，如隐私泄露、数据滥用、算法偏见等。因此，对大数据伦理风险进行深入分析，并采取相应的防范措施，对于保障数据安全、维护社会公平正义具有重要意义。首先，大数据的收集和处理过程中存在 ......

267

2024-07-01

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四）

Hadoop学习：深入解析MapReduce的大数据魔力之数据压缩（四）4.1 概述1）压缩的好处和坏处压缩的优点：以减少磁盘IO、减少磁盘存储空间。压缩的缺点：增加CPU开销。2）压缩原则（1）运算密集型的Job，少用压缩（2）IO密集型的Job，多用压缩4.2 MR 支持的压缩编码1）压缩算法对比介绍2）压缩性能的比较4.3 压缩方式选择压缩方式选择 ......

381

2024-05-25

Hadoop学习：深入解析MapReduce的大数据魔力（三）

Hadoop学习：深入解析MapReduce的大数据魔力（三）3.5 MapReduce 内核源码解析3.5.1 MapTask 工作机制（1）Read阶段：MapTask通过InputFormat获得的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写 ......

406

2024-05-25

Hadoop学习：深入解析MapReduce的大数据魔力（二）

Hadoop学习：深入解析MapReduce的大数据魔力（二）3.3 Shuffle 机制3.3.1 Shuffle 机制Map 方法之后，Reduce方法之前的数据处理过程称之为Shuffle。3.3.2 Partition 分区1、问题引出要求将统计结果按照条件输出到不同文件中（分区）。比如：将统计结果按照手机归属地不同省份输出到不同文件中（分区） ......

408

2024-05-25

Hadoop学习：深入解析MapReduce的大数据魔力（一）

Hadoop学习：深入解析MapReduce的大数据魔力（一）前言在大数据时代，高效地处理海量数据成为了各行各业的迫切需求。Hadoop作为一种重要的大数据处理框架，其核心概念之一就是MapReduce。今天开始将深入了解MapReduce，探索其在大数据处理中的重要作用。1.MapReduce概述1.1MapReduce 定义MapReduce 是一个分布 ......

392

2024-05-25

Hadoop学习指南：探索大数据时代的重要组成——HDFS(下)

Hadoop学习指南：探索大数据时代的重要组成——HDFS（下）HDFS的读写流程（面试重点）HDFS 写数据流程1.1 剖析文件写入（1）客户端通过Distributed FileSystem 模块向NameNode 请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。（2）NameNode返回是否可以上传。（3）客户端请求第一个 B ......

369

2024-05-25

Hadoop学习指南：探索大数据时代的重要组成——HDFS(上)

HDFSHDFS概述1.1 HDFS 产出背景及定义1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2）HDFS定义HDFS（Hadoop Distributed Fi ......

351

2024-05-25

Hadoop学习指南：探索大数据时代的重要组成——Hadoop运行模式(下）

Hadoop运行模式(下）前言接着上篇，我们继续学习Hadoop运行模式。2.6 配置历史服务器为了查看程序的历史运行情况，需要配置一下历史服务器。具体配置步骤如下：1）配置mapred-site.xml[atguigu@hadoop102 hadoop]$ vim mapred-site.xml 在该文件里面增加如下配置。<!-- 历史服务器端地 ......

339

2024-05-25

Hadoop学习指南：探索大数据时代的重要组成——Hadoop运行模式(上）

Hadoop运行模式前言今天我们具体来介绍一下Hadoop的运行模式具体内容移步正文。Hadoop运行模式1）Hadoop 官方网站：http://hadoop.apache.org/ 2）Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。 ➢ 本地模式：单机运行，只是用来演示一下官方案例。==生产环境不用。 == ➢ 伪分布式模式：也是 ......

350

2024-05-25

Hadoop学习指南：探索大数据时代的重要组成——运行环境搭建

Hadoop运行环境搭建（开发重点）模板虚拟机环境准备数据来源层安装模板虚拟机，IP地址192.168.10.100、主机名称hadoop100、内存4G、硬盘50Ghadoop100 虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root ......

256

2024-05-25

Hadoop大数据初学者指南

思维导图导语Hadoop是一个开源框架，允许在分布式环境中使用简单的编程模型来存储和处理大数据，跨计算机集群。它被设计成可以从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。Big Data概述大数据中的数据分为三种类型结构化数据：关系型数据。半结构化数据：XML数据。非结构化数据：Word、PDF、文本和媒体日志。研究处理大数据的技术时将考虑以下 ......

300

2024-01-07

大数据开源框架技术汇总

主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考得太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。系统平台 Hadoop ：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。 Hadoop最早起源于Nutch，N ......

334

2023-12-18

你必须要掌握的大数据计算技术，都在这了

01离线批处理这里所说的批处理指的是大数据离线分布式批处理技术，专用于应对那些一次计算需要输入大量历史数据，并且对实时性要求不高的场景。目前常用的开源批处理组件有 MapReduce 和 Spark ，两者都是基于MapReduce计算模型的。 1.MapReduce计算模型 MapReduce是 Google 提出的分布式计算模型，分为Map ......

260

2023-12-14

大数据Hadoop是如何存储数据的

HDFS 概述产生背景随着数据量越来越大，在一个操作系统中存不下所有的数据。需要将这些数据分配到更多的操作系统中，带来的问题是多操作系统不方便管理和维护。需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。 HDFS是分布式文件管理系统中的一种定义 HDFS（ hadoop Distributed File System）它是一个文件 ......

392

2023-12-12

大数据 | Java 操作 HDFS 常用 API

一、回顾常用的命令在上篇文章中整理了 HDFS 常用的命令，这里进行简单的回顾。 ls 命令用来查看 HDFS 系统中的目录和文件，命令如下： $ hadoop fs -ls / put 命令用来将本地文件上传到 hdfs 系统中，命令如下： $ hadoop fs -put test.txt / moveFro ......

359

2023-08-27