大数据实时并行处理
上面我们讲了 大数据的数据查询方法 ,使用Hive或者 Impala,但是这些只能查询固定历史的数据,如果要实时计算可能就不是那么合适了。
那如何进行实时并行处理数据呢?
这就是我们今天要说的技术点:
Step 5:有了计算能力之后,如何进行高并发的实时计算?
我们现在有了强大的以mapReduce为基础的海量数据计算能力,但是spark这种计算引擎通常都是适用于计算某天某月的批量数据,那每分每秒都需要计算的数据怎么办呢?也就是如何在高实时性要求的场景下如何进行计算呢?这个时候流式计算的概念就出来了,我们把实时数据看成数据流(stream),并按照一定的时间维度对数据流进行分割,并对每一部分的数据进行MapReduce的计算。例如现在某电视剧在多个平台上线,需要统计该电视剧实时的播放量,因此需要聚合多个来源的数据。
这个时候就可以用到例如Flink,Spark Streaming这种流式计算引擎,你可以设置一秒钟为一个分割维度,每次用MapReduce统计这一秒钟的数据,并存储起来或者直接发到前端图表去展示。流式计算引擎擅长的就是这个,你当然也可以用Hadoop,Spark去做这件事情,但是你需要自己设置分割维度,并在资源分配等问题上做设计,而这些问题Flink都帮你解决了。
1. Flink
1)简介
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。
Flink能够分布式运行在上千个节点上,将一个大型计算任务的流程拆解成小的计算过程,然后将tesk分布到并行节点上进行处理,在执行任务过程中,能够自动发现事件处理过程中的错误而导致数据不一致的问题。
最后附一张大数据图谱:
大数据图谱
讲到这里大数据的介绍部分也基本说清楚了。
腾讯云这里也有一个大杀器:
腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是基于腾讯多年海量数据处理经验,对外提供的可靠、安全、易用的大数据处理平台。您可以借助 TBDS 在公有云、私有云、非云化环境,根据不同数据处理需求选择合适的大数据分析引擎和相应的实时数据开发、离线数据开发以及算法开发服务,来构建您的数据仓库、用户画像、精准推荐、风险管控等大数据应用服务。
腾讯大数据处理套件 ,现在也是在试用阶段,大家可以申请使用了。
还有大数据开发平台:
数据开发平台 WeData
数据开发平台 WeData(以下简称 WeData)是位于云端的一站式数据协作开发平台,提供了即席分析、工作流协同编排、数据资产管理和数据治理等全链路数据加工能力,帮助数据工程师高效构建企业级数据中台架构, 助力企业用数据驱动业务增长。
链接: https://cloud.tencent.com/product/wedata