EDA365电子论坛网
标题:
大数据平台的搭建都还很模糊想找人讲讲???
[打印本页]
作者:
happyday
时间:
2021-9-1 09:56
标题:
大数据平台的搭建都还很模糊想找人讲讲???
大数据平台的搭建都还很模糊想找人讲讲,很多细节自己好像注意不到
9 G& A( G4 g& o& w8 m3 o
作者:
ExxNEN
时间:
2021-9-1 11:06
期待有人给你讲,我顺便沾个光
作者:
dapmood
时间:
2021-9-1 11:07
大数据平台的搭建步骤:
7 z$ i: `! U( U1 E, O
* d" s. U" H4 [$ N: x& j
1、linux系统安装
" h+ D$ ~. r& l% o! U, D
一般使用开源版的Redhat系统--CentOS作为底层平台。为了提供稳定的硬件基础,在给硬盘做RAID和挂载数据存储节点的时,需要按情况配置。
( R8 r3 \. H: l' q# C" g
2、分布式计算平台/组件安装
5 V0 o5 m& W g. t i) D v( J
国内外的分布式系统的大多使用的是Hadoop系列开源系统。Hadoop的核心是HDFS,一个分布式的文件系统。在其基础上常用的组件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等
4 S, G" ^; ]5 u7 ]9 ]7 l# g4 e5 g
使用开源组件的优点:1)使用者众多,很多bug可以在网上找的答案(这往往是开发中最耗时的地方)。2)开源组件一般免费,学习和维护相对方便。3)开源组件一般会持续更新,提供必要的更新服务『当然还需要手动做更新操作』。4)因为代码开源,若出bug可自由对源码作修改维护。
, o" K) P6 J3 a3 \
3、数据导入
# i$ k7 Y9 _2 i Z3 x5 k
数据导入的工具是Sqoop。用它可以将数据从文件或者传统数据库导入到分布式平台『一般主要导入到Hive,也可将数据导入到Hbase』。
6 I' e- t8 x2 H0 l$ _* K3 m/ s+ k9 P
4、数据分析
r) x5 S. `* ~% b
数据分析一般包括两个阶段:数据预处理和数据建模分析。
9 H- d3 Y& ?; W3 f
数据预处理是为后面的建模分析做准备,主要工作时从海量数据中提取可用特征,建立大宽表。这个过程可能会用到Hive SQL,Spark QL和Impala。
; n& u& B1 Y/ ?) W( U' ^
数据建模分析是针对预处理提取的特征/数据建模,得到想要的结果。这一块最好用的是Spark。常用的机器学习算法,如朴素贝叶斯、逻辑回归、决策树、神经网络、TFIDF、协同过滤等,都已经在ML lib里面,调用比较方便。
* w1 f- t9 T+ V2 I; m9 ~5 N E: w; l
5、结果可视化及输出API
( z1 l, A, N# ]7 m
可视化一般式对结果或部分原始数据做展示。一般有两种情况,行数据展示,和列查找展示。要基于大数据平台做展示,会需要用到ElasticSearch和Hbase。Hbase提供快速『ms级别』的行查找。 ElasticSearch可以实现列索引,提供快速列查找。
作者:
SsaaM7
时间:
2021-9-1 11:09
大数据是个很笼统的概念,是对数据进行分析将其可视化
欢迎光临 EDA365电子论坛网 (https://bbs.eda365.com/)
Powered by Discuz! X3.2