找回密码
 注册
关于网站域名变更的通知
查看: 352|回复: 3
打印 上一主题 下一主题

[行为准则] 大数据平台开发规范

[复制链接]

该用户从未签到

跳转到指定楼层
1#
发表于 2021-9-28 10:26 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

EDA365欢迎您登录!

您需要 登录 才可以下载或查看,没有帐号?注册

x
一 数据开发规范
8 i& L) i. f$ a8 |命名标准$ x9 ~. x, `+ N. _
这个命名包含了表命名,项目命名,作业命名等,拿表名来说,一般都是按系统来为首,业务做次之,接着是表名,最后还加上一些备注信息,demo是 系统_业务_表名_备注,比如来自外部互联网的一条用于监控的每日更新的日志表HLW_JK_LOG_RT,不过具体命名以实际业务来定,唯一需要认真的就是无论是表,项目,还是作业资源这一类的命名都要统一一致,方便后续开发以及管理
- |$ q# V0 R5 }. X% M" a6 i& |- y1 ~4 P0 O# q0 I0 G$ I' Y
脚本规范  ?& |7 b! C' t: t
•脚本命名由阿拉伯数字(0~9)、字母(a~z、A~Z)、下划线(_)组成,并以字母开头,其中字母应全部为小写4 V8 ^( v4 p8 k
•{分区}_{功能简述},如:贴源区数据同步的shell脚本,ty_sjtb.sh;
3 [: p3 H  U) e. C0 r3 Q% B" u•需要有规范的脚本描述(头部)
) ]: B# ^( B* w/ q. C% o•需要有整齐的缩进格式
5 X; D) e5 e' M  v$ h3 C5 Q( @•脚本里面有详细的注释
3 b+ `1 }8 p; f举例说明
; h: w' t& X! E; w2 X8 t- I1 Z5 Y3 E+ n9 K3 B; f
#!/bin/bash- }$ f$ a: j9 z
################################################################################3 B- {% e: W4 T2 U0 Z
# SCRIPT_NAME     : xxxx_commit_combine.sh
( Y5 @* [0 Y( {* j+ `  {5 J5 E#
' I0 `8 h; U5 {0 Y2 i4 B# CREATE_TIME     : 2018/04/10
7 U9 `6 r! Z1 P. @% A' Y# AUTHOR          : Mochou_liqb
+ |6 B9 q) s! f#0 Q- N( {0 q0 T! e5 ]2 N
# DESCRIBETION    : get create_table_sql
5 t7 n% i- B' Q0 d# PARAMETER       : 1 baseConf, such as XX
5 k: c& u* z3 Q7 u0 v5 {# EXAMPLE         : ./xxxx_commit_combine.sh XX TABLE_NAME 20181212
$ k1 |2 Z3 q0 y+ J% K" i4 b# 3 f, S5 p9 S& J# W
# UPDATE_RECORD   : change comments from Chinese to English and kill some bugs
9 k" e, M9 @2 Q2 X$ z  H#
# R5 f8 F& _  l6 A7 b7 q2 C# DATE      OPERATION       CZR         DESCRIBETION                             
1 y$ q+ ]3 d3 U* a9 e# h$ |2 w7 U# ________  _____________   ________    __________________________________$ K; B4 ^! Q: C( ^0 w8 h; w
#! o" Z7 O7 N6 H( u1 G
# 2018/12/11  UPDATE Mochou_liqb  
! U7 J- c7 H8 Q% _################################################################################
& k3 {* t  j* I* Z1 \0 ]& j
: A' L* F1 I4 B! S2 I) K. ]
9 [3 |* p1 |: s, m& s- E目录规范
3 W2 K( A$ B; w8 B8 b) Z目录是广泛定义下的目录,包含作业,脚本,资源等,目录设置的要求需要按层级按分类逐级增加,理应有正文目录和备份目录,目录命名应简洁清晰统一,便于管理规范
& J) S9 c9 Q" B6 C& i6 A, W
7 o0 t' ~" k% u+ ~/ ]数据开发标准规范" M: D' M$ d; [: J+ s) d2 A
代码对照映射:根据业务整理规范得出,如果是该系统独有的代码表,则特殊处理进行标准' Z8 s" T; Y+ Q
非空字段处理:设置默认值.对于日期、字符类型数据项,暂不做处理,对于数值型字段设置为0
, B" d, Y# }* e! ]1 J' }代码引用字段:对于不能为空的代码字段实际值为空的代码引用字段,默认填写“;对于标准化映射,根据代码对照映射关系,                             查找到当前字段对应的标准代码表,根据原码值和标准码值的对应关系,用标准码值替换原码值
; O( c# u4 J5 E2 \( e) X日期时间字段:对于字段只需具体到天,其他统一各系统日期/时间字段的格式,在源库找出所有时间字段DATE,TIMESTAMP,
) g0 R$ e) |. n& E9 }                         式为'YAN-MM-DDHH:MISS,对于不符合格式的字段,使用日期时间函数转换1 o. M  x) a5 G& W
数值数目字段:统一各系统数字格式,对于金額类型的数据,统一格式为保两位小数;对于利率类统一用小数表示1 M7 b; T" K" y  S
+ x6 e, D5 g/ t6 A& n& d
二 平台标准规范
& A, B4 l: S' Z平台规范主要包含
& d+ I" B, H: Z2 J8 m8 o; g! t( ^% c$ c0 s+ j
数据类型规范:主要是平台与数据库之间的数据类型映射规范,这个按照每个数据库系统实际规范来规范
. L( n* S' x4 p& _+ c实体命名规范:项目,表,文件夹,资源等,参考前面介绍- Z# x- z" r$ Z- [; {$ B
作业调度规范:规范和控制作业之间前后依赖关系,从而保证数据按照设计流程进行准确加工;通过虚拟节点进行分级分类,方便作业控制与管理;虚拟节点命名规则:xnjd_etl_{虚拟节点类型};物理节点命名规则:参考数据层命名规范中的作业命名规范;
) V6 ]& w. }4 j( v2 ^* O权限管理规范:权限严格控制,开发,生产项目权限保持界限+ _: v4 F! q5 X" U; J& a
三 流计算规范' @# ~) ^1 M* P/ _
流计算由于其数据应用的特殊性,是不走大数据平台的而是有自己的一套采集,规范,开发,应用的流程,这一套流程分别对应不同的工具,平台和数据库,由于各大云平台和云生态,其架构不完全统一,故这方面的规范可实际参考前两者,逐一标准+ r3 {+ r9 y5 h
- y$ k# N: ?1 h: t0 w- F
四 运维规范
- q7 f. C( _' \9 L" K) `实施运维
$ O9 F/ k' M) v  v( G) b% w: r! _6 l
, I/ b  I. _$ @4 n* c! Q建立运维机制,每天定时检测平台流程,包括大数据平台,数据库,流计算等并输出运维文档每日提交- ?: N  q" |7 _! V7 e) n
新增数据源依据需求在业务低峰期添加,尽量选择新增作业,做到不影响其他作业运行2 U& {+ I1 C5 Z  |
流程出现问题及时实施处理,总结汇报,评估代价,并告知下游% g/ b# c( n, n4 L. [

8 o! ]0 `9 X/ X( b; d) E+ k
- d0 d) m# Z: R4 x

该用户从未签到

2#
发表于 2021-9-28 11:19 | 只看该作者
数据类型规范,主要是平台与数据库之间的数据类型映射规范,这个按照每个数据库系统实际规范来规范
  • TA的每日心情
    开心
    2025-6-19 15:08
  • 签到天数: 1110 天

    [LV.10]以坛为家III

    3#
    发表于 2021-9-28 12:41 | 只看该作者
    不错不错,内容写的很有深度和专业,内容全面丰富

    该用户从未签到

    4#
    发表于 2021-9-28 16:45 | 只看该作者
    非空字段处理,设置默认值.对于日期、字符类型数据项,暂不做处理,对于数值型字段设置为0
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    关闭

    推荐内容上一条 /1 下一条

    EDA365公众号

    关于我们|手机版|EDA365电子论坛网 ( 粤ICP备18020198号-1 )

    GMT+8, 2025-6-20 01:02 , Processed in 0.062500 second(s), 23 queries , Gzip On.

    深圳市墨知创新科技有限公司

    地址:深圳市南山区科技生态园2栋A座805 电话:19926409050

    快速回复 返回顶部 返回列表