大數(shù)據(jù)平臺(tái)建設(shè)培訓(xùn)大綱
大數(shù)據(jù)發(fā)展歷程及主流技術(shù)棧構(gòu)成
1. 為什么會(huì)出現(xiàn)大數(shù)據(jù),大數(shù)據(jù)的演進(jìn)過(guò)程是怎么樣的
2. 商業(yè)智能BI、數(shù)據(jù)倉(cāng)庫(kù)DW、數(shù)據(jù)湖DL、數(shù)據(jù)中臺(tái)的原理、區(qū)別和核心職能
3. 支撐大數(shù)據(jù)平臺(tái)的主流框架技術(shù)介紹:Spark、Flink、HDFS、HBase、Hive、Kylin、Presto、Kafka、ClickHouse 等
整體大數(shù)據(jù)平臺(tái)核心板塊構(gòu)成及架構(gòu)設(shè)計(jì)
1. 整體大數(shù)據(jù)處理鏈路介紹及每個(gè)環(huán)節(jié)的技術(shù)選型方案
2. 五大核心板塊介紹:數(shù)據(jù)接入處理(收集、接收、解析、標(biāo)準(zhǔn)化 等)、數(shù)據(jù)治理與管理(安全脫敏、ID-Mapping血緣圖譜、主體式數(shù)據(jù)倉(cāng)庫(kù) 等)、數(shù)據(jù)消費(fèi)提取(批量、實(shí)時(shí)、T+1、API 等)、數(shù)據(jù)鏈路跟蹤(數(shù)據(jù)回溯、中間狀態(tài)追蹤、數(shù)據(jù)服務(wù)保障 等)、數(shù)據(jù)工具支撐(可視化建模、任務(wù)調(diào)度、數(shù)據(jù)搬遷 等)
3. 整體大數(shù)據(jù)架構(gòu)設(shè)計(jì)介紹:技術(shù)架構(gòu)、存儲(chǔ)與計(jì)算架構(gòu)、部署架構(gòu)、容災(zāi)架構(gòu),實(shí)時(shí)流計(jì)算,離線存儲(chǔ)的核心本質(zhì),如何監(jiān)測(cè)實(shí)時(shí)流處理過(guò)程中的問(wèn)題回溯
4. HDFS、HBase、Hive、Kylin、Spark Streaming/SQL、Flink的底層核心原理及適用業(yè)務(wù)場(chǎng)景(結(jié)合實(shí)際工程代碼方式講解)
大型分布式數(shù)據(jù)倉(cāng)庫(kù)建模思路與實(shí)踐
1. 軟件系統(tǒng)建模方法:(結(jié)構(gòu)型)類圖、對(duì)象圖、構(gòu)件圖、部署圖、包圖;(行為型)動(dòng)圖、狀態(tài)機(jī)圖、順序圖、通信圖、用例圖、時(shí)間圖
2. 常用數(shù)據(jù)建模方法:實(shí)體建模法、維度建模法、范式建模法(結(jié)合案例講解)
3. 基于中臺(tái)思想,數(shù)據(jù)分層的主體思路與重要性介紹
4. 基于分布式數(shù)據(jù)倉(cāng)庫(kù),針對(duì)數(shù)據(jù)的采集、處理、建模的佳實(shí)踐介紹
5. 數(shù)據(jù)倉(cāng)庫(kù)建設(shè)方法論,星型模型(非關(guān)系型DB存儲(chǔ),以空間換時(shí)間)和雪花模型(關(guān)系型DB存儲(chǔ),以時(shí)間還空間)兩種建模思想的核心差異和適用場(chǎng)景
數(shù)據(jù)建模與處理行業(yè)案例分析(思路、方法、技術(shù)選型)
1. 基于事件驅(qū)動(dòng)U-E建模,結(jié)合業(yè)務(wù)分拆數(shù)據(jù)處理粒度、維度、范圍、邊界,如:主題式抽取,數(shù)據(jù)標(biāo)簽化定義 等
2. 結(jié)合業(yè)務(wù)講解E-R模型構(gòu)建,動(dòng)態(tài)、靜態(tài)屬性識(shí)別,數(shù)據(jù)客觀事實(shí)關(guān)系識(shí)別與定義
3. 基于車聯(lián)網(wǎng)領(lǐng)域秒級(jí)、毫秒級(jí)數(shù)據(jù)上報(bào)如何接收與處理
4. 如何解決數(shù)據(jù)擠壓?jiǎn)栴},有哪些成熟的方法和技術(shù)手段
5. 數(shù)據(jù)接入云端后,如何防丟失,如何做削峰處理,如何保障后續(xù)服務(wù)健康運(yùn)行
6. 案例分析:數(shù)據(jù)接收、解析、建模、存儲(chǔ)、計(jì)算、提取全流程中行業(yè) |