大數(shù)據(jù)技術(shù)涉及數(shù)據(jù)量海量、多樣、高速、高價值的”4v原則”,其生態(tài)圈包括hdfs、mapreduce、yarn、hive、hbase等組件。數(shù)據(jù)挖掘算法包括關(guān)聯(lián)分析、聚類分析、分類算法和回歸分析。機器學(xué)習(xí)技術(shù)分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)。其他相關(guān)技術(shù)還包括流處理、nosql數(shù)據(jù)庫和數(shù)據(jù)可視化。
大數(shù)據(jù)技術(shù)口訣
一、4V原則
- Volume:海量數(shù)據(jù),數(shù)據(jù)量巨大
- Variety:多樣性數(shù)據(jù),多類型、多格式
- Velocity:高速數(shù)據(jù),實時生成和處理
- Value:高價值數(shù)據(jù),包含有用信息
二、hadoop生態(tài)圈
- hdfs:分布式文件系統(tǒng),存儲海量數(shù)據(jù)
- mapreduce:數(shù)據(jù)并行處理框架,分布式計算
- yarn:資源管理系統(tǒng),調(diào)度計算資源
- hive:數(shù)據(jù)倉庫框架,查詢和分析數(shù)據(jù)
- hbase:列式數(shù)據(jù)庫,適合非結(jié)構(gòu)化數(shù)據(jù)存儲
三、數(shù)據(jù)挖掘算法
- 關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系
- 聚類分析:將數(shù)據(jù)分為相似組
- 分類算法:根據(jù)輸入數(shù)據(jù)預(yù)測輸出類別
- 回歸分析:建立輸入變量和輸出變量之間的關(guān)系模型
四、機器學(xué)習(xí)技術(shù)
- 監(jiān)督學(xué)習(xí):利用標記數(shù)據(jù)訓(xùn)練模型,進行分類或回歸
- 無監(jiān)督學(xué)習(xí):利用未標記數(shù)據(jù)發(fā)現(xiàn)模式或結(jié)構(gòu)
- 深度學(xué)習(xí):使用神經(jīng)網(wǎng)絡(luò)進行復(fù)雜的數(shù)據(jù)分析
五、其他相關(guān)技術(shù)
- 流處理:處理實時生成的數(shù)據(jù)
- nosql數(shù)據(jù)庫:處理非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)
- 數(shù)據(jù)可視化:以圖形化方式展示數(shù)據(jù),方便分析和決策