大數據(big data)

8月 02, 2021

大數據的分析來源稱作原始數據(Raw data)。因為科技所限制而忽略的資料，這類資料稱為暗資料(Dark data)。

大數據的4V特性

Volume(大量) 多到以TB為單位都不足為奇

Variety(多樣化) 各種項目及各種格式的檔案

Velocity(效率) ...

Veracity(真實性) ...

*可視化分析(Visibility Analysis)是最值觀的呈現大數據特點的方式。

工具

Apache Hadoop:多功能軟體程式庫架構，成本低、開放原始碼，適合入門。可在數台硬體上運行以擴大規模。以下是四個主要模組

     Hadoop Common:包括其他模組、共享的程式庫、和公用程式。
     Hadoop Distributed File System(HDFS):分散式檔案系統，會將資料檔案分
                                                              割後的每個小塊複製成
                                                              3個副本(replica)，以容易存取的
                                                              格式儲存。
     Hadoop MapReduce:處理大量資料的程式設計模型，將多個大型資料集轉換
                                  程一個方便管理的資料集。功能:運算處理(process)
     Hadoop YARN:管理資源分配和排程。

-------------------------------------------------------------------------------

Apache Hadoop3.0:不使用一式三份，而是使用糾刪碼(Erasure Coding)，以帶
狀資料儲存。內建Hbase資料庫，執行於HDFS上。

---------------------------------------------------------------

Apache Spark:能將資料加載至叢集記憶體內，並可多次對其進行查詢。和hadoop一樣都是當今市場上最出眾的分散式系統，兩者的 Apache 頂層專案也相似，並且經常一起使用。Hadoop 主要用於具有 MapReduce 模式的大量磁碟作業，而 Spark 則是一種更靈活但成本通常較高的記憶體內處理架構。

Spark Core:通用的分散式資料處理引擎，供分散式工作分派、排程和基
本 I/O 功能。

Spark Core:處理結構化資料的 Spark 模組，方便使用同種方式存取各種資
料來源。這個模組讓您可以使用 SQL 或熟悉的 DataFrame API
在 Spark 程式中查詢結構化資料。

Spark Streaming:可以輕鬆建構可擴充的容錯串流解決方案。

MLlib: 可擴充的機器學習程式庫，並且提供工具讓實用的機器學習可以輕鬆
擴充且容易使用。

GraphX:用於圖形和圖形平行運算。