大數據(big data)

大數據的分析來源稱作原始數據(Raw data)。因為科技所限制而忽略的資料,這類資料稱為暗資料(Dark data)。

大數據的4V特性

Volume(大量) 多到以TB為單位都不足為奇

Variety(多樣化) 各種項目及各種格式的檔案

Velocity(效率) ...

Veracity(真實性) ...

*可視化分析(Visibility Analysis)是最值觀的呈現大數據特點的方式。

工具

Apache Hadoop:多功能軟體程式庫架構,成本低、開放原始碼,適合入門。可在數台硬體上運行以擴大規模。以下是四個主要模組

     Hadoop Common:包括其他模組、共享的程式庫、和公用程式。
     Hadoop Distributed File System(HDFS):分散式檔案系統,會將資料檔案分
                                                             
後的每個小塊複製成
                                                             
3個副本(replica) 以容易存取的
                                                             
格式儲存。
    
Hadoop MapReduce:處理大量資料的程式設計模型,將多個大型資料集轉換 
                                  程一個方便管理的資料集。功能:運算處理(process)

     Hadoop YARN:管理資源分配和排程。

-------------------------------------------------------------------------------

Apache Hadoop3.0:不使用一式三份,而是使用糾刪碼(Erasure Coding),以帶
                           狀資料儲
存。內建Hbase資料庫執行於HDFS上

---------------------------------------------------------------

Apache Spark:能將資料加載至叢集記憶體內,並可多次對其進行查詢。和hadoop一樣都是當今市場上最出眾的分散式系統,兩者的 Apache 頂層專案也相似,並且經常一起使用。Hadoop 主要用於具有 MapReduce 模式的大量磁碟作業,而 Spark 則是一種更靈活但成本通常較高的記憶體內處理架構

Spark Core:通用的分散式資料處理引擎,供分散式工作分派、排程和基
                    本 I/O 功能。

Spark Core:處理結構化資料的 Spark 模組,方便使用同種方式存取各種資
                   料來源。這個模組讓您可以使用 SQL 或熟悉的 DataFrame API
                   在 Spark 程式中查詢結構化資料
 

 Spark Streaming:可以輕鬆建構可擴充的容錯串流解決方案。

MLlib: 可擴充的機器學習程式庫,並且提供工具讓實用的機器學習可以輕鬆
           擴充且容易使用。

 GraphX:用於圖形和圖形平行運算

*Sqoop支援關聯式資料庫與Hadoop之間的資料轉換  。

*Python 支援Apache Spark叢集運算框架。

* MongoDB是NoSQL
SQL/NoSQL是什麼?認識資料庫管理系統DBMS|ALPHA Camp Blog

這是以個人角度編寫的筆記,請從參考資料得知更多

「數據行銷」時代來臨:什麼是大數據?4V是什麼?如何應用大數據? (yahoo.com) 

什麼是大數據和 Hadoop:概述 (tableau.com)

 什麼是 Hadoop?  |  Google Cloud

 基於Hadoop的數倉Hive基礎知識. Hive是基於Hadoop的數倉工具,可對存儲在HDFS上的檔中的資料集進行資料… | by 數據分析那些事 | Medium

 

留言

這個網誌中的熱門文章

物聯網(Internet of Things)

直譯、編譯、組譯