大數據(big data)
大數據的分析來源稱作原始數據(Raw data)。因為科技所限制而忽略的資料,這類資料稱為暗資料(Dark data)。
大數據的4V特性
Volume(大量) 多到以TB為單位都不足為奇
Variety(多樣化) 各種項目及各種格式的檔案
Velocity(效率) ...
Veracity(真實性) ...
*可視化分析(Visibility Analysis)是最值觀的呈現大數據特點的方式。
工具
Apache Hadoop:多功能軟體程式庫架構,成本低、開放原始碼,適合入門。可在數台硬體上運行以擴大規模。以下是四個主要模組
Hadoop Common:包括其他模組、共享的程式庫、和公用程式。
Hadoop Distributed File System(HDFS):分散式檔案系統,會將資料檔案分
割後的每個小塊複製成
3個副本(replica), 以容易存取的
格式儲存。
Hadoop MapReduce:處理大量資料的程式設計模型,將多個大型資料集轉換
程一個方便管理的資料集。功能:運算處理(process)
Hadoop YARN:管理資源分配和排程。
-------------------------------------------------------------------------------
Apache Hadoop3.0:不使用一式三份,而是使用糾刪碼(Erasure Coding),以帶
狀資料儲存。內建Hbase資料庫,執行於HDFS上。
---------------------------------------------------------------
Apache Spark:能將資料加載至叢集記憶體內,並可多次對其進行查詢。和hadoop一樣都是當今市場上最出眾的分散式系統,兩者的 Apache 頂層專案也相似,並且經常一起使用。Hadoop 主要用於具有 MapReduce 模式的大量磁碟作業,而 Spark 則是一種更靈活但成本通常較高的記憶體內處理架構。
Spark Core:通用的分散式資料處理引擎,供分散式工作分派、排程和基
本 I/O 功能。
Spark Core:處理結構化資料的 Spark 模組,方便使用同種方式存取各種資
料來源。這個模組讓您可以使用 SQL 或熟悉的 DataFrame API
在 Spark 程式中查詢結構化資料。
Spark Streaming:可以輕鬆建構可擴充的容錯串流解決方案。
MLlib: 可擴充的機器學習程式庫,並且提供工具讓實用的機器學習可以輕鬆
擴充且容易使用。
GraphX:用於圖形和圖形平行運算 。
*Sqoop支援關聯式資料庫與Hadoop之間的資料轉換 。
*Python 支援Apache Spark叢集運算框架。
* MongoDB是NoSQL
SQL/NoSQL是什麼?認識資料庫管理系統DBMS|ALPHA Camp Blog
這是以個人角度編寫的筆記,請從參考資料得知更多
「數據行銷」時代來臨:什麼是大數據?4V是什麼?如何應用大數據? (yahoo.com)
什麼是大數據和 Hadoop:概述 (tableau.com)
基於Hadoop的數倉Hive基礎知識. Hive是基於Hadoop的數倉工具,可對存儲在HDFS上的檔中的資料集進行資料… | by 數據分析那些事 | Medium
留言