• 數據湖

    編輯
    本詞條由“匿名用戶” 建檔。

    目錄

    數據湖

    編輯

    數據湖是以自然/原始格式存儲的數據系統或存儲庫,通常是對象 blob 或文件。 數據湖通常是單一數據存儲,包括源系統數據、傳感器數據、社交數據等的原始副本,以及用于報告、可視化高級分析和機器學習等任務的轉換數據。 數據湖可以包括來自關系數據庫(行和列)的結構化數據、半結構化數據(CSV、日志、XML、JSON)、非結構化數據(電子郵件、文檔、PDF)和二進制數據(圖像、音頻、視頻)。 可以在本地(在組織的數據中心內)或在云中(使用亞馬遜、微軟谷歌等供應商的云服務)建立數據湖。

    管理不善的數據湖被戲稱為數據沼澤。

    背景

    編輯

    Pentaho 時任首席技術官的 James Dixon 在 2011 年創造了這個詞,以將其與數據集市進行對比,數據集市是從原始數據中提取的有趣屬性的較小存儲庫。 在推廣數據湖時,他認為數據集市有幾個固有的問題,例如信息孤島。 普華永道 (PwC) 表示,數據湖可以終結數據孤島。 在他們對數據湖的研究中,他們注意到企業開始提取數據并將其放入一個基于 Hadoop 的存儲庫中進行分析。

    到 2016 年,Hortonworks、谷歌、甲骨文、微軟、Zaloni、Teradata、Impetus Technologies、Cloudera、MongoDB 和 Amazon Web Services 都使用了這個術語。

    例子

    編輯

    許多公司使用 Google Cloud Storage 和 Amazon S3 等云存儲服務或 Apache Hadoop 分布式文件系統 (HDFS) 等分布式文件系統。 學術界對數據湖的概念逐漸產生了興趣。 例如,卡迪夫大學的 Personal DataLake 是一種新型數據湖,旨在通過提供收集、組織和共享個人數據的單一點來管理個人用戶大數據

    早期的數據湖 (Hadoop 1.0) 的面向批處理的處理 (Map Reduce) 功能有限,并且是唯一與之關聯的處理范式。 與數據湖交互意味著必須具備 Java 方面的專業知識,使用 map reduce 和更高級別的工具,如 Apache Pig、Apache Spark 和 Apache Hive(它們本身最初是面向批處理的)。

    批評

    編輯

    2015 年 6 月,David Needle 將所謂的數據湖描述為最具爭議的大數據管理方式之一。 普華永道在他們的研究中也謹慎地指出,并非所有數據湖計劃都是成功的。 他們引用了 Cambridge Semantics 的 CTO Sean Martin 的話:

    我們看到客戶創建了大數據墓地,將所有內容都轉儲到 Hadoop 分布式文件系統 (HDFS) 中,并希望在未來用它做點什么。 但隨后他們就忘記了那里有什么。 主要挑戰不是創建數據湖,而是利用它提供的機會。

    他們將構建成功數據湖的公司描述為隨著他們弄清楚哪些數據和元數據對組織很重要而逐漸成熟他們的湖。

    數據湖

    另一個批評是數據湖這個術語沒有用,因為它有很多不同的使用方式。 例如,它可以用來指代:任何不是數據倉庫的工具或數據管理實踐; 用于實施的特定技術; 原始數據儲存庫; ETL 卸載中心; 或自助服務分析的中心樞紐。

    雖然對數據湖的批評是有道理的,但在許多情況下,它們也適用于其他數據項目。 例如,“數據倉庫”的定義也是多變的,并不是所有的數據倉庫努力都取得了成功。 在回應各種批評時,麥肯錫指出,數據湖應被視為在企業內提供業務價值的服務模型,而不是技術成果。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/249390/

    (5)
    詞條目錄
    1. 數據湖
    2. 背景
    3. 例子
    4. 批評

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久