1. <rt id="zqleh"><optgroup id="zqleh"></optgroup></rt>
          <cite id="zqleh"><noscript id="zqleh"></noscript></cite>

          <tt id="zqleh"><noscript id="zqleh"></noscript></tt>
          首頁 > 大數據 > 正文

          分析:亞馬遜如何通過數據湖解決大數據挑戰?

          2020-02-25 17:13:19  來源:siliconANGLE

          摘要:數據湖是一個集中式安全存儲庫,可讓您以任何規模存儲,管理,發現和共享所有結構化和非結構化數據。數據湖不需要預定義的架構,因此您可以處理原始數據,而不必知道將來可能要探索的洞察力。
          關鍵詞: 亞馬遜 大數據
            杰夫·貝佐斯(Jeff Bezos)往車庫里下訂單并親自開車去郵局時,處理成本數字,跟蹤庫存和預測未來需求相對簡單。快進25年了,亞馬遜的零售業務在全球擁有175 多個配送中心,超過25萬名全職員工每天運送數百萬件商品。
           
            亞馬遜全球財務運營團隊的任務非常艱巨,即跟蹤所有數據(以PB為單位)。 在亞馬遜的規模上,錯誤計算的指標(例如單位成本或數據延遲)可能會產生巨大影響(請考慮數百萬美元)。團隊一直在尋找更快地獲取更準確數據的方法。
           
            這就是為什么他們在2019年有一個主意:建立一個可以支撐地球上最大的物流網絡之一的數據湖。后來它在內部被稱為Galaxy數據湖。Galaxy數據湖建于2019年,現在所有各個團隊都在努力將數據移入其中。
           
            數據湖是一個集中式安全存儲庫,可讓您以任何規模存儲,管理,發現和共享所有結構化和非結構化數據。數據湖不需要預定義的架構,因此您可以處理原始數據,而不必知道將來可能要探索的洞察力。下圖顯示了數據湖的關鍵組件:

          \
          數據湖的關鍵組件
           
            大數據的挑戰
           
            亞馬遜面對大數據的挑戰與許多其他公司面臨的挑戰相似:數據孤島,分析各種數據集的難度,數據控制器能力,數據安全性以及整合機器學習。讓我們仔細研究這些挑戰,看看數據湖如何幫助解決它們。
           
            打破數據孤島
           
            公司選擇創建數據湖的主要原因是要打破數據孤島。在不同地方擁有由不同組控制的數據包,本質上會掩蓋數據。當公司快速發展和/或收購新業務時,通常會發生這種情況。就亞馬遜而言,兩者都是。
           
            為了在國際上擴張并迅速創建新的運輸計劃(例如,免費當日交付或Amazon Fresh),大多數運營計劃團隊一直在控制自己的數據和技術。結果,數據以不同的方式存儲在不同的位置。這種方法使每個團隊都能解決問題,響應客戶需求并更快地進行創新。
           
            但是,很難在組織和公司范圍內理解數據。它需要從許多不同來源手動收集數據。如此眾多的團隊獨立運作,我們失去了可以通過共同解決問題而獲得的效率。
           
            從數據中獲取詳細細節也是困難的,因為不是每個人都可以訪問各種數據存儲庫。對于較小的查詢,您可以在電子表格中共享一部分數據。但是,當數據超出電子表格的容量時,挑戰就出現了,這通常發生在大型公司中。在某些情況下,您可以共享較高級別的數據摘要,但實際上并沒有獲得完整的圖像。
           
            數據湖通過將所有數據合并到一個中央位置來解決此問題。團隊可以繼續充當敏捷單位,但是所有道路都通向數據湖進行分析。沒有更多的筒倉。
           
            分析各種數據集
           
            使用不同的系統和方法進行數據管理的另一個挑戰是數據結構和信息各不相同。例如,Amazon Prime擁有配送中心和包裝商品的數據,而Amazon Fresh則有雜貨店和食品的數據。
           
            甚至國際運輸計劃也有所不同。例如,不同的國家有時會有不同的盒子尺寸和形狀。來自“物聯網”設備(例如,配送中心機器上的傳感器)的非結構化數據也越來越多。
           
            而且,不同的系統可能也具有相同類型的信息,但是其標簽不同。 例如,在歐洲,使用的術語是“每單位成本”,而在北美,使用的術語是“每包裝成本”。這兩個術語的日期格式不同。在這種情況下,需要在兩個標簽之間建立鏈接,以便分析數據的人知道它指的是同一件事。
           
            如果要在沒有數據湖的傳統數據倉庫中合并所有這些數據,則需要大量數據準備以及導出,轉換和加載或ETL操作。您將不得不權衡要保留的內容和丟失的內容,并不斷更改剛性系統的結構。
           
            數據湖可讓您以任何格式導入任何數量的數據,因為沒有預定義的架構。您甚至可以實時攝取數據。您可以從多個來源收集數據,并將其以原始格式移入數據湖。您還可以在信息之間建立鏈接,這些信息可能被標記為不同但代表同一件事。
           
            將所有數據移至數據湖還可以改善傳統數據倉庫的功能。您可以靈活地將高度結構化,經常訪問的數據存儲在數據倉庫中,同時還可以在數據湖存儲中保留多達EB的結構化,半結構化和非結構化數據。
           
            管理數據訪問
           
            由于數據存儲在這么多位置,因此很難訪問所有數據并鏈接到外部工具進行分析。亞馬遜的運營財務數據分布在25多個數據庫中,區域團隊創建了自己的本地數據集版本。對于某些人來說,這意味著超過25個訪問管理憑據。許多數據庫都需要訪問管理支持來執行諸如更改配置文件或重置密碼之類的操作。此外,必須對每個數據庫進行審核和控制,以確保沒有人有不當訪問權限。
           
            借助數據湖,可以在合適的時間將合適的數據提供給合適的人變得更加容易。不必管理對存儲數據的所有不同位置的訪問,您只需要擔心一組憑據。數據湖具有允許授權用戶查看,訪問,處理或修改特定資產的控件。數據湖有助于確保阻止未經授權的用戶采取可能損害數據機密性和安全性的措施。
           
            數據也以開放格式存儲,這使得使用不同的分析服務更加容易。開放格式還使數據更有可能與尚不存在的工具兼容。您組織中的各種角色,例如數據科學家,數據工程師,應用程序開發人員和業務分析師,都可以使用他們選擇的分析工具和框架來訪問數據。
           
            簡而言之,您不必局限于一小組工具,而更多的人可以理解數據。
           
            加速機器學習
           
            數據湖是機器學習和人工智能的強大基礎),因為它們在大型,多樣化的數據集上蓬勃發展。機器學習使用從現有數據中學習的統計算法(稱為訓練的過程)來做出有關新數據的決策(稱為推理的過程)。
           
            在訓練期間,將識別數據中的模式和關系以建立模型。該模型使您能夠對從未遇到過的數據做出明智的決策。您擁有的數據越多,就越能訓練您的機器學習模型,從而提高準確性。
           
            亞馬遜全球運營財務團隊的最大職責之一是計劃和預測亞馬遜供應鏈的運營成本和資本支出,其中包括整個運輸網絡,數百個配送中心,分揀中心,配送站,全食超市,新鮮采摘場。上升點等等。
           
            他們幫助回答重要的高級問題,例如“明年我們將運送多少包裹?” 和“我們將在薪金上花費多少?” 他們還解決非常具體的問題,例如“下個月我們在佛羅里達州坦帕市需要多少個不同大小的盒子?”
           
            您的預測越準確,效果越好。如果您估計太低或太高,都可能產生負面影響,從而影響您的客戶和利潤。
           
            例如,在亞馬遜,如果我們預測需求太低,則配送中心的倉庫工人可能沒有足夠的供應或驅動程序不足,這可能導致包裹延遲,更多的客戶服務電話,訂單被取消以及失去客戶信任。如果我們預測過高,您可能會有庫存和箱子圍著倉庫占用寶貴的空間。這種情況意味著對需求量更高的產品的空間較小。
           
            像亞馬遜這樣的大多數組織都花費大量時間來預測未來。幸運的是,機器學習可以改善預測。去年,亞馬遜運營財務團隊進行了測試。他們采用了一部分預測,并將傳統的手動流程與Amazon Forecast進行了比較。AmazonForecast是一項完全托管的服務,使用機器學習來提供高度準確的預測。在此試運行中,由Forecast所完成的預測平均比通過手動過程完成的預測準確67%。
           
            通過將所有數據移至數據湖,亞馬遜的運營財務團隊可以結合數據集來訓練和部署更準確的模型。使用更相關的數據來訓練機器學習模型可以提高預測的準確性。此外,它還釋放了手動執行此任務的員工來執行更具戰略意義的項目,例如分析預測以推動現場運營的改善。
           
            使用正確的工具:AWS上的Galaxy
           
            亞馬遜的零售業務使用某些技術,該技術早于2006年開始創建Amazon Web Services。在過去十年中,為了變得更具可擴展性,效率,性能和安全性,亞馬遜零售業務中的許多工作負載已轉移到AWS。Galaxy數據湖是內部稱為Galaxy的大型大數據平臺的重要組成部分。下圖顯示了Galaxy依賴AWS的某些方式以及它使用的某些AWS服務:

          \
          Galaxy依賴AWS
           
            Galaxy數據湖基于Amazon的Simple Storage Service或對象存儲服務S3構建。一些數據還存儲在基于Amazon專有的基于文件的數據存儲中,即Andes和Elastic Data eXchange,它們都是Amazon S3之上的服務層。其他一些數據源是數據倉庫 Amazon Redshift ,Amazon Relational Database Service或RDS以及企業應用程序。
           
            AWS Glue 是一項完全托管的ETL服務,可讓您輕松準備和加載數據以進行分析,并且使用AWS Database Migration Service或DMS 將各種數據集加載到Amazon S3。Galaxy將來自多種服務(包括Amazon Redshift,Amazon RDS和AWS Glue數據目錄)的元數據資產組合到基于Amazon DynamoDB(鍵值和文檔數據庫)構建的統一目錄層中。Amazon Elasticsearch Service或 ES 用于在目錄上啟用更快的搜索查詢。
           
            在對數據進行分類或裝入后,將在客戶端層使用各種服務。例如,交互式查詢服務Amazon Athena,用于使用標準SQL進行臨時探索性查詢;Amazon Redshift,一項用于更結構化的查詢和報告的服務;和Amazon SageMaker,用于機器學習。
           
            AWS湖形成
           
            亞馬遜團隊從頭開始創建了Galaxy數據湖架構。他們不得不在幾個月內手動開發許多組件,這與其他公司過去必須這樣做的方式類似。在2019年8月,AWS發布了一項名為AWS Lake Formation的新服務。
           
            它使您可以簡化數據湖的創建過程,并在幾天(而不是幾個月)內構建一個安全的數據湖。Lake Formation幫助您從數據庫和對象存儲中收集和分類數據,將數據移至新的Amazon S3數據湖中,使用機器學習算法對數據進行清理和分類,以及安全訪問敏感數據。
           
            摘要
           
            通過以基于開放標準的數據格式將數據存儲在統一的存儲庫中,數據湖可讓您分解孤島,使用各種分析服務從數據中獲取最大的見解,并以經濟高效的方式滿足存儲和數據處理需求隨著時間的推移。
           
            對于亞馬遜的財務運營團隊而言,Galaxy數據湖將為其全球用戶提供集成體驗。Galaxy的基礎設施建于2019年,現在各種數據庫系統都在遷移到數據湖中。使用該工具的團隊現在已經看到了它的好處,理由是消除了手動流程和笨拙的電子表格,生產率的提高以及可用于增值分析的更多時間。

          第三十屆CIO班招生
          法國布雷斯特商學院碩士班招生
          北達軟EXIN網絡空間與IT安全基礎認證培訓
          北達軟EXIN DevOps Professional認證培訓
          責編:baiyl
          亚洲香蕉视频在线播放-伊人大杳蕉青青视频-国产亚洲视频中文字幕