• 數據版本控制

    編輯
    本詞條由“匿名用戶” 建檔。

    數據版本控制

    編輯

    DVC是一個免費的、開源的、與平臺無關的版本系統,用于數據機器學習模型和實驗。它旨在使ML模型可共享,實驗可重復,并跟蹤模型、數據和管道的版本。DVC在Git存儲庫和云存儲之上工作。DVC0.6的xxx個(beta)版本于2017年5月推出。2020年5月,DVC1.0由Iterative.ai公開發布。

    數據版本控制的概述

    編輯

    DVC旨在將軟件開發的最佳實踐納入機器學習工作流程。它通過為數據集和機器學習模型的云存儲擴展傳統的軟件工具Git來實現。具體來說,DVC使機器學習操作。編碼:它通過在云存儲中存儲數據文件的指針來編碼數據集和模型。可重現:它允許用戶現實驗,并從原始數據重建數據集。這些功能也允許自動構建數據集,訓練、評估和部署ML模型。DVC和GitDVC將大型文件和數據集存儲在Git之外的獨立存儲器中。這個存儲可以在用戶的電腦上,也可以托管在任何主要的云存儲供應商上,比如AWSS3、谷歌云存儲和微軟AzureBlob存儲。DVC用戶也可以在任何服務器上建立一個遠程倉庫,并遠程連接到該倉庫。當用戶將他們的數據和模型存儲在遠程倉庫時,在他們的Git倉庫中會創建文本文件,指向遠程存儲的實際數據。

    數據版本控制的功能

    編輯

    DVC的功能可以分為三類:數據管理、管道和實驗跟蹤。數據管理數據和模型版本管理是DVC的基礎層,用于大型文件、數據集和機器學習模型。它允許使用標準的Git工作流程,但不需要將這些文件存儲在存儲庫中。大文件、目錄和ML模型被替換成小的元文件,而這些元文件又指向原始數據。數據被單獨存儲,允許數據科學家轉移大型數據集或與他人分享模型。DVC通過編纂實現了數據的版本化。當用戶創建元文件,描述要跟蹤哪些數據集、ML工件和其他特征時,DVC使得捕捉數據和模型的版本、創建和恢復快照、記錄不斷變化的指標、在版本之間切換等成為可能。數據文件和目錄的xxx版本以系統的方式被緩存(也防止文件重復)。工作數據存儲與用戶的工作空間分開,以保持項目的輕盈,但通過DVC自動處理的文件鏈接保持連接。管線DVC提供了一種機制來定義和執行管道。管道代表了建立ML數據集和模型的過程,從數據的預處理到模型的訓練和評估。管道也可用于將模型部署到生產環境中。DVC管道專注于ML過程的實驗階段。用戶可以通過克隆帶有管道的Git存儲庫或運行ML實驗來運行DVC管道的多個副本。他們還可以將工作流程記錄為管道,并在將來重現它。管道在代碼中被表示為yaml配置文件。

    版本控制

    這些文件定義了管道的階段以及數據和信息如何從一個步驟流向下一個步驟。當一個管道運行時,該管道產生的工件被注冊在dvc.lock文件中。鎖文件記錄了所運行的階段,并存儲了每個階段的輸出結果的哈希值。它不僅是流水線的執行記錄,而且在決定哪些步驟必須在流水線的后續執行中重新運行時也很有用。實驗跟蹤實驗跟蹤允許開發者探索、迭代和比較不同的機器學習實驗。每個實驗代表了由工作區的變化所定義的數據科學項目的一個變體。實驗在當前分支(GitHEAD)中保持一個與提交的鏈接,作為其父級或基線。然而,它們并不構成常規Git的一部分(除非它們是持久化的)。這可以阻止臨時提交和分支充斥在用戶的存儲庫中。實驗的常見用例是。

    模型架構的比較

    編輯

    訓練或評估數據集的比較

    模型超參數的選擇DVC實驗可以通過VSCodeIDE或IterativeStudio在線管理和可視化。可視化允許每個用戶直觀地比較實驗結果,跟蹤繪圖,并通過庫集成生成。DVC提供了幾種在常規工作流程中使用可視化的選項。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175561/

    (5)
    詞條目錄
    1. 數據版本控制
    2. 數據版本控制的概述
    3. 數據版本控制的功能
    4. 模型架構的比較
    5. 訓練或評估數據集的比較

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久