• 標簽化數據

    編輯
    本詞條由“匿名用戶” 建檔。

    標簽化數據

    編輯

    標簽化數據是一組被貼上一個或多個標簽的樣本。標簽化通常采用一組無標簽的數據,并在其中的每一塊上增加信息標簽。例如,一個數據標簽可能會表明一張照片中包含一匹馬還是一頭牛,在一段錄音中說了哪些話,在一段視頻中執行了什么類型的動作,一篇新聞文章的主題是什么,一條推文的整體情緒是什么,或者X射線中的一個點是否是一個腫瘤。標簽可以通過要求人類對給定的無標簽數據做出判斷而獲得。標簽數據的獲取成本明顯高于原始的無標簽數據。

    眾包標簽數據

    編輯

    2006年,斯坦福大學以人為本人工智能研究所的聯合主任李飛飛,著手通過大幅擴大訓練數據來改善圖像識別的人工智能模型和算法。研究人員從萬維網上下載了數百萬張圖片,一個本科生團隊開始為每張圖片貼上物體的標簽。2007年,李明遠將數據標簽工作外包給了亞馬遜MechanicalTurk,這是一個數字計件工作的在線市場。由49,000多名工人貼上標簽的320萬張圖片構成了ImageNet的基礎,ImageNet是xxx的手工標簽數據庫之一,用于物體識別的輪廓。

    自動數據標記

    編輯

    在獲得標記的數據集后,可以將機器學習模型應用于數據,這樣就可以將新的未標記的數據提交給模型,并猜測或預測該片未標記的數據的可能標簽。

    標簽數據

    數據驅動的偏見

    編輯

    算法決策會受到程序員驅動的偏見以及數據驅動的偏見的影響。盡管機器學習算法是合法的,但依賴有偏見的標記數據的訓練數據將導致預測模型中的偏見和遺漏。用于訓練特定機器學習算法的標記數據需要是一個具有統計學代表性的樣本,以避免對結果產生偏見。因為可用于訓練面部識別系統的標記數據一直不能代表一個群體,所以標記數據中代表性不足的群體后來經常被錯誤分類。2018年,JoyBuolamwini和TimnitGebru的一項研究表明,兩個用于訓練面部識別算法的面部分析數據集IJB-A和Adience分別由79.6%和86.2%的淺膚色人類組成。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175726/

    (1)
    詞條目錄
    1. 標簽化數據
    2. 眾包標簽數據
    3. 自動數據標記
    4. 數據驅動的偏見

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久