關聯數據
編輯在計算中,關聯數據(通常大寫為 Linked Data)是結構化數據,它與其他數據相互關聯,因此通過語義查詢變得更加有用。 它以 HTTP、RDF 和 URI 等標準 Web 技術為基礎,但不是使用它們來僅為人類讀者提供網頁,而是將它們擴展為以計算機可以自動讀取的方式共享信息。 鏈接數據的部分愿景是讓 Internet 成為一個全球數據庫。
萬維網聯盟 (W3C) 主管蒂姆·伯納斯-李 (Tim Berners-Lee) 在 2006 年關于語義網項目的設計說明中創造了該術語。
關聯數據也可能是開放數據,在這種情況下,它通常被描述為鏈接開放數據。
原則
編輯在他 2006 年的關聯數據筆記中,Tim Berners-Lee 概述了關聯數據的四項原則,解釋如下:
- 應該使用統一資源標識符 (URI) 來命名和標識單個事物。
- 應該使用 HTTP URI 來查找、解釋和隨后取消引用這些內容。
- 應通過開放標準(如 RDF、SPARQL 等)提供有關名稱標識內容的有用信息。
- 在 Web 上發布數據時,應使用基于 HTTP URI 的名稱引用其他內容。
蒂姆·伯納斯-李后來在 2009 年的 TED 會議上重申了這些原則,再次沿以下行解釋:
- 所有概念性事物的名稱都應以 HTTP 開頭。
- 查找 HTTP 名稱應該以標準格式返回有關所討論事物的有用數據。
- 通過其數據與同一事物相關的任何其他事物也應被賦予以 HTTP 開頭的名稱。
組件
編輯- URI
- HTTP
- 使用資源描述框架序列化格式(例如 RDFa、RDF/XML、N3、Turtle 或 JSON-LD)表達的受控詞匯術語和數據集定義的結構化數據
- 關聯數據平臺
關聯開放數據
編輯關聯開放數據是屬于開放數據的關聯數據。 Tim Berners-Lee 在與鏈接數據的區分中給出了鏈接開放數據最清晰的定義。
關聯開放數據(LOD)是在開放許可下發布的關聯數據,不妨礙其免費重用。
—>蒂姆·伯納斯-李,關聯數據
大型鏈接開放數據集包括 DBpedia、Wikibase、Wikidata 和 Open Icecat。
5 星鏈接開放數據
Tim Berners-Lee 提出了一個 5 星方案來對網絡上開放數據的質量進行分級,其中排名最高的是關聯開放數據:
- 1 星:數據以某種格式公開可用。
- 2 星:數據以結構化格式提供,例如 Microsoft Excel 文件格式 (.xls)。
- 3 星:數據以非專有結構化格式提供,例如逗號分隔值 (.csv)。
- 4 星:數據遵循 W3C 標準,例如使用 RDF 和采用 URI。
- 5 星:所有其他,加上指向其他關聯開放數據源的鏈接。
歷史
鏈接開放數據一詞至少從 2007 年 2 月開始使用,當時創建了鏈接開放數據郵件列表。 郵件列表最初由麻省理工學院的 SIMILE 項目主辦。
鏈接開放數據社區項目
W3C Semantic Web Education and Outreach group 的 Linking Open Data 社區項目的目標是通過在 Web 上將各種開放數據集作為 RDF 發布并在來自不同數據源的數據項之間設置 RDF 鏈接,從而使用數據共享擴展 Web . 2007 年 10 月,數據集包含超過 20 億個 RDF 三元組,這些三元組由超過 200 萬個 RDF 鏈接互連。 到 2011 年 9 月,這已經增長到 310 億個 RDF 三元組,由大約 5.04 億個 RDF 鏈接互連。 2014 年公布了詳細的統計分類。
歐盟項目
有許多歐盟項目涉及鏈接數據。 其中包括全天候鏈接開放數據 (LATC) 項目、PlanetData 項目、DaPaaS(數據和平臺即服務)項目和鏈接開放數據 2 (LOD2) 項目。 數據鏈接是歐盟開放數據門戶的主要目標之一,它為任何人提供數以千計的數據集以供重用和鏈接。
本體
本體是數據結構的正式描述。 一些比較知名的本體是:
- FOAF – 一種描述人、他們的屬性和關系的本體
- UMBEL – 一個包含 20,000 個主題概念類及其從 OpenCyc 派生的關系的輕量級參考結構,可以充當外部數據的綁定類; 還鏈接到來自 DBpedia 和 YAGO 的 150 萬個命名實體
數據集
- DBpedia – 包含從維基百科提取的數據的數據集; 它包含大約 340 萬二氧化碳
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/195978/