• 文本文件

    編輯
    本詞條由“匿名用戶” 建檔。

    文本文件

    編輯

    文本文件是一種計算機文件,其結構為一系列電子文本。文本文件存儲在計算機文件系統中,作為數據存儲。在CP/M和MS-DOS等操作系統中,操作系統不以字節為單位跟蹤文件大小,文本文件的末尾通過在文本文件中最后一行后放置一個或多個特殊字符(稱為文件結束標記)作為填充來表示。在Microsoft Windows和類Unix系統等現代操作系統上,文本文件不包含任何特殊的EOF字符,因為這些操作系統上的文件系統以字節為單位跟蹤文件大小。對于大多數文本文件來說,都需要行尾分隔符,根據操作系統,這些分隔符以幾種不同的方式完成。一些具有以記錄為導向的文件系統的操作系統可能不會使用新的行分隔符,而主要存儲行分隔為固定或可變長度記錄的文本文件。

    “文本文件”是指容器類型,而純文本是指內容類型。

    通用的描述級別上,計算機文件有兩種:文本文件和二進制文件。

    數據存儲

    編輯

    由于文本文件的簡單性,通常用于存儲信息。它們避免了其他文件格式遇到的一些問題,例如端點、填充字節或機器詞中字節數的差異。此外,當文本文件中發生數據損壞時,通常更容易恢復并繼續處理剩余內容。文本文件的一個缺點是它們通常熵低,這意味著信息占用的存儲空間比嚴格意義上的要多。

    一個簡單的文本文件可能不需要額外的元數據(除了對其字符集的了解)來幫助讀者進行解釋。文本文件可能根本不包含任何數據,這是零字節文件的情況。

    文本文件的編碼

    編輯

    ASCII字符集是英語文本文件最常見的字符集兼容子集,在許多情況下通常被認為是默認文件格式。它涵蓋了美式英語,但對于英鎊符號、歐元符號或英語以外使用的字符,必須使用更豐富的字符集。在許多系統中,這是根據讀取計算機上的默認區域設置選擇的。在UTF-8之前,這是歐洲語言的傳統單字節編碼(如ISO-8859-1至ISO-8859-16)和亞洲語言的寬字符編碼。

    由于編碼必然只有有限的字符表,通常非常小,因此許多字符只能用于在有限的人類語言子集中表示文本。Unicode試圖創建一個代表所有已知語言的共同標準,大多數已知字符集都是非常大的Unicode字符集的子集。雖然Unicode有多種字符編碼,但最常見的是UTF-8,其優點是向后兼容ASCII;也就是說,每個ASCII文本文件也是含義相同的UTF-8文本文件。UTF-8還具有易于自動檢測的優勢。因此,支持UTF-8的軟件在打開未知編碼的文件時,常見的操作模式是先嘗試UTF-8,當它xxx不是UTF-8時,則退回到與區域設置相關的遺留編碼。

    文本文件

    文本文件格式

    編輯

    On most operating systems the name text file refers to file format that allows only plain text content with very little formatting (e.g., no bold or italic types). Such files can be viewed and edited on text terminals or in simple text editors. Text files usually have the MIME type text/plain, usually with additional information indicating an encoding.

    微軟Windows文本文件

    MS-DOS和Microsoft Windows使用通用文本文件格式,每行文本由兩個字符組合分隔:回車(CR)和換行(LF)。通常情況下,最后一行文本不會用CR-LF標記終止,許多文本編輯器(包括記事本)不會自動在最后一行插入。

    在Microsoft Windows操作系統上,如果文件名稱(“文件擴展名”)的后綴為.txt,則文件被視為文本文件。然而,許多其他后綴用于具有特定目的的文本文件。例如,計算機程序的源代碼通常保存在文本文件中,這些文本文件中的文件名后綴表示編寫源代碼的編程語言

    大多數Microsoft Windows文本文件使用“ANSI”、“OEM”、“Unicode”或“UTF-8”編碼。Microsoft Windows術語所稱的“ANSI編碼”通常是單字節ISO/IEC 8859編碼(即微軟記事本菜單中的ANSI實際上是“系統代碼頁”,非Unicode,傳統編碼,除了中文、日文和韓文等需要雙字節字符集的地方。在過渡到Unicode之前,ANSI編碼傳統上在Microsoft Windows中用作默認系統區域設置。相比之下,OEM編碼,也稱為DOS代碼頁,由IBM定義,用于原始IBM PC文本模式顯示系統。它們通常包括DOS應用程序中常見的圖形和線條繪制字符。Unicode編碼的Microsoft Windows文本文件包含UTF-16 Unicode轉換格式的文本。此類文件通常以字節順序標記(BOM)開頭,該標記傳達文件內容的端點。雖然UTF-8沒有端點問題,但許多Microsoft Windows程序(即記事本)在UTF-8編碼文件內容之前加上BOM,[2]以區分UTF-8編碼和其他8位編碼。

    蘋果麥金塔文本文件

    在Mac OS X(現在稱為macOS)出現之前,當其資源分叉顯示文件類型為“文本”時,經典的Mac OS系統將文件內容(數據分叉)視為文本文件。Macintosh 文本文件行以 CR 字符終止。

    macOS 經過 Unix 認證,文本文件使用 POSIX 格式。macOS 中用于文本文件的統一類型標識符 (UTI) 是“public.plain-text”;其他更具體的 UTI 是:utf-8 編碼文本的“public.utf8-plain-text”,utf-16 編碼文本的“public.utf16-external-plain-text”和“public.utf16-plain-text”,以及經典 Mac OS 文本文件的“com.apple.traditional-mac-plain-text”。

    文本文件的渲染

    編輯

    當文本編輯器打開時,人類可讀內容將呈現給用戶。這通常由用戶可見的文件純文本組成。根據應用程序的不同,控制代碼可以呈現為編輯器操作的字面指令,也可以呈現為可見的轉義字符,可以編輯為純文本。雖然文本文件中可能存在純文本,但文件中的控制字符(特別是文件末尾字符)可以使特定方法看不到的純文本。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/122244/

    (2)
    詞條目錄
    1. 文本文件
    2. 數據存儲
    3. 文本文件的編碼
    4. 文本文件格式
    5. 微軟Windows文本文件
    6. 蘋果麥金塔文本文件
    7. 文本文件的渲染

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久