PDF的文件結(jié)構(gòu)及格式特點(diǎn)

印前頻道 - PDF 來源:設(shè)計在線 作者:cpcool 2010-10-18

    PDF(Portable Document Format)由Adobe公司所開發(fā),是一種不論用何種類型的計算機(jī)均可閱讀的文件格式。PDF文件包含一個PDF文檔和其它支持?jǐn)?shù)據(jù)。一個PDF文檔包含一個或多個頁面,每個頁面包含與設(shè)備和分辨率無關(guān)的文字、圖形和圖像的任意組合,被稱為頁面描述。文檔還可以包含一些只有在電子讀物中才存在的信息,如超文本鏈接、聲音和動畫等。除了PDF文檔之外,PDF文件中還包含一些其它信息,如:文件中使用的PDF規(guī)范的版本號,文件中重要結(jié)構(gòu)的位置。

        為了更好地理解PDF文件,可把PDF文件分解成四個部分。

        第一部分是PDF的對象,PDF的對象是一組基本對象類型。這些類型絕大部分與PostScript語言使用的數(shù)據(jù)類型對應(yīng)。PDF支持很多種基本的數(shù)據(jù)類型:布爾型、數(shù)字、字符串、字面名、數(shù)組、字典和流,另外還有一種空對象。在PDF文件中,經(jīng)常給一些對象賦予一個標(biāo)簽供其它對象調(diào)用,這種有標(biāo)簽的對象稱為間接對象。
        第二部分是 PDF的文件結(jié)構(gòu)。PDF的文件結(jié)構(gòu)決定了對象在 PDF文件中的存儲方式、訪問方式和更新方式。后面將詳細(xì)分析。
        第三部分是 PDF的文檔結(jié)構(gòu)。PDF的文檔結(jié)構(gòu)指定了怎樣用基本對象類型來表示 PDF的文檔成分,包括:頁面、注解、超文本鏈接、字體等。 
        第四部分是 PDF的頁面描述。頁面描述指的是頁面上包含的與設(shè)備和分辨率無關(guān)的文字、圖形和圖像的任意組合。PDF的頁面描述可不依賴于PDF的其它部分而被單獨(dú)地解釋。

       1、PDF的文件結(jié)構(gòu)
      PDF的文件結(jié)構(gòu)(即物理結(jié)構(gòu))包括四個部分:文件頭、文件體、交叉引用表和文件尾。文件頭指明了該文件所遵從的 PDF規(guī)范的版本號。它出現(xiàn)在 PDF文件的第一行。如%PDF-1.2,表示該文件符合PDF-1.2規(guī)范。
      文件體由一系列的PDF間接對象(inDirectob Ject)組成。這些間接對象構(gòu)成了PDF文件的具體內(nèi)容如字體、頁面、圖像等等。
      交叉引用表則是為了能對象接對象進(jìn)行隨機(jī)存取,而設(shè)立的一個間接對象地址索引表。文件尾聲明了交叉引用表的地址,指明文件體的根對象(cata-log),還保存了加密等安全信息。根據(jù)文件尾提供的信息,PDF的應(yīng)用程序可以找到交叉引用表和整個PDF文件的根對象,從而控制整個PDF文件。
 
        2、PDF的文檔結(jié)構(gòu)
        PDF的文檔結(jié)構(gòu)是PDF文件內(nèi)容的邏輯組織結(jié)構(gòu)。它反映了文件體中間接對象間的等級層次關(guān)系。PDF的文檔結(jié)構(gòu)是一種樹型結(jié)構(gòu)。樹的根節(jié)點(diǎn)就是PDF文件的根對象。根節(jié)點(diǎn)下有四個子樹:頁面樹(Pages tree)、 書簽樹(outline tree)、線索樹(Article tree)、名字樹(Named Destination)。其中在頁面樹中,所有頁面對象都在樹的葉子節(jié)點(diǎn),樹中的子節(jié)點(diǎn)將繼承父節(jié)點(diǎn)的各屬性值作為相應(yīng)屬性的缺省值。書簽樹中則按樹型層次等級關(guān)系將書簽(Book mark)組織起來。書簽建立了書簽名與一個具體頁面上的位置的關(guān)聯(lián),它使得用戶可以按書簽名字來訪問文檔的內(nèi)容。由于書簽可以有層次,能用來組織文檔的目錄,所以有時又將書簽樹稱作目錄樹。線索樹則將文章線索及線索下的文章塊(Article head)按樹型結(jié)構(gòu)組織起來進(jìn)行管理。

聲明:站內(nèi)網(wǎng)友所發(fā)表的所有內(nèi)容及言論僅代表其本人,并不反映任何網(wǎng)站意見及觀點(diǎn)。

全部評論

暫無相關(guān)推薦