- 相關推薦
用PDF文檔制作特色文獻全文數(shù)據(jù)庫的實踐
摘要:文章系統(tǒng)分析了PDF文檔的特點,根據(jù)開發(fā)"粵北地方文獻全文數(shù)據(jù)庫"的方法和實踐,指出圖書館制作特色文獻數(shù)據(jù)庫應首選PDF文檔。
中圖分類號:250.74
文獻標識碼:B
文章編號:1006-1525(2004)01-0046-03
國家數(shù)字圖書館是依托互連網連接起來的全國各地圖書館電子信息數(shù)據(jù)庫群,其信息基礎由國家圖書館藏文獻信息、網絡信息、各地圖書館藏特色文獻信息構成。全國各地的地方特色文獻是國家數(shù)字圖書館中具有重要意義的信息,地方圖書館盡快設法將這些信息數(shù)字化是國家數(shù)字圖書館工程的重要基礎。下面是我館以PDF文檔格式制作"粵北地方文獻數(shù)據(jù)庫"的一點認識和經驗。
1什么是PDF
PDF是Adobe公司開發(fā)的一種電子文檔格式PortableDocumentFormat的簡稱,這是一種可移植的結構化通用文檔格式,它可以將任何文字、表格、顏色、圖形圖像、超文本鏈接、聲音、動態(tài)圖像等信息封裝在一個電子文檔中,而不管創(chuàng)建該文檔所使用的應用程序和平臺。AdobePDF是出版業(yè)新興的工作流程標準。
PDF文檔是通過一系列對象序列來構造的,PDF對象包括直接對象(DirectObject)和間接對象(IndirectObject)。直接對象通常有布爾型(Boolean)、數(shù)值型(Number)、字符串型(String)、名字型(Name)、數(shù)組型(Array)、字典型(Dictionary)、空對象(Null)、流對象(Stream)等基本類型,間接對象是經過標識了的PDF對象。一個PDF文檔包含了一個或多個頁面,而每一頁都可以包含文檔、圖形和圖像。一個典型的PDF文件包含文件頭、文件主體、交叉引用表和文件尾4個部分。文件頭(Header)位于PDF文檔的第一行,它表明當前文件使用PDF規(guī)范的版本;文件體(Body)中包括構成文件間接對象的一個序列,這些對象代表文檔中的各個組件,例如字體、頁數(shù)和圖像等,交叉引用表(Cross-referenceTable)則是為了能對間接對象進行隨機存取而設立的一個間接對象地址索引表,它給出了所有當前文件使用對象的入口地址,即字節(jié)偏移量,以便系統(tǒng)隨機訪問不同的對象;文件尾(Trailer)中包含了交叉引用表的起始地址和其中的對象總數(shù)、文檔中Catalog(目錄)對象的對象號以及加密等安全信息,根據(jù)文件尾提供的信息,PDF的應用程序可以找到交叉引用表和整個PDF文件的目錄對象,從而控制整個PDF文檔。
2PDF的特點
目前國內文獻數(shù)字技術飛速發(fā)展,已有多家文獻數(shù)字化處理系統(tǒng),據(jù)筆者所知,DIPS數(shù)字文獻處理系統(tǒng)、TRS系統(tǒng)等都是性能出色的系統(tǒng),而價廉物美的AdobeAcrobatReader制作利用PDF文檔確實是最好選擇。用PDF制作電子文獻只需安裝:(1)中文操作系統(tǒng);(2)任何字處理軟件,排版軟件,圖形軟件;(3)中文4.0版本以上的AdobeAcrobat。ActivePDF公司還發(fā)布了以ActivePDFServer為中心PDF工具包。ActivePDFServer是一個服務器軟件,可以讀取幾乎所有Windows應用文檔,并把它們轉換成PDF格式。該服務器軟件有標準版和專業(yè)版兩個版本,專業(yè)版支持PDF加密解密。軟件包的其他工具還有DocConverter(能將280多種文檔轉換成PDF)、Web Grabber(能將HTML轉換成PDF)、Spooler(打印服務器的PDF文檔)等。
PDF是從頁面描述語言PS(PostScript)發(fā)展而來,具有與PS幾乎相同的頁面描述能力和相似的描述方法。但與PS不同的是,PDF除了能描述復雜版面外,還具有交互功能(如超鏈接、交互表單等)、頁面隨機存取及圖形字體仿真描述等特性。因此,PDF不僅適合印刷出版,而且也適合電子出版,是全世界電子版文檔分發(fā)的公開實用標準。
PDF與在電子出版中占統(tǒng)治地位的HTML語言相比也有自己明顯的優(yōu)勢,實現(xiàn)了紙張印刷和電子出版的統(tǒng)一。排版后的內容生成PDF文件,則能在交付印刷的同時,進行網絡數(shù)字化發(fā)行。此外,PDF還有下列優(yōu)點:
(1) 容易制作和利用---大眾化
制作PDF格式的多媒體電子圖書目前主要有三種途徑:第一是應用專門的PDF制作工具軟件進行制作;第二是將包含有Postscript頁面描述語言的文件轉換成PDF文檔;第三是利用轉換工具把其他格式文件(如DOC、HTML等)轉換成PDF文檔。
(2)跨平臺應用---通用性
集約的PDF文件比原來的源文件小很多,以致在Web上下載文件的同時可以快速地顯示頁面。PDF獨立于軟件、硬件和創(chuàng)建的操作系統(tǒng)平臺,任何人都可以使用免費的AdobeAcrobatReader在任何電腦、任何系統(tǒng)平臺上共享、查看、瀏覽和打印,并具有強大的全文檢索功能。
(3)高效的瀏覽和打印---所見即所得
壓縮的AdobePDF文件比源文件小,每次下載一頁,可以在網頁上快速顯示,而且不會降低網絡速度。創(chuàng)建PDF者可以加入書簽,Web鏈接來使PDF文件容易瀏覽,讀者可以直接使用電子化的便箋、高亮度顯示、下劃線等來對PDF文件進行標注。不管你的顯示器是何種類型,PDF文件精確的顏色匹配保證忠實再現(xiàn)原文。讀者可以放大或縮小一個文件以適應屏幕和自己的視覺,PDF文件可以放大到800%而絲毫不損失清晰。由于PDF文件是以PostScript語言圖像模型為基礎,它將忠實地再現(xiàn)原稿的每一個字符、顏色以及圖像,正適合特色文獻載體種類繁多、形式各異的數(shù)字化要求。PDF文檔無論在哪種打印機上都可保證圖形精確、顏色準確的打印效果。
(4)高安全加密特性---版權保護
使用Acrobat5.0軟件,可以輕松添加書簽,設置安全選項以及生成微型AdobePDF預覽視圖,Acrobat5.0還可以在網頁瀏覽器內使用"數(shù)字簽名",從而對AdobePDF文檔加上評語或對其予以準核。對PDF"加密"可以控制敏感信息的可訪問性,能夠控制機密文件的訪問權限,防止PDF被改動或打印。"數(shù)字簽名"更可對審閱過程的每一步進行控制。由于PDF文檔具有的種種優(yōu)點,使它成為出版界的新寵,目前網上的電子出版物大多采用PDF文檔格式發(fā)行。利用PDF格式制作特色文獻全文數(shù)據(jù)庫可以保留發(fā)表出版時的原版原式,圖文并茂,既可以直接打印,也可以下載保存。
3用PDF文檔制作特色文獻全文數(shù)據(jù)庫
鑒于PDF的上述優(yōu)點,我館在建設"學院科研成果管理系統(tǒng)"和"粵北地方文獻全數(shù)據(jù)庫"時就選用PDF文檔格式,建設和運行的效果良好。
3.1PDF文檔制作
安裝了Acrobat之后,在Windows控制面板中的"打印機"中會出現(xiàn)兩種Acrobat的虛擬打印方式---AcrobatDistiller以及AcrobatPDFWriter,通過我們的反復測試,建議使用PDFWriter來打印中文電子文檔,原因有二:第一,打印出的PDF文檔體積小;第二,比Distiller可以更快速地制作。
特色文獻通常表現(xiàn)為論文、專著、實驗數(shù)據(jù)、統(tǒng)計表格、繪畫圖片、音像制品,多表現(xiàn)為文本文件、HTML文件、DOC文件、JPG或RTF文件等等,這些文檔都可以轉換成PDF格式文檔。根據(jù)我們的實踐,建議能轉換成DOC文件的盡量使用MSWord來制作PDF文檔。需要注意的是,使用Word排版,正文文字選擇"黑體,五號"或者"宋體加粗,五號"為最佳打印字體,標題及其他文字大小、顏色可以自定義,但是字體最好也要選擇上述兩種字體。圖片建議選擇JPG或者GIF圖像,不推薦使用BMP圖像。Word文檔的頁面大小最好為16開、32開或者B5,因為對于A4這樣的大小,一行上的文字會容納很多,這樣不利于讀者閱讀。
如上所述,AcrobatPDFwriter可將任何格式的文檔轉換成PDF文檔,它是一個模擬的"打印"驅動程序,即在客戶應用程序中調用打印命令,以"打印"文件的方式創(chuàng)建PDF格式的文檔。PDFwriter的使用方法是:首先安裝該軟件,安裝完成后在Windows打印機設置的列標上將增加PDFwriter;然后啟動應用程序并打開用于轉換的文件,在菜單或工具欄中選擇"打印";在打印機名稱菜單上選擇PDFwriter;接著選擇目標目錄并為PDF文檔取名;在填寫完相應的信息后,PDFwriter將會自動生成PDF文檔。AcrobatDistiller是一個可以用來制作和編輯PDF格式文件的高端PDF文檔生成器,利用它可以將Postscript文件轉換成PDF文檔。AcrobatPDFmaker則是一個系列工具,例如AcrobatPDFmakerForWord97可在Word97中直接將編輯好的DOC文件轉換成PDF文檔,轉換過程中PDFmaker會將Word文件中的一些信息和結構相應地轉換成PDF文檔中的信息和結構,比如將Word中的頭部轉換成PDF書簽,將Word中的URL轉換成PDF的網頁鏈接等等。對于掃描輸出或其他圖片格式則可通過Adobe公司推出的Photoshop6.0保存為JPG或者GIF圖像后轉換成PDF文檔,以確保文檔最小化。
單擊"打印"按鈕開始打印,PDFWriter進行簡單的文字預處理以后會要求選擇輸出PDF文件的保存路徑,之后等著PDFWriter打印文檔就行了。這里要注意保存路徑選項,我們的經驗是建立專項目錄樹。
3.2PDF文檔組織管理
對制作好的PDF文檔腳本,必須進行一些必要的處理,包括超級鏈接、書簽、注釋、文檔初始化、電子信息加密等屬性設置,提取目錄索引標識。然后對眾多的PDF文檔分類組織。運行Acrobat,打開PDF文檔腳本。
首先是加入超級鏈接,對需要加入超鏈接的文字設置超鏈接的外觀、位置和讀者點擊超鏈接時的顯示方式、效果和將發(fā)生的事件;其次是加入書簽,書簽的作用旨在快速的定位文章中特定的部分,某種情況下可以起到目錄作用,因為Acrobat支持書簽的拖拽操作,即您可以將一個書簽"拖動"到另一書簽上,建立書簽的邏輯關系;第三是加入注釋,注釋的作用很多,最主要是對文檔或者文檔的某個部分的說明;第四是對文檔初始化屬性的設置,選擇"BookmarksandPage"單選項,其他選項使用默認值;第五是文檔加密設置,如果希望用戶需要密碼才能閱讀,請選擇"PasswordRequiredtoOpenDocument",輸入用戶打開文檔時需要的密碼。建議選擇"PasswordRequiredtoChangePermissionsandPasswords"選項,即只有制作者才可以修改文檔信息及文檔安全性密碼。雖然現(xiàn)在有很多軟件是用來破解PDF文檔密碼的,但是想輕易地破解也并非易事。在EncryptionLevel(加密級別)中可以選擇使用的加密級別:包括40-bit和128-bit兩種方式,其中128-bit只能針對5.0版本,所以建議選擇40-bit即可,以確保文檔的向下兼容。應選擇"NoChangingtheDocument",即不允許用戶修改文檔中的任何部分。如果需要禁止用戶打印和復制文檔中的文字和圖片可以選"NoPrinting"、"NoContentCopyingorExtraction,DisableAccessibility"選項。最后要做的是保存所做的修改。
如果想對PDF文檔內容進行編輯和修改,可使用AdobeExchange,利用它可以在文檔中添加超文本鏈接、書簽、小書頁圖標、表格等,也可以在文檔中插入、刪除、復制或者移動一個或多個頁面。
3.3PDF文檔的閱讀與管理
PDF支持任意字符檢索,與TRS、TBS檢索系統(tǒng)配套更是完美的數(shù)字化文獻集合。AcrobatReader是我們閱讀PDF格式文檔的較好選擇,這是一個免費軟件,可直接從網上下載。AcrobatReader既可以獨立運行,也可以作為瀏覽器的插件(plug-in)對PDF文檔進行在線閱讀。如果計算機中已經安裝了Netscape瀏覽器,則在安裝AcrobatReader時安裝程序會自動將其作為插件插到Netscape中;如果使用IE瀏覽器,則要在程序安裝完成后,將目錄"\Adobe\AcrobatX.0\Reader\browser"中的nppdf32.dll文件拷貝到IE的插件目錄"\InternetExplorer\Plugins\"中,并重新啟動計算機,這樣就可以在瀏覽器中像瀏覽HTML網頁一樣方便地瀏覽PDF文檔了。
AcrobatReader為用戶提供了多種形式的瀏覽窗口,有"單頁面"、"頁面 書簽目錄"和"頁面 書頁圖標"等顯示方式,既可以全屏瀏覽,也可以單頁瀏覽。它還提供了翻頁功能,可利用菜單、滾動條,右鍵菜單、方向鍵等進行翻頁,可選擇首尾、前后及指定頁號翻頁。AcrobatReader的頁面多級縮放功能可以按12.5%到1600%的比率進行縮放,使用戶選擇合適的比例閱覽。此外,它還提供了復制的功能,點擊工具欄中含"T"字樣的"TextSelectTool"按鈕,通過拖拉鼠標選定要復制的文本范圍,點擊復制后就可以粘貼到需要的地方了。要注意的是,如果在制作PDF文檔時設定了"不允許選擇文本和圖形"的安全保護,則不可能復制,這對需要保護的文檔非常有用。
3.4知識產權問題
由于PDF文檔易于傳輸,且在獲得了免費閱讀軟件后可進行隨意瀏覽,給PDF格式電子文獻的知識產權保護帶來了極大的挑戰(zhàn)。針對這一問題,Adobe公司推出了面向出版商和發(fā)行商的安全出版系統(tǒng)。該系統(tǒng)包括AdobePDFMerchant和AcrobatReader的WebBuy插件兩部分。其中PDFMerchant是作為服務器端的程序,WebBuy插件是客戶端程序,通過兩者配合使用來確保網上出版物免遭盜版。PDFMerchant的功能是為準備傳送的PDF文檔加"鎖",當讀者試圖利用AcrobatReader閱讀上了"鎖"的文件時,會提示無權閱讀該文件內容的信息,并詢問你是否愿意購買文件內容,在點擊購買之后,PDFMerchant就會直接將用戶帶到出版商或發(fā)行商的站點上,在完成購買后,網站就會配合AcrobatReader將文件內容和閱讀許可發(fā)送到讀者用戶的計算機上。當然,這個系統(tǒng)只是針對出版商和發(fā)行商的。如何保護自己制作的全文數(shù)據(jù)庫的權益,堵住盜版的漏洞,目前還沒有現(xiàn)成的解決方案,但是至少我們可以為PDF格式的電子文檔加"鎖",當網絡用戶將其下載并進行閱讀時,要求用戶輸入相關使用權信息(如身份證、閱覽證等號碼),并要求信用承諾不將此書用作商業(yè)用途,然后才將內容顯示出來,具有一定的保護作用。
目前,數(shù)字圖書館建設如日中天,圖書館可以將從網絡上下載或者購買的電子文獻、館藏的諸如"學校科研成果"、地方文獻等特色文獻,對其進行著錄和標引之后組織成電子書庫提供給讀者。PDF文檔格式作為全世界電子版文檔分發(fā)的公開實用標準,是建設特色文獻數(shù)據(jù)庫,為用戶提供內容豐富、圖文并茂的電子文獻之首選。
參考文獻:
[1] 什么是PDF〔EB/oL〕.http://www.chinapdf.com/begin.htm
[2] [2]李慧.PDF文檔與多媒體電子圖書[J].晉圖學刊,2001,(1).
[3] [3]深藍色系統(tǒng).PDF電子書簡要制作方法〔EB/oL〕.http://lib.haiyang.net.cn/ebook/multi/bl.HTM
[4] [4]肖明.PDF文檔的閱讀與生成工具[J].電子與電腦,2000,(1).
[5] [5]官建生.地方文獻數(shù)字化:中國數(shù)字圖書館工程信息基礎[J].大學圖書情報學刊.2002,(2).
〔出處〕 大學圖書情報學刊2004年3月第22卷第1期
【用PDF文檔制作特色文獻全文數(shù)據(jù)庫的實踐】相關文章:
基于PDF文檔的網絡學習資源建設08-06
基于PDF文檔的網絡學習資源建設08-06
基于PDF文檔的網絡學習資源建設08-06
區(qū)域文獻特色數(shù)據(jù)庫的建立及其服務平臺的搭建08-09
淺談區(qū)縣圖書館地方文獻特色數(shù)據(jù)庫的共建策略08-09
高校圖書館建設地方特色文獻數(shù)據(jù)庫的再思考08-09
地方文獻數(shù)據(jù)庫建設初探08-09