用影像掃描存貯非結(jié)構(gòu)化信息
1 問(wèn)題提出 煤炭科技期刊、會(huì)議論文、科學(xué)報(bào)告等多數(shù)仍以傳統(tǒng)的紙介質(zhì)的書(shū)本方式存在,查找、翻閱 很不方便,存貯、保管耗費(fèi)大量的人力和物力。傳統(tǒng)的信息貯存和檢索方法是將搜集到的原 始文獻(xiàn)進(jìn)行主題概念分析、加工整理,生成二次檢索工具,形成二次文獻(xiàn)信息產(chǎn)品,使科技 人員可以在浩瀚的信息海洋中查詢(xún)到自己需要的內(nèi)容。 我們可以把科技信息劃分為結(jié)構(gòu)化信息與非結(jié)構(gòu)化信息。結(jié)構(gòu)化信息是可以數(shù)字化的數(shù) 據(jù)信息,可以方便地通過(guò)計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)進(jìn)行管理。無(wú)法完全數(shù)字化的信息稱(chēng)為非結(jié)構(gòu) 化信息,如文檔文件,圖片、圖紙資料、縮微膠片等。這些資源中擁有大量的有 價(jià)值的信息。現(xiàn)在這類(lèi)非結(jié)構(gòu)化信息正以成倍的速度增長(zhǎng),如果用以往的方 法來(lái) 管理這類(lèi)文檔,顯然己無(wú)法適應(yīng)現(xiàn)代科研機(jī)構(gòu)、企業(yè)的需要,其洗劫式的人力、空間 、時(shí)間資源占用將極大地影響信息共享與利用。如何有效地保存、管理這些信息資源,充分 地利用已有的網(wǎng)絡(luò)環(huán)境實(shí)現(xiàn)這些資源的輕松查詢(xún)、高效共享與利用,真正發(fā)揮電子信息技術(shù) 的作用成為擺在我們科研人員的一個(gè)現(xiàn)實(shí)問(wèn)題。 2 解決方案 隨著計(jì)算機(jī)技術(shù)的發(fā)展,外部存儲(chǔ)設(shè)備的容量成倍地增加,而價(jià)格卻急驟地下降,這樣我們 可以采取新的存貯方式來(lái)對(duì)非結(jié)構(gòu)化信息進(jìn)行保存?,F(xiàn)在流行的解決方案是將數(shù)據(jù)庫(kù)技術(shù)與 計(jì)算機(jī)影像技術(shù)相結(jié)合,實(shí)現(xiàn)對(duì)原始信息資源的存貯。其具體步驟包括信息資料的整理,批 量掃描,索引建庫(kù),質(zhì)量檢查,資料復(fù)原及刻制光盤(pán)。 首先,將文獻(xiàn)資料按一定順序整理,可以按每篇文章作為一份,或一套資料作為一份,以便 在后續(xù)工序中作為處理的計(jì)算單位使用。 其次,用普通平板掃描儀或高速掃描儀等專(zhuān)業(yè)輸入設(shè)備對(duì)每份文獻(xiàn)資料進(jìn)行掃描,形成計(jì)算 機(jī)的圖形文件,對(duì)于以文字為主的原始資料,生成圖形文件的存貯格式一般采用二值圖的ti f格式,為了節(jié)約空間可以使用CCITT G3或G4等深度壓縮格式,對(duì)于圖形文件或有色彩要求 的文獻(xiàn)資料,圖形文件可采用壓縮格式如jpg格式。如果資料數(shù)量較大,應(yīng)采用高速 掃描設(shè)備,如富士通公司生產(chǎn)的高速掃描儀,從25頁(yè)/min到320頁(yè)/min(雙面)不等??蓾M(mǎn) 足不同應(yīng)用的需求。影像是每頁(yè)紙生成一個(gè)圖像文件,其文件名稱(chēng)和圖像文件所處的目錄按 一定的存貯規(guī)則進(jìn)行 保存。在從數(shù)據(jù)庫(kù)中檢索到某篇文獻(xiàn)后,依此規(guī)則進(jìn)行影像調(diào)閱。 在文獻(xiàn)資料掃描的同時(shí),對(duì)影像文件壓縮存貯并建立索引(如文章的篇名、作者、索 引號(hào)、關(guān)鍵詞、文摘等)。索引的內(nèi)容保存在數(shù)據(jù)庫(kù)中,庫(kù)的格式可以是access或自定義格 式,其中的索引號(hào)是反映存貯規(guī)則的信息,根據(jù)它可以找到本文獻(xiàn)所處的位置,以及它的起 始頁(yè)和終止頁(yè)。 如影像文件的數(shù)量非常大,我們可以更進(jìn)一步利用光盤(pán)庫(kù)、光盤(pán)塔等海量存儲(chǔ)設(shè)備將其分類(lèi) 存儲(chǔ)在局域網(wǎng)的數(shù)據(jù)服務(wù)器上,也可根據(jù)需要發(fā)布到web服務(wù)器上。在局域網(wǎng)或互聯(lián)網(wǎng)上進(jìn) 行檢索、調(diào)閱,實(shí)現(xiàn)信息共享。 影像信息管理系統(tǒng)的軟件可分為二個(gè)模塊。第一個(gè)模塊為檢索模塊,其功能是摘要內(nèi)容的分 項(xiàng)檢索及全文檢索。分項(xiàng)檢索就是檢索內(nèi)容只包含于庫(kù)中的某個(gè)或某些字段中,例如,規(guī)定 檢索 內(nèi)容只包含在篇名或作者項(xiàng)中的為符合檢索條件的記錄。通欄檢索是檢索內(nèi)容可包含于任何 字段中。在分項(xiàng)檢索和通欄檢索中還可增加邏輯關(guān)系。 第二個(gè)模塊是影像調(diào)閱。按索引號(hào)進(jìn)行影像內(nèi)容的顯示??梢宰R(shí)別多種格式影像文件;有向前、向后翻閱,打印等功能。 此軟件根據(jù)應(yīng)用環(huán)境不同可分為單機(jī)版和基于瀏覽器檢索調(diào)閱的網(wǎng)絡(luò)版,以實(shí)現(xiàn)掃描影像 信息的有效管理和廣泛共享。此系統(tǒng)可應(yīng)用于煤炭系統(tǒng)的電子圖書(shū)館的建設(shè)、科技檔案、財(cái) 務(wù)票據(jù)的信息管理中,以及公司企業(yè)的辦公文檔計(jì)算機(jī)信息管理中。 3 應(yīng)用實(shí)例 《煤炭科學(xué)技術(shù)》、《煤炭學(xué)報(bào)》、《潔凈煤技術(shù)》30年光盤(pán)版,利用掃描、建立索引 ,調(diào)閱影像實(shí)現(xiàn)了期刊電子化。煤炭信息研究院擁有大量國(guó)外煤炭科技期刊資料,為了便于 管理和查閱,將館藏的1998年國(guó)外煤炭科技期刊,掃描、建庫(kù),其有7萬(wàn)多頁(yè),可實(shí)現(xiàn)篇名 、作者、期數(shù)及自由詞檢索。為建設(shè)煤炭電子圖書(shū)館向前邁進(jìn)了一步。《煤礦安全》、《大 屯煤炭科技》、《選煤技術(shù)》、《晉煤科技》等一批煤炭科技期刊也相繼制成了從創(chuàng)刊至今 的影像光盤(pán)珍藏版。 4 發(fā)展趨勢(shì) ?。?)互聯(lián)網(wǎng)飛速發(fā)展,影像掃描的文檔管理系統(tǒng)心須向互聯(lián)網(wǎng)的方向發(fā)展,需實(shí)現(xiàn)互聯(lián)網(wǎng) 上的登錄、注冊(cè)、檢索、調(diào)閱等功能。實(shí)現(xiàn)更大范圍內(nèi)的知識(shí)共享、信息共享。 (2)在影像的調(diào)閱中,嵌入OCR功能。使用OCR功能讓用戶(hù)在閱讀圖像原文的過(guò)程中隨時(shí)將 感興趣的內(nèi)容轉(zhuǎn)換成文本格式,以方便讀者的編輯利用。 (3)實(shí)現(xiàn)圖像檢索。此功能是直接對(duì)圖像內(nèi)容進(jìn)行檢索,保證檢索的準(zhǔn)確和全面,這 也是當(dāng)前對(duì)圖像處理的前沿課題 |