-
報(bào)紙掃描加工
以傳統(tǒng)紙張為載體的保存方式,占據(jù)了大量的空間,需要特殊的環(huán)境,而且不方便查詢(xún),隨著時(shí)間的推移,還面臨著腐蝕、老化等問(wèn)題。而將紙介質(zhì)文件信息進(jìn)行電子化處理,保存到光盤(pán)上,具有存儲(chǔ)、管理、共享等功能,還可以減少文件庫(kù)房占地,節(jié)省保管設(shè)備和人員方面開(kāi)支,又方便統(tǒng)計(jì)和進(jìn)行遠(yuǎn)程查詢(xún)。
將報(bào)紙進(jìn)行整理,采用大幅面掃描儀進(jìn)行數(shù)字化加工,然后對(duì)圖像進(jìn)行拼接,形成完整的PDF文檔。作為報(bào)刊數(shù)據(jù)庫(kù),方便用戶(hù)在線閱讀、下載和管理。
1. 報(bào)紙整理
報(bào)紙是重要的文獻(xiàn),需要妥善分類(lèi),按照?qǐng)?bào)紙的紙張情況、版面、裝訂方式等進(jìn)行妥善分類(lèi)和整理,并選擇合適的數(shù)字化設(shè)備。
2.報(bào)紙掃描
根據(jù)報(bào)紙的幅面,選擇A3平板掃描儀等進(jìn)行數(shù)字化加工。對(duì)于早期的報(bào)紙,可以選用數(shù)碼相機(jī)進(jìn)行高精度拍攝,盡可能保持報(bào)紙?jiān)病?
3.圖像處理
由于報(bào)紙大小不一、排版方式靈活,所以要采用圖像拼接技術(shù),將內(nèi)容進(jìn)行完整的銜接。對(duì)掃描圖片進(jìn)行處理,去邊、消除污點(diǎn)、傾斜、版心不正等問(wèn)題,并統(tǒng)一格式。
4、文字識(shí)別:
豆海采用國(guó)際領(lǐng)先的OCR識(shí)別技術(shù),既可以識(shí)別常見(jiàn)的簡(jiǎn)體漢字、繁體漢字、英文,也可以識(shí)別日文、韓文、俄文、德文、法文等190多種文字,準(zhǔn)確率99.5%以上。
5、格式轉(zhuǎn)換:
格式轉(zhuǎn)換是將其他格式的文件轉(zhuǎn)換為雙層PDF。文件格式可以是電子文檔,如DOC、S2、S72、PS、WPS等多種文件格式;也可以是經(jīng)過(guò)整理順序模塊整理成冊(cè)的紙張掃描文件。
6.數(shù)據(jù)標(biāo)引、掛接。對(duì)文章進(jìn)行分篇、著錄、鏈接,將PDF電子文件掛接到數(shù)據(jù)庫(kù),實(shí)現(xiàn)圖、文一致,為用戶(hù)提供良好的檢索軟件。