-
古籍?dāng)?shù)字化介紹
我國(guó)古籍?dāng)?shù)字化經(jīng)歷了數(shù)據(jù)庫(kù)版、光盤(pán)版、網(wǎng)絡(luò)版三個(gè)建設(shè)階段。數(shù)據(jù)庫(kù)版古籍包括書(shū)目數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù)兩種形式。光盤(pán)版古籍一般有圖像版、全文版和圖文版三種類(lèi)型。網(wǎng)絡(luò)版古籍主要是將數(shù)字化的古籍資源在網(wǎng)絡(luò)上有償或無(wú)償發(fā)布,供互聯(lián)網(wǎng)用戶使用,這是目前古籍?dāng)?shù)字化的主要目標(biāo)。
在網(wǎng)絡(luò)時(shí)代,任何知識(shí)信息得到充分利用的前提,是看其能否轉(zhuǎn)化為數(shù)字化信息。古籍文獻(xiàn)有很高的學(xué)術(shù)價(jià)值,我公司采用計(jì)算機(jī)技術(shù),對(duì)古籍文獻(xiàn)進(jìn)行全文數(shù)字化加工處理,制作成古籍文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)和古籍全文數(shù)據(jù)庫(kù),不僅有效保護(hù)古籍,而且能更好地傳播利用古籍,提高古籍文獻(xiàn)的使用率。
-
?;⒘魉€式的數(shù)字化加工
公司避于手工業(yè)作坊式的生產(chǎn)方式,建立了數(shù)字化加工工廠。并創(chuàng)立了從資料整理去污→掃描→圖像處理(糾偏、消藍(lán)、圖像增強(qiáng)、去雜)→OCR識(shí)別(版面分析、識(shí)別、橫向校對(duì)、縱向校對(duì)、導(dǎo)出文件)→建立索引→刻錄光盤(pán)(可全文檢索、二次檢索、模糊檢索)等全過(guò)程的流水線式加工方式,大大提高了加工效率和效果。規(guī)范了加工流程、項(xiàng)目管理方法和制度,合理的分配人員到各個(gè)流水線節(jié)點(diǎn),創(chuàng)建了可優(yōu)化的項(xiàng)目質(zhì)量保證體系,使得每一次新的加工項(xiàng)目都能夠繼承原有項(xiàng)目的優(yōu)秀經(jīng)驗(yàn),并使得在這次新的項(xiàng)目中產(chǎn)生的經(jīng)驗(yàn),能夠有效的被下一個(gè)項(xiàng)目繼承和發(fā)揚(yáng)。
規(guī)?;纳a(chǎn)、流水線式的作業(yè),使得加工工人能夠從事自己最擅長(zhǎng)和最熟練的工作,導(dǎo)致了項(xiàng)目質(zhì)量的不斷提高和單位成本的穩(wěn)定下降。
-
成熟的軟件產(chǎn)品
豆海本著以廣闊的胸襟,容納各種優(yōu)秀的人才和產(chǎn)品。由于經(jīng)濟(jì)的全球化帶來(lái)的人才和競(jìng)爭(zhēng)方面的壓力,使得任何一個(gè)公司都不可能完全依賴于自己而立足于市場(chǎng)不敗,要想在競(jìng)爭(zhēng)中獲得生存,就必須和其他人合作。
我們引進(jìn)TH-OCR錄入工廠,并與清華紫光建立了合作伙伴關(guān)系,在數(shù)字化領(lǐng)域進(jìn)行多方面產(chǎn)品與服務(wù)合作。
-
流程管理和質(zhì)量控制:
流程管理貫穿于整個(gè)錄入工廠的生產(chǎn)流程中,服務(wù)器端控制整個(gè)流程,它將數(shù)據(jù)打包、分發(fā)給各個(gè)客戶端;客戶端接收數(shù)據(jù)包,完成流程當(dāng)中的某個(gè)或某幾個(gè)工序,完成后將數(shù)據(jù)打包發(fā)回給服務(wù)器。質(zhì)量控制功能是檢驗(yàn)最終文本錯(cuò)誤率的有效工具,它通過(guò)獨(dú)特的方法檢驗(yàn)橫向校對(duì)、縱向校對(duì)和綜合校對(duì)之后的文本差錯(cuò)率以確保最終文本的差錯(cuò)率在一定范圍之內(nèi)。流程管理和質(zhì)量控制是大批量數(shù)據(jù)高效、高質(zhì)錄入的必不可少的環(huán)節(jié)。
豆海資料數(shù)字化解決方案以O(shè)CR錄入工廠為核心產(chǎn)品,并輔助圖像凈化處理系統(tǒng)、圖文校驗(yàn)工具,在整個(gè)的過(guò)程中融入豆海多年的資料數(shù)字化領(lǐng)域的管理與制作經(jīng)驗(yàn),確保為用戶提供優(yōu)秀的產(chǎn)品和服務(wù)。
-
數(shù)字化流程 :
1、古籍領(lǐng)出登記
將珍貴古籍從館里領(lǐng)出進(jìn)行數(shù)字化掃描,做到每一本領(lǐng)出古籍都要嚴(yán)格登記,避免遺漏。登記時(shí)確認(rèn)每本古籍的總頁(yè)數(shù),與管理人員進(jìn)行交接
2、古籍整理
將領(lǐng)出古籍進(jìn)行平整處理,確保古籍無(wú)粘連、折邊、部分缺失等情況,確認(rèn)處理好后開(kāi)始利用書(shū)刊掃描儀進(jìn)行數(shù)字化掃描。 如無(wú)頁(yè)碼的需進(jìn)行人工編頁(yè)碼防止掃描是順序錯(cuò)亂以及丟頁(yè)。
3、古籍掃描
進(jìn)行掃描時(shí),根據(jù)每本古籍的不同情況做相應(yīng)的處理。如古籍情況較好,則可以采用玻璃壓稿臺(tái)對(duì)古籍進(jìn)行壓平掃描;如古籍紙張較薄,則需用空白A4紙張進(jìn)行插墊,確保獲得的影像不會(huì)有背透而影響觀賞效果;如古籍本身情況不理想,則不必使用玻璃壓稿臺(tái)進(jìn)行壓平,由書(shū)刊掃描儀自帶PerfectBook 功能進(jìn)行掃描處理。
4、圖像修圖處理
掃描后的圖像進(jìn)行糾偏、去黑邊、分頁(yè)、拼圖等處理,更高的還原原圖像。
5、圖像質(zhì)檢
處理后的圖像統(tǒng)一質(zhì)檢,質(zhì)檢視具體情況而言分為一次質(zhì)檢和二次質(zhì)檢。主要是檢查圖像的質(zhì)量,和有無(wú)漏頁(yè)、重復(fù)掃描等情況。 發(fā)現(xiàn)問(wèn)題及時(shí)改正補(bǔ)掃等等。
6、識(shí)別錄入
利用OCR對(duì)圖像進(jìn)行版面分析,比如文字的橫向縱向、圖片與表格等進(jìn)行進(jìn)行區(qū)分處理。
將分析好的圖像OCR進(jìn)行智能識(shí)別并進(jìn)行人工校對(duì)(可先進(jìn)行縱校再橫校),保證質(zhì)量減少錯(cuò)誤率。
經(jīng)過(guò)人工的一二三校,將數(shù)據(jù)按客戶要求的格式輸出并根據(jù)不同要求排版處理等。
7、格式轉(zhuǎn)換
雙層PDF圖文格式: 用掃描方式制成TIFF圖像,然后利用OCR技術(shù)將圖像形式全部識(shí)別為可檢索的漢字,并將文字和圖像進(jìn)行對(duì)應(yīng),制作成圖像在上、文字在下的雙層PDF格式文件。既便于用戶快速準(zhǔn)確地查找到所需內(nèi)容,又能使用戶古籍的原始面貌。雙層PDF特別適合于古籍?dāng)?shù)字化,異寫(xiě)、通假、避諱等造成的眾多漢字無(wú)法完全識(shí)別,用戶通過(guò)圖像即可對(duì)照。
8、數(shù)據(jù)存儲(chǔ)
據(jù)及壓縮轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行存儲(chǔ),通過(guò)網(wǎng)絡(luò)傳輸?shù)酱疟P(pán)陣列中進(jìn)行存儲(chǔ)。
9、古籍入庫(kù)登記
完畢后,將掃描后的古籍及未完成的古籍進(jìn)行入庫(kù)。與管理人員進(jìn)行逐一核對(duì),核對(duì)無(wú)誤后進(jìn)行登記,登記完成后,古籍方可入庫(kù)。