-
圖書(shū)數(shù)字化介紹
豆海圖書(shū)數(shù)字化解決方案,擬在以豆海人多年來(lái)在圖書(shū)、報(bào)紙、期刊、雜志和檔案方面的專(zhuān)業(yè)的數(shù)字化銷(xiāo)售、服務(wù)、實(shí)施經(jīng)驗(yàn),幫助用戶(hù)建立自己的數(shù)字化流水線加工工廠,高效、高質(zhì)量的實(shí)現(xiàn)電子資料的加工,或者利用豆海的加工工廠為客戶(hù)提供數(shù)字化加工服務(wù)。
隨著全國(guó)文化信息資源共享工程與中國(guó)數(shù)字圖書(shū)館工程的起動(dòng),信息化已成為國(guó)際潮流,信息資源建設(shè)成為當(dāng)務(wù)之急。信息資源建設(shè)的重點(diǎn)是電子文獻(xiàn)、各類(lèi)數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)資源、電子雜志、電子圖書(shū)等新型數(shù)字化信息資源的建設(shè)。在數(shù)字化信息資源建設(shè)中,很大的一個(gè)需求是將現(xiàn)有的紙介質(zhì)印刷品數(shù)字化,使之成為能夠用計(jì)算機(jī)閱讀、理解、查詢(xún)、檢索的電子文件,最終將其應(yīng)用于數(shù)據(jù)庫(kù)存儲(chǔ),或通過(guò)CD-ROM、Internet網(wǎng)進(jìn)行出版,或上傳數(shù)字圖書(shū)館供用戶(hù)使用。
以傳統(tǒng)紙張為載體的保存方式,占據(jù)了大量的空間,需要特殊的環(huán)境,而且不方便查詢(xún),隨著時(shí)間的推移,還面臨著腐蝕、老化等問(wèn)題。而將紙介質(zhì)文件信息進(jìn)行電子化處理,保存到光盤(pán)上,具有存儲(chǔ)、管理、共享等功能,還可以減少文件庫(kù)房占地,節(jié)省保管設(shè)備和人員方面開(kāi)支,又方便統(tǒng)計(jì)和進(jìn)行遠(yuǎn)程查詢(xún)。
因此,將圖書(shū)、期刊、報(bào)紙、文檔資料等信息資源通過(guò)掃描儀,掃描成圖像文件,再通過(guò)OCR識(shí)別成文字,建立目錄和全文索引,制作成電子文件,然后用軟件進(jìn)行管理使用,已是當(dāng)務(wù)之急。
-
圖書(shū)數(shù)字化的工序
圖書(shū)拆分→圖像掃描→圖像處理→文字識(shí)別→橫向校對(duì)→縱向校對(duì)→對(duì)比校→索引制作→索引質(zhì)檢→成品驗(yàn)收→圖書(shū)裝訂還原
1. 圖書(shū)拆分
為了方便掃描加工,對(duì)可以拆的圖書(shū)進(jìn)行拆分掃描,加工完后再進(jìn)行圖書(shū)還原。其流程為:圖書(shū)封皮與書(shū)脊分離,將脫離封皮的圖書(shū)書(shū)脊用電動(dòng)切紙機(jī)切去膠塊部份,不同情況按不同尺寸精度切開(kāi)。
2.圖像掃描
掃描組主要負(fù)責(zé)將紙質(zhì)性的圖書(shū)掃描轉(zhuǎn)為電子版的圖像。在過(guò)程當(dāng)中保證沒(méi)有少掃漏掃現(xiàn)象。
3.圖像處理
修圖組是對(duì)掃描完的電子圖像進(jìn)行去污、校正等;同時(shí)修圖組還進(jìn)行質(zhì)檢圖像模糊、原稿殘缺、補(bǔ)掃、漏掃、圖片不完整、多圖重疊等圖像問(wèn)題。
4.識(shí)別與校對(duì)
用專(zhuān)業(yè)的識(shí)別軟件將圖像進(jìn)行標(biāo)注并識(shí)別其文本,然后進(jìn)行人工一、二、三校,以保障數(shù)據(jù)的質(zhì)量達(dá)到出版水平。
文字識(shí)別:差錯(cuò)率千分之五
橫向校對(duì):差錯(cuò)率萬(wàn)分之五
縱向校對(duì):差錯(cuò)率萬(wàn)分之三
對(duì) 比 校:差錯(cuò)率萬(wàn)分之一
5.索引制作:
按照索引項(xiàng)目利用所提供的軟件進(jìn)行標(biāo)注或人工標(biāo)引。
6.索引質(zhì)檢:
檢查索引的文字正確性與索引的字段標(biāo)識(shí)。
7.成品驗(yàn)收:
對(duì)圖像、文本與索引進(jìn)行全面的質(zhì)檢,合格后提交成品。
8.裝書(shū)還原:
成品入庫(kù)后,就可以進(jìn)行圖書(shū)還原工作了,把要還原的圖書(shū)用平臺(tái)訂書(shū)機(jī)和電動(dòng)打穿裝訂機(jī)將書(shū)的內(nèi)容裝訂好,然后用膠訂機(jī)把書(shū)粘好,還原為原書(shū)。
-
圖書(shū)數(shù)字化的種類(lèi)
資料數(shù)字化根據(jù)檢索和利用需求,大概分為以下幾個(gè)種類(lèi):
第一類(lèi) 全文圖像化,有簡(jiǎn)單的目錄索引
這種類(lèi)型的資料數(shù)字化,僅僅是將紙質(zhì)的資料利用掃描儀掃描成圖像文件,并進(jìn)行簡(jiǎn)單的編目,提供目錄索引,而不做文字的識(shí)別。
其流程如下:
這種電子資料的好處在于投資小,每單位的價(jià)格最便宜;其缺點(diǎn)是沒(méi)有全文檢索功能,只能為讀者提供簡(jiǎn)單的索引查詢(xún),圖像文件較大導(dǎo)致瀏覽速度較慢。
第二類(lèi) 全文文本化,可全文檢索
這種類(lèi)型的資料數(shù)字化,全部利用人工錄入,建立全文文本化的電子資料,可以提供全文檢索。
其流程如下:
其優(yōu)點(diǎn)是占用存儲(chǔ)空間較小,可實(shí)現(xiàn)全文檢索,瀏覽傳輸速度快;其缺點(diǎn)是未經(jīng)過(guò)格式化,沒(méi)有版面信息,讀者閱覽到的是單純文本,單位價(jià)格較高。
第三類(lèi) 全文圖像文本化,可全文檢索
這種類(lèi)型的資料數(shù)字化,在提供紙質(zhì)資料的掃描圖像文件后,還進(jìn)行了人工錄入或者OCR識(shí)別,為圖書(shū)建立了全文文本,因此可以提供全文檢索。
其流程如下:
這種類(lèi)型,實(shí)際上是利用雙層文件的形式向讀者展示電子資料的。它分為上下兩層,上面的是圖像層,下面的是文本層,但是這種文本沒(méi)有經(jīng)過(guò)排版,它是無(wú)格式混亂的。讀者看到的是上層的圖像,而全文檢索時(shí),可以使用下層的文本。這種類(lèi)型的好處在于單位價(jià)格較便宜,但是由于在讀者瀏覽時(shí)要同時(shí)傳輸圖像文件和文本文件,其瀏覽速度最慢。
第四類(lèi) 基于原版原樣的,可全文檢索
這種類(lèi)型的資料數(shù)字化,利用掃描儀將紙質(zhì)資料掃描加工成圖像文件,再通過(guò)OCR工廠,識(shí)別成能夠保留原始版面樣式的文本化的文件(如:rtf、pdf格式),它既保留了版面的信息,又是全文文本化的,可以提供全文的檢索。
其大致流程如下(更詳細(xì)的流程參見(jiàn)后面的“豆海圖書(shū)電子化的過(guò)程”):
這種類(lèi)型的優(yōu)點(diǎn)在于支持全文檢索,占用存儲(chǔ)空間較少,由于是文本格式的文件,電子資料質(zhì)量(放大、縮小是不失真)和瀏覽速度都很好;其缺點(diǎn)是價(jià)格較高。
-
規(guī)?;?、流水線式的數(shù)字化加工
公司避于手工業(yè)作坊式的生產(chǎn)方式,建立了數(shù)字化加工工廠。并創(chuàng)立了從資料整理去污→掃描→圖像處理(糾偏、消藍(lán)、圖像增強(qiáng)、去雜)→OCR識(shí)別(版面分析、識(shí)別、橫向校對(duì)、縱向校對(duì)、導(dǎo)出文件)→建立索引→刻錄光盤(pán)(可全文檢索、二次檢索、模糊檢索)等全過(guò)程的流水線式加工方式,大大提高了加工效率和效果。規(guī)范了加工流程、項(xiàng)目管理方法和制度,合理的分配人員到各個(gè)流水線節(jié)點(diǎn),創(chuàng)建了可優(yōu)化的項(xiàng)目質(zhì)量保證體系,使得每一次新的加工項(xiàng)目都能夠繼承原有項(xiàng)目的優(yōu)秀經(jīng)驗(yàn),并使得在這次新的項(xiàng)目中產(chǎn)生的經(jīng)驗(yàn),能夠有效的被下一個(gè)項(xiàng)目繼承和發(fā)揚(yáng)。
規(guī)模化的生產(chǎn)、流水線式的作業(yè),使得加工工人能夠從事自己最擅長(zhǎng)和最熟練的工作,導(dǎo)致了項(xiàng)目質(zhì)量的不斷提高和單位成本的穩(wěn)定下降。
-
成熟的軟件產(chǎn)品
豆海本著以廣闊的胸襟,容納各種優(yōu)秀的人才和產(chǎn)品。由于經(jīng)濟(jì)的全球化帶來(lái)的人才和競(jìng)爭(zhēng)方面的壓力,使得任何一個(gè)公司都不可能完全依賴(lài)于自己而立足于市場(chǎng)不敗,要想在競(jìng)爭(zhēng)中獲得生存,就必須和其他人合作。
我們引進(jìn)OCR錄入工廠,OCR錄入工廠具有以下一些特點(diǎn):
★高品質(zhì):不須打印校樣,一次錄入就能達(dá)到出版質(zhì)量,可將最終文檔的錯(cuò)誤率嚴(yán)格控制在萬(wàn)分之一以?xún)?nèi);
★高效低成本:保持同樣數(shù)量工作人員的情況下完成更大的工作量;生產(chǎn)效率是傳統(tǒng)手工方式的3倍以上
★超強(qiáng)能力:具有對(duì)超大字符集(達(dá)兩萬(wàn)余字)、超多種字體(近百種)的漢字識(shí)別能力;具有超級(jí)查錯(cuò)糾錯(cuò)能力,將電子文檔的錯(cuò)誤率減少到萬(wàn)分之一以下;具有對(duì)彩色及復(fù)雜中文資料等進(jìn)行版面分析、版面理解和準(zhǔn)確復(fù)原的能力;能將已有的各種印刷品自動(dòng)地轉(zhuǎn)換化為具有原式原樣原文重現(xiàn)版面的、可供計(jì)算機(jī)閱讀和查詢(xún)檢索的、具有PDF、HTML、RTF等標(biāo)準(zhǔn)文檔格式的文檔輸出。
OCR錄入工廠的構(gòu)成:
★精確的版面分析:OCR數(shù)據(jù)錄入工廠能對(duì)掃描獲得的各種圖像,包括彩色/灰度圖像和二值圖像及復(fù)雜的報(bào)刊、雜志進(jìn)行自動(dòng)版面分析,分析不同的物理結(jié)構(gòu)元素進(jìn)行區(qū)域分割,即橫、豎排文本區(qū)、圖形、表格區(qū)等;
★超強(qiáng)的識(shí)別核心:OCR數(shù)據(jù)錄入工廠是唯一可以識(shí)別2萬(wàn)多漢字的系統(tǒng),綜合性能處于國(guó)內(nèi)外絕對(duì)領(lǐng)先地位。該系統(tǒng)可識(shí)別簡(jiǎn)體6763個(gè)漢字(國(guó)標(biāo)一級(jí)3755和國(guó)標(biāo)二級(jí)3008)、繁體13053個(gè)漢字(繁體字一級(jí)5401和二級(jí)7652)的超大字符集,可識(shí)別字體達(dá)近百種(同時(shí)自動(dòng)識(shí)別原各種宋體、仿宋、黑體和楷體及小姚和魏碑等字體外,還同時(shí)自動(dòng)識(shí)別各種圓體、隸書(shū)等等);
★獨(dú)特的校對(duì)方式:具有超級(jí)查錯(cuò)糾錯(cuò)能力,通過(guò)橫向校對(duì)、縱向校對(duì)、對(duì)比校對(duì)后確保電子文檔的錯(cuò)誤率“萬(wàn)無(wú)一失”;
★原版原樣的版面恢復(fù):可將掃描、識(shí)別、校對(duì)后的各種報(bào)刊、雜志、圖書(shū)等的電子文檔自動(dòng)地轉(zhuǎn)換為具有原式原樣、版面信息重構(gòu)的、可供計(jì)算機(jī)閱讀和查詢(xún)檢索的、具有PDF、HTML等標(biāo)準(zhǔn)格式的電子文檔;
★方便地應(yīng)用于全文檢索:由錄入工廠處理生成的多種電子文檔格式,可應(yīng)用于各種檢索系統(tǒng)??芍苯佑糜跀?shù)字圖書(shū)館、CD-ROM出版或Internet網(wǎng)上出版;在“Jdaedit”軟件中,將識(shí)別后文檔自動(dòng)編輯形成邏輯結(jié)構(gòu),比如:圖書(shū)的“書(shū)名”、“版號(hào)”、“正文”、“作者”等標(biāo)引信息。標(biāo)引信息是自動(dòng)形成的,但需要人工調(diào)整和添加。標(biāo)引信息為數(shù)據(jù)的自動(dòng)歸檔、全文精確檢索等提供了條件。同時(shí),“Jdaedit”軟件也是形成PDF格式文檔的必要工具;
★流程管理和質(zhì)量控制:流程管理貫穿于整個(gè)錄入工廠的生產(chǎn)流程中,服務(wù)器端控制整個(gè)流程,它將數(shù)據(jù)打包、分發(fā)給各個(gè)客戶(hù)端;客戶(hù)端接收數(shù)據(jù)包,完成流程當(dāng)中的某個(gè)或某幾個(gè)工序,完成后將數(shù)據(jù)打包發(fā)回給服務(wù)器。質(zhì)量控制功能是檢驗(yàn)最終文本錯(cuò)誤率的有效工具,它通過(guò)獨(dú)特的方法檢驗(yàn)橫向校對(duì)、縱向校對(duì)和綜合校對(duì)之后的文本差錯(cuò)率以確保最終文本的差錯(cuò)率在一定范圍之內(nèi)。流程管理和質(zhì)量控制是大批量數(shù)據(jù)高效、高質(zhì)錄入的必不可少的環(huán)節(jié)。
豆海圖書(shū)數(shù)字化解決方案以O(shè)CR錄入工廠為核心產(chǎn)品,并輔助圖像凈化處理系統(tǒng)、圖文校驗(yàn)工具,在整個(gè)的過(guò)程中融入豆海多年的資料數(shù)字化領(lǐng)域的管理與制作經(jīng)驗(yàn),確保為用戶(hù)提供優(yōu)秀的產(chǎn)品和服務(wù)。
-
優(yōu)秀的加工團(tuán)隊(duì)
現(xiàn)今世界的社會(huì)分工逐漸向兩個(gè)方向延伸:一是,專(zhuān)業(yè)化和職業(yè)化,二是,分工合作。我們生活在一個(gè)知識(shí)爆炸的年代,信息不是貧乏,而是泛濫,這導(dǎo)致任何的人都不能精通所有的行業(yè),職業(yè)化以及專(zhuān)業(yè)化使得人們能夠更專(zhuān)注于自己的領(lǐng)域,而做出更大的貢獻(xiàn)。分工合作使項(xiàng)目的成功率大大提高。
豆海秉承以人為本的企業(yè)文化,注重員工與公司的共同發(fā)展,擁有著一批具有專(zhuān)業(yè)技術(shù)和管理水平的項(xiàng)目經(jīng)理及加工隊(duì)伍,可以同時(shí)為多家客戶(hù)提供數(shù)字化加工服務(wù)。
-
低廉的價(jià)格
豆海采用優(yōu)秀的產(chǎn)品能夠節(jié)省3~5倍于傳統(tǒng)手工方式的加工,通過(guò)規(guī)?;土魉€式的生產(chǎn)手段,再次降低了各種費(fèi)用和成本,我們?yōu)榭蛻?hù)提供優(yōu)質(zhì)產(chǎn)品的同時(shí),能夠以低于同行業(yè)水平的價(jià)格為客戶(hù)提供加工服務(wù)。
-
完善的服務(wù)
信息數(shù)字化是一個(gè)服務(wù)性質(zhì)的行業(yè),豆海把“客戶(hù)就是上帝”的思想,從經(jīng)理到員工,從前期銷(xiāo)售到后期加工、服務(wù),貫徹到每個(gè)地方,讓公司所有員工都建立為客戶(hù)提供優(yōu)質(zhì)服務(wù)的理念。
公司為客戶(hù)提供從售前的銷(xiāo)售拜訪、售前咨詢(xún)、規(guī)劃、解決、實(shí)施方案,到售后的免費(fèi)電話、現(xiàn)場(chǎng)有限支持、定期客戶(hù)回訪等方式,為客戶(hù)提供優(yōu)質(zhì)的服務(wù)。
-
豆海資料數(shù)字化解決方案的流程:
-
正確率
出版要求錯(cuò)誤率控制在萬(wàn)分之三以?xún)?nèi),傳統(tǒng)的資料數(shù)字化過(guò)程需要進(jìn)行人工錄入、打樣、一校、打樣、二校、打樣、三校等三次校對(duì),而且其中有大量的人工參與;而豆海公司通過(guò)圖像凈化、OCR識(shí)別、橫向校對(duì)、縱向校對(duì)等手段(絕大部分是由計(jì)算機(jī)完成),能夠?qū)τ∷Ⅲw的資料將錯(cuò)誤率控制到“萬(wàn)無(wú)一失”。
-
加工速度
傳統(tǒng)的資料數(shù)字化主要是通過(guò)人工打字錄入的方式,再通過(guò)打樣、校對(duì)、排版等工序,最后制作出電子資料。其中大量的需要人工的參與,利用計(jì)算機(jī)的優(yōu)勢(shì)之處較少,因而加工速度較慢。
豆海資料數(shù)字化主要是利用快速掃描技術(shù)、圖像處理技術(shù)、OCR識(shí)別技術(shù)等,大量的利用計(jì)算機(jī)快速處理能力,并輔助人工的控制和管理,因而具有非常高的加工速度。