方案

多媒體數(shù)據(jù)庫(kù)建設(shè)

地方特色文獻(xiàn)數(shù)據(jù)庫(kù)解決方案

圖書(shū)信息化

檔案信息化

數(shù)據(jù)處理

互聯(lián)網(wǎng)數(shù)據(jù)處理解決方案

客戶(hù)服務(wù)中心

您可以直接撥打我們的客戶(hù)服務(wù)熱線或者把您的意見(jiàn)發(fā)送至我們的郵箱

400-150-8910

douhi@douhi.com

鄭州市高新區(qū)長(zhǎng)椿街11號(hào)河南省國(guó)家大學(xué)科技園1號(hào)孵化樓16層西C16

當(dāng)前位置：方案 > 圖書(shū)數(shù)字化解決方案

圖書(shū)數(shù)字化介紹

豆海圖書(shū)數(shù)字化解決方案，擬在以豆海人多年來(lái)在圖書(shū)、報(bào)紙、期刊、雜志和檔案方面的專(zhuān)業(yè)的數(shù)字化銷(xiāo)售、服務(wù)、實(shí)施經(jīng)驗(yàn)，幫助用戶(hù)建立自己的數(shù)字化流水線加工工廠，高效、高質(zhì)量的實(shí)現(xiàn)電子資料的加工，或者利用豆海的加工工廠為客戶(hù)提供數(shù)字化加工服務(wù)。

隨著全國(guó)文化信息資源共享工程與中國(guó)數(shù)字圖書(shū)館工程的起動(dòng)，信息化已成為國(guó)際潮流，信息資源建設(shè)成為當(dāng)務(wù)之急。信息資源建設(shè)的重點(diǎn)是電子文獻(xiàn)、各類(lèi)數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)資源、電子雜志、電子圖書(shū)等新型數(shù)字化信息資源的建設(shè)。在數(shù)字化信息資源建設(shè)中，很大的一個(gè)需求是將現(xiàn)有的紙介質(zhì)印刷品數(shù)字化，使之成為能夠用計(jì)算機(jī)閱讀、理解、查詢(xún)、檢索的電子文件，最終將其應(yīng)用于數(shù)據(jù)庫(kù)存儲(chǔ)，或通過(guò)CD-ROM、Internet網(wǎng)進(jìn)行出版，或上傳數(shù)字圖書(shū)館供用戶(hù)使用。

以傳統(tǒng)紙張為載體的保存方式，占據(jù)了大量的空間，需要特殊的環(huán)境，而且不方便查詢(xún)，隨著時(shí)間的推移，還面臨著腐蝕、老化等問(wèn)題。而將紙介質(zhì)文件信息進(jìn)行電子化處理，保存到光盤(pán)上，具有存儲(chǔ)、管理、共享等功能，還可以減少文件庫(kù)房占地，節(jié)省保管設(shè)備和人員方面開(kāi)支，又方便統(tǒng)計(jì)和進(jìn)行遠(yuǎn)程查詢(xún)。

因此，將圖書(shū)、期刊、報(bào)紙、文檔資料等信息資源通過(guò)掃描儀，掃描成圖像文件，再通過(guò)OCR識(shí)別成文字，建立目錄和全文索引，制作成電子文件，然后用軟件進(jìn)行管理使用，已是當(dāng)務(wù)之急。

圖書(shū)數(shù)字化的工序

圖書(shū)拆分→圖像掃描→圖像處理→文字識(shí)別→橫向校對(duì)→縱向校對(duì)→對(duì)比校→索引制作→索引質(zhì)檢→成品驗(yàn)收→圖書(shū)裝訂還原

1. 圖書(shū)拆分

為了方便掃描加工，對(duì)可以拆的圖書(shū)進(jìn)行拆分掃描，加工完后再進(jìn)行圖書(shū)還原。其流程為：圖書(shū)封皮與書(shū)脊分離，將脫離封皮的圖書(shū)書(shū)脊用電動(dòng)切紙機(jī)切去膠塊部份，不同情況按不同尺寸精度切開(kāi)。

2.圖像掃描

掃描組主要負(fù)責(zé)將紙質(zhì)性的圖書(shū)掃描轉(zhuǎn)為電子版的圖像。在過(guò)程當(dāng)中保證沒(méi)有少掃漏掃現(xiàn)象。

3.圖像處理

修圖組是對(duì)掃描完的電子圖像進(jìn)行去污、校正等；同時(shí)修圖組還進(jìn)行質(zhì)檢圖像模糊、原稿殘缺、補(bǔ)掃、漏掃、圖片不完整、多圖重疊等圖像問(wèn)題。

4.識(shí)別與校對(duì)

用專(zhuān)業(yè)的識(shí)別軟件將圖像進(jìn)行標(biāo)注并識(shí)別其文本，然后進(jìn)行人工一、二、三校，以保障數(shù)據(jù)的質(zhì)量達(dá)到出版水平。

文字識(shí)別：差錯(cuò)率千分之五

橫向校對(duì)：差錯(cuò)率萬(wàn)分之五

縱向校對(duì)：差錯(cuò)率萬(wàn)分之三

對(duì) 比校：差錯(cuò)率萬(wàn)分之一

5．索引制作：

按照索引項(xiàng)目利用所提供的軟件進(jìn)行標(biāo)注或人工標(biāo)引。

6．索引質(zhì)檢：

檢查索引的文字正確性與索引的字段標(biāo)識(shí)。

7．成品驗(yàn)收：

對(duì)圖像、文本與索引進(jìn)行全面的質(zhì)檢，合格后提交成品。

8．裝書(shū)還原：

成品入庫(kù)后，就可以進(jìn)行圖書(shū)還原工作了，把要還原的圖書(shū)用平臺(tái)訂書(shū)機(jī)和電動(dòng)打穿裝訂機(jī)將書(shū)的內(nèi)容裝訂好，然后用膠訂機(jī)把書(shū)粘好，還原為原書(shū)。

圖書(shū)數(shù)字化的種類(lèi)

資料數(shù)字化根據(jù)檢索和利用需求，大概分為以下幾個(gè)種類(lèi)：

第一類(lèi) 全文圖像化，有簡(jiǎn)單的目錄索引

這種類(lèi)型的資料數(shù)字化，僅僅是將紙質(zhì)的資料利用掃描儀掃描成圖像文件，并進(jìn)行簡(jiǎn)單的編目，提供目錄索引，而不做文字的識(shí)別。

其流程如下：

$_3VBFAW@JOB{9RH}M1)K6)H.png$

這種電子資料的好處在于投資小，每單位的價(jià)格最便宜；其缺點(diǎn)是沒(méi)有全文檢索功能，只能為讀者提供簡(jiǎn)單的索引查詢(xún)，圖像文件較大導(dǎo)致瀏覽速度較慢。

第二類(lèi) 全文文本化，可全文檢索

這種類(lèi)型的資料數(shù)字化，全部利用人工錄入，建立全文文本化的電子資料，可以提供全文檢索。

其流程如下：

~QSAQAAMO7RDG_(9S9J_B2B.png

其優(yōu)點(diǎn)是占用存儲(chǔ)空間較小，可實(shí)現(xiàn)全文檢索，瀏覽傳輸速度快；其缺點(diǎn)是未經(jīng)過(guò)格式化，沒(méi)有版面信息，讀者閱覽到的是單純文本，單位價(jià)格較高。

第三類(lèi) 全文圖像文本化，可全文檢索

這種類(lèi)型的資料數(shù)字化，在提供紙質(zhì)資料的掃描圖像文件后，還進(jìn)行了人工錄入或者OCR識(shí)別，為圖書(shū)建立了全文文本，因此可以提供全文檢索。

其流程如下：

{QQEU%IH5A399[{~LRBMK@Y.png

這種類(lèi)型，實(shí)際上是利用雙層文件的形式向讀者展示電子資料的。它分為上下兩層，上面的是圖像層，下面的是文本層，但是這種文本沒(méi)有經(jīng)過(guò)排版，它是無(wú)格式混亂的。讀者看到的是上層的圖像，而全文檢索時(shí)，可以使用下層的文本。這種類(lèi)型的好處在于單位價(jià)格較便宜，但是由于在讀者瀏覽時(shí)要同時(shí)傳輸圖像文件和文本文件，其瀏覽速度最慢。

第四類(lèi) 基于原版原樣的，可全文檢索

這種類(lèi)型的資料數(shù)字化，利用掃描儀將紙質(zhì)資料掃描加工成圖像文件，再通過(guò)OCR工廠，識(shí)別成能夠保留原始版面樣式的文本化的文件（如：rtf、pdf格式），它既保留了版面的信息，又是全文文本化的，可以提供全文的檢索。

其大致流程如下（更詳細(xì)的流程參見(jiàn)后面的“豆海圖書(shū)電子化的過(guò)程”）：

S10%83TL129QTV)HL{}22GA.png

這種類(lèi)型的優(yōu)點(diǎn)在于支持全文檢索，占用存儲(chǔ)空間較少，由于是文本格式的文件，電子資料質(zhì)量（放大、縮小是不失真）和瀏覽速度都很好；其缺點(diǎn)是價(jià)格較高。

規(guī)?；?、流水線式的數(shù)字化加工

公司避于手工業(yè)作坊式的生產(chǎn)方式，建立了數(shù)字化加工工廠。并創(chuàng)立了從資料整理去污→掃描→圖像處理（糾偏、消藍(lán)、圖像增強(qiáng)、去雜）→OCR識(shí)別（版面分析、識(shí)別、橫向校對(duì)、縱向校對(duì)、導(dǎo)出文件）→建立索引→刻錄光盤(pán)（可全文檢索、二次檢索、模糊檢索）等全過(guò)程的流水線式加工方式，大大提高了加工效率和效果。規(guī)范了加工流程、項(xiàng)目管理方法和制度，合理的分配人員到各個(gè)流水線節(jié)點(diǎn)，創(chuàng)建了可優(yōu)化的項(xiàng)目質(zhì)量保證體系，使得每一次新的加工項(xiàng)目都能夠繼承原有項(xiàng)目的優(yōu)秀經(jīng)驗(yàn)，并使得在這次新的項(xiàng)目中產(chǎn)生的經(jīng)驗(yàn)，能夠有效的被下一個(gè)項(xiàng)目繼承和發(fā)揚(yáng)。

規(guī)模化的生產(chǎn)、流水線式的作業(yè)，使得加工工人能夠從事自己最擅長(zhǎng)和最熟練的工作，導(dǎo)致了項(xiàng)目質(zhì)量的不斷提高和單位成本的穩(wěn)定下降。

成熟的軟件產(chǎn)品

豆海本著以廣闊的胸襟，容納各種優(yōu)秀的人才和產(chǎn)品。由于經(jīng)濟(jì)的全球化帶來(lái)的人才和競(jìng)爭(zhēng)方面的壓力，使得任何一個(gè)公司都不可能完全依賴(lài)于自己而立足于市場(chǎng)不敗，要想在競(jìng)爭(zhēng)中獲得生存，就必須和其他人合作。

我們引進(jìn)OCR錄入工廠，OCR錄入工廠具有以下一些特點(diǎn)：

★高品質(zhì)：不須打印校樣，一次錄入就能達(dá)到出版質(zhì)量，可將最終文檔的錯(cuò)誤率嚴(yán)格控制在萬(wàn)分之一以?xún)?nèi)；

★高效低成本：保持同樣數(shù)量工作人員的情況下完成更大的工作量；生產(chǎn)效率是傳統(tǒng)手工方式的3倍以上

★超強(qiáng)能力：具有對(duì)超大字符集(達(dá)兩萬(wàn)余字)、超多種字體(近百種)的漢字識(shí)別能力；具有超級(jí)查錯(cuò)糾錯(cuò)能力，將電子文檔的錯(cuò)誤率減少到萬(wàn)分之一以下；具有對(duì)彩色及復(fù)雜中文資料等進(jìn)行版面分析、版面理解和準(zhǔn)確復(fù)原的能力；能將已有的各種印刷品自動(dòng)地轉(zhuǎn)換化為具有原式原樣原文重現(xiàn)版面的、可供計(jì)算機(jī)閱讀和查詢(xún)檢索的、具有PDF、HTML、RTF等標(biāo)準(zhǔn)文檔格式的文檔輸出。

OCR錄入工廠的構(gòu)成：

★精確的版面分析：OCR數(shù)據(jù)錄入工廠能對(duì)掃描獲得的各種圖像，包括彩色/灰度圖像和二值圖像及復(fù)雜的報(bào)刊、雜志進(jìn)行自動(dòng)版面分析，分析不同的物理結(jié)構(gòu)元素進(jìn)行區(qū)域分割，即橫、豎排文本區(qū)、圖形、表格區(qū)等；

★超強(qiáng)的識(shí)別核心：OCR數(shù)據(jù)錄入工廠是唯一可以識(shí)別2萬(wàn)多漢字的系統(tǒng)，綜合性能處于國(guó)內(nèi)外絕對(duì)領(lǐng)先地位。該系統(tǒng)可識(shí)別簡(jiǎn)體6763個(gè)漢字(國(guó)標(biāo)一級(jí)3755和國(guó)標(biāo)二級(jí)3008)、繁體13053個(gè)漢字(繁體字一級(jí)5401和二級(jí)7652)的超大字符集，可識(shí)別字體達(dá)近百種（同時(shí)自動(dòng)識(shí)別原各種宋體、仿宋、黑體和楷體及小姚和魏碑等字體外,還同時(shí)自動(dòng)識(shí)別各種圓體、隸書(shū)等等）；

★獨(dú)特的校對(duì)方式：具有超級(jí)查錯(cuò)糾錯(cuò)能力，通過(guò)橫向校對(duì)、縱向校對(duì)、對(duì)比校對(duì)后確保電子文檔的錯(cuò)誤率“萬(wàn)無(wú)一失”；

★原版原樣的版面恢復(fù)：可將掃描、識(shí)別、校對(duì)后的各種報(bào)刊、雜志、圖書(shū)等的電子文檔自動(dòng)地轉(zhuǎn)換為具有原式原樣、版面信息重構(gòu)的、可供計(jì)算機(jī)閱讀和查詢(xún)檢索的、具有PDF、HTML等標(biāo)準(zhǔn)格式的電子文檔；

★方便地應(yīng)用于全文檢索：由錄入工廠處理生成的多種電子文檔格式，可應(yīng)用于各種檢索系統(tǒng)?？芍苯佑糜跀?shù)字圖書(shū)館、CD-ROM出版或Internet網(wǎng)上出版；在“Jdaedit”軟件中，將識(shí)別后文檔自動(dòng)編輯形成邏輯結(jié)構(gòu)，比如：圖書(shū)的“書(shū)名”、“版號(hào)”、“正文”、“作者”等標(biāo)引信息。標(biāo)引信息是自動(dòng)形成的，但需要人工調(diào)整和添加。標(biāo)引信息為數(shù)據(jù)的自動(dòng)歸檔、全文精確檢索等提供了條件。同時(shí)，“Jdaedit”軟件也是形成PDF格式文檔的必要工具；

★流程管理和質(zhì)量控制：流程管理貫穿于整個(gè)錄入工廠的生產(chǎn)流程中，服務(wù)器端控制整個(gè)流程，它將數(shù)據(jù)打包、分發(fā)給各個(gè)客戶(hù)端；客戶(hù)端接收數(shù)據(jù)包，完成流程當(dāng)中的某個(gè)或某幾個(gè)工序，完成后將數(shù)據(jù)打包發(fā)回給服務(wù)器。質(zhì)量控制功能是檢驗(yàn)最終文本錯(cuò)誤率的有效工具，它通過(guò)獨(dú)特的方法檢驗(yàn)橫向校對(duì)、縱向校對(duì)和綜合校對(duì)之后的文本差錯(cuò)率以確保最終文本的差錯(cuò)率在一定范圍之內(nèi)。流程管理和質(zhì)量控制是大批量數(shù)據(jù)高效、高質(zhì)錄入的必不可少的環(huán)節(jié)。

豆海圖書(shū)數(shù)字化解決方案以O(shè)CR錄入工廠為核心產(chǎn)品，并輔助圖像凈化處理系統(tǒng)、圖文校驗(yàn)工具，在整個(gè)的過(guò)程中融入豆海多年的資料數(shù)字化領(lǐng)域的管理與制作經(jīng)驗(yàn)，確保為用戶(hù)提供優(yōu)秀的產(chǎn)品和服務(wù)。

優(yōu)秀的加工團(tuán)隊(duì)

現(xiàn)今世界的社會(huì)分工逐漸向兩個(gè)方向延伸：一是，專(zhuān)業(yè)化和職業(yè)化，二是，分工合作。我們生活在一個(gè)知識(shí)爆炸的年代，信息不是貧乏，而是泛濫，這導(dǎo)致任何的人都不能精通所有的行業(yè)，職業(yè)化以及專(zhuān)業(yè)化使得人們能夠更專(zhuān)注于自己的領(lǐng)域，而做出更大的貢獻(xiàn)。分工合作使項(xiàng)目的成功率大大提高。

豆海秉承以人為本的企業(yè)文化，注重員工與公司的共同發(fā)展，擁有著一批具有專(zhuān)業(yè)技術(shù)和管理水平的項(xiàng)目經(jīng)理及加工隊(duì)伍，可以同時(shí)為多家客戶(hù)提供數(shù)字化加工服務(wù)。

低廉的價(jià)格

豆海采用優(yōu)秀的產(chǎn)品能夠節(jié)省3～5倍于傳統(tǒng)手工方式的加工，通過(guò)規(guī)?；土魉€式的生產(chǎn)手段，再次降低了各種費(fèi)用和成本，我們?yōu)榭蛻?hù)提供優(yōu)質(zhì)產(chǎn)品的同時(shí)，能夠以低于同行業(yè)水平的價(jià)格為客戶(hù)提供加工服務(wù)。

完善的服務(wù)

信息數(shù)字化是一個(gè)服務(wù)性質(zhì)的行業(yè)，豆海把“客戶(hù)就是上帝”的思想，從經(jīng)理到員工，從前期銷(xiāo)售到后期加工、服務(wù)，貫徹到每個(gè)地方，讓公司所有員工都建立為客戶(hù)提供優(yōu)質(zhì)服務(wù)的理念。

公司為客戶(hù)提供從售前的銷(xiāo)售拜訪、售前咨詢(xún)、規(guī)劃、解決、實(shí)施方案，到售后的免費(fèi)電話、現(xiàn)場(chǎng)有限支持、定期客戶(hù)回訪等方式，為客戶(hù)提供優(yōu)質(zhì)的服務(wù)。

豆海資料數(shù)字化解決方案的流程：

$O4P(_{R]PFBR(68$Q@4$D[E.png$

正確率

出版要求錯(cuò)誤率控制在萬(wàn)分之三以?xún)?nèi)，傳統(tǒng)的資料數(shù)字化過(guò)程需要進(jìn)行人工錄入、打樣、一校、打樣、二校、打樣、三校等三次校對(duì)，而且其中有大量的人工參與；而豆海公司通過(guò)圖像凈化、OCR識(shí)別、橫向校對(duì)、縱向校對(duì)等手段（絕大部分是由計(jì)算機(jī)完成），能夠?qū)τ∷Ⅲw的資料將錯(cuò)誤率控制到“萬(wàn)無(wú)一失”。

加工速度

傳統(tǒng)的資料數(shù)字化主要是通過(guò)人工打字錄入的方式，再通過(guò)打樣、校對(duì)、排版等工序，最后制作出電子資料。其中大量的需要人工的參與，利用計(jì)算機(jī)的優(yōu)勢(shì)之處較少，因而加工速度較慢。

豆海資料數(shù)字化主要是利用快速掃描技術(shù)、圖像處理技術(shù)、OCR識(shí)別技術(shù)等，大量的利用計(jì)算機(jī)快速處理能力，并輔助人工的控制和管理，因而具有非常高的加工速度。