-
圖書數(shù)字化介紹
豆海圖書數(shù)字化解決方案,擬在以豆海人多年來在圖書、報紙、期刊、雜志和檔案方面的專業(yè)的數(shù)字化銷售、服務(wù)、實施經(jīng)驗,幫助用戶建立自己的數(shù)字化流水線加工工廠,高效、高質(zhì)量的實現(xiàn)電子資料的加工,或者利用豆海的加工工廠為客戶提供數(shù)字化加工服務(wù)。
隨著全國文化信息資源共享工程與中國數(shù)字圖書館工程的起動,信息化已成為國際潮流,信息資源建設(shè)成為當務(wù)之急。信息資源建設(shè)的重點是電子文獻、各類數(shù)據(jù)庫、網(wǎng)絡(luò)資源、電子雜志、電子圖書等新型數(shù)字化信息資源的建設(shè)。在數(shù)字化信息資源建設(shè)中,很大的一個需求是將現(xiàn)有的紙介質(zhì)印刷品數(shù)字化,使之成為能夠用計算機閱讀、理解、查詢、檢索的電子文件,最終將其應(yīng)用于數(shù)據(jù)庫存儲,或通過CD-ROM、Internet網(wǎng)進行出版,或上傳數(shù)字圖書館供用戶使用。
以傳統(tǒng)紙張為載體的保存方式,占據(jù)了大量的空間,需要特殊的環(huán)境,而且不方便查詢,隨著時間的推移,還面臨著腐蝕、老化等問題。而將紙介質(zhì)文件信息進行電子化處理,保存到光盤上,具有存儲、管理、共享等功能,還可以減少文件庫房占地,節(jié)省保管設(shè)備和人員方面開支,又方便統(tǒng)計和進行遠程查詢。
因此,將圖書、期刊、報紙、文檔資料等信息資源通過掃描儀,掃描成圖像文件,再通過OCR識別成文字,建立目錄和全文索引,制作成電子文件,然后用軟件進行管理使用,已是當務(wù)之急。
-
圖書數(shù)字化的工序
圖書拆分→圖像掃描→圖像處理→文字識別→橫向校對→縱向校對→對比?!饕谱鳌饕|(zhì)檢→成品驗收→圖書裝訂還原
1. 圖書拆分
為了方便掃描加工,對可以拆的圖書進行拆分掃描,加工完后再進行圖書還原。其流程為:圖書封皮與書脊分離,將脫離封皮的圖書書脊用電動切紙機切去膠塊部份,不同情況按不同尺寸精度切開。
2.圖像掃描
掃描組主要負責(zé)將紙質(zhì)性的圖書掃描轉(zhuǎn)為電子版的圖像。在過程當中保證沒有少掃漏掃現(xiàn)象。
3.圖像處理
修圖組是對掃描完的電子圖像進行去污、校正等;同時修圖組還進行質(zhì)檢圖像模糊、原稿殘缺、補掃、漏掃、圖片不完整、多圖重疊等圖像問題。
4.識別與校對
用專業(yè)的識別軟件將圖像進行標注并識別其文本,然后進行人工一、二、三校,以保障數(shù)據(jù)的質(zhì)量達到出版水平。
文字識別:差錯率千分之五
橫向校對:差錯率萬分之五
縱向校對:差錯率萬分之三
對 比 校:差錯率萬分之一
5.索引制作:
按照索引項目利用所提供的軟件進行標注或人工標引。
6.索引質(zhì)檢:
檢查索引的文字正確性與索引的字段標識。
7.成品驗收:
對圖像、文本與索引進行全面的質(zhì)檢,合格后提交成品。
8.裝書還原:
成品入庫后,就可以進行圖書還原工作了,把要還原的圖書用平臺訂書機和電動打穿裝訂機將書的內(nèi)容裝訂好,然后用膠訂機把書粘好,還原為原書。
-
圖書數(shù)字化的種類
資料數(shù)字化根據(jù)檢索和利用需求,大概分為以下幾個種類:
第一類 全文圖像化,有簡單的目錄索引
這種類型的資料數(shù)字化,僅僅是將紙質(zhì)的資料利用掃描儀掃描成圖像文件,并進行簡單的編目,提供目錄索引,而不做文字的識別。
其流程如下:
這種電子資料的好處在于投資小,每單位的價格最便宜;其缺點是沒有全文檢索功能,只能為讀者提供簡單的索引查詢,圖像文件較大導(dǎo)致瀏覽速度較慢。
第二類 全文文本化,可全文檢索
這種類型的資料數(shù)字化,全部利用人工錄入,建立全文文本化的電子資料,可以提供全文檢索。
其流程如下:
其優(yōu)點是占用存儲空間較小,可實現(xiàn)全文檢索,瀏覽傳輸速度快;其缺點是未經(jīng)過格式化,沒有版面信息,讀者閱覽到的是單純文本,單位價格較高。
第三類 全文圖像文本化,可全文檢索
這種類型的資料數(shù)字化,在提供紙質(zhì)資料的掃描圖像文件后,還進行了人工錄入或者OCR識別,為圖書建立了全文文本,因此可以提供全文檢索。
其流程如下:
這種類型,實際上是利用雙層文件的形式向讀者展示電子資料的。它分為上下兩層,上面的是圖像層,下面的是文本層,但是這種文本沒有經(jīng)過排版,它是無格式混亂的。讀者看到的是上層的圖像,而全文檢索時,可以使用下層的文本。這種類型的好處在于單位價格較便宜,但是由于在讀者瀏覽時要同時傳輸圖像文件和文本文件,其瀏覽速度最慢。
第四類 基于原版原樣的,可全文檢索
這種類型的資料數(shù)字化,利用掃描儀將紙質(zhì)資料掃描加工成圖像文件,再通過OCR工廠,識別成能夠保留原始版面樣式的文本化的文件(如:rtf、pdf格式),它既保留了版面的信息,又是全文文本化的,可以提供全文的檢索。
其大致流程如下(更詳細的流程參見后面的“豆海圖書電子化的過程”):
這種類型的優(yōu)點在于支持全文檢索,占用存儲空間較少,由于是文本格式的文件,電子資料質(zhì)量(放大、縮小是不失真)和瀏覽速度都很好;其缺點是價格較高。
-
規(guī)模化、流水線式的數(shù)字化加工
公司避于手工業(yè)作坊式的生產(chǎn)方式,建立了數(shù)字化加工工廠。并創(chuàng)立了從資料整理去污→掃描→圖像處理(糾偏、消藍、圖像增強、去雜)→OCR識別(版面分析、識別、橫向校對、縱向校對、導(dǎo)出文件)→建立索引→刻錄光盤(可全文檢索、二次檢索、模糊檢索)等全過程的流水線式加工方式,大大提高了加工效率和效果。規(guī)范了加工流程、項目管理方法和制度,合理的分配人員到各個流水線節(jié)點,創(chuàng)建了可優(yōu)化的項目質(zhì)量保證體系,使得每一次新的加工項目都能夠繼承原有項目的優(yōu)秀經(jīng)驗,并使得在這次新的項目中產(chǎn)生的經(jīng)驗,能夠有效的被下一個項目繼承和發(fā)揚。
規(guī)模化的生產(chǎn)、流水線式的作業(yè),使得加工工人能夠從事自己最擅長和最熟練的工作,導(dǎo)致了項目質(zhì)量的不斷提高和單位成本的穩(wěn)定下降。
-
成熟的軟件產(chǎn)品
豆海本著以廣闊的胸襟,容納各種優(yōu)秀的人才和產(chǎn)品。由于經(jīng)濟的全球化帶來的人才和競爭方面的壓力,使得任何一個公司都不可能完全依賴于自己而立足于市場不敗,要想在競爭中獲得生存,就必須和其他人合作。
我們引進OCR錄入工廠,OCR錄入工廠具有以下一些特點:
★高品質(zhì):不須打印校樣,一次錄入就能達到出版質(zhì)量,可將最終文檔的錯誤率嚴格控制在萬分之一以內(nèi);
★高效低成本:保持同樣數(shù)量工作人員的情況下完成更大的工作量;生產(chǎn)效率是傳統(tǒng)手工方式的3倍以上
★超強能力:具有對超大字符集(達兩萬余字)、超多種字體(近百種)的漢字識別能力;具有超級查錯糾錯能力,將電子文檔的錯誤率減少到萬分之一以下;具有對彩色及復(fù)雜中文資料等進行版面分析、版面理解和準確復(fù)原的能力;能將已有的各種印刷品自動地轉(zhuǎn)換化為具有原式原樣原文重現(xiàn)版面的、可供計算機閱讀和查詢檢索的、具有PDF、HTML、RTF等標準文檔格式的文檔輸出。
OCR錄入工廠的構(gòu)成:
★精確的版面分析:OCR數(shù)據(jù)錄入工廠能對掃描獲得的各種圖像,包括彩色/灰度圖像和二值圖像及復(fù)雜的報刊、雜志進行自動版面分析,分析不同的物理結(jié)構(gòu)元素進行區(qū)域分割,即橫、豎排文本區(qū)、圖形、表格區(qū)等;
★超強的識別核心:OCR數(shù)據(jù)錄入工廠是唯一可以識別2萬多漢字的系統(tǒng),綜合性能處于國內(nèi)外絕對領(lǐng)先地位。該系統(tǒng)可識別簡體6763個漢字(國標一級3755和國標二級3008)、繁體13053個漢字(繁體字一級5401和二級7652)的超大字符集,可識別字體達近百種(同時自動識別原各種宋體、仿宋、黑體和楷體及小姚和魏碑等字體外,還同時自動識別各種圓體、隸書等等);
★獨特的校對方式:具有超級查錯糾錯能力,通過橫向校對、縱向校對、對比校對后確保電子文檔的錯誤率“萬無一失”;
★原版原樣的版面恢復(fù):可將掃描、識別、校對后的各種報刊、雜志、圖書等的電子文檔自動地轉(zhuǎn)換為具有原式原樣、版面信息重構(gòu)的、可供計算機閱讀和查詢檢索的、具有PDF、HTML等標準格式的電子文檔;
★方便地應(yīng)用于全文檢索:由錄入工廠處理生成的多種電子文檔格式,可應(yīng)用于各種檢索系統(tǒng)。可直接用于數(shù)字圖書館、CD-ROM出版或Internet網(wǎng)上出版;在“Jdaedit”軟件中,將識別后文檔自動編輯形成邏輯結(jié)構(gòu),比如:圖書的“書名”、“版號”、“正文”、“作者”等標引信息。標引信息是自動形成的,但需要人工調(diào)整和添加。標引信息為數(shù)據(jù)的自動歸檔、全文精確檢索等提供了條件。同時,“Jdaedit”軟件也是形成PDF格式文檔的必要工具;
★流程管理和質(zhì)量控制:流程管理貫穿于整個錄入工廠的生產(chǎn)流程中,服務(wù)器端控制整個流程,它將數(shù)據(jù)打包、分發(fā)給各個客戶端;客戶端接收數(shù)據(jù)包,完成流程當中的某個或某幾個工序,完成后將數(shù)據(jù)打包發(fā)回給服務(wù)器。質(zhì)量控制功能是檢驗最終文本錯誤率的有效工具,它通過獨特的方法檢驗橫向校對、縱向校對和綜合校對之后的文本差錯率以確保最終文本的差錯率在一定范圍之內(nèi)。流程管理和質(zhì)量控制是大批量數(shù)據(jù)高效、高質(zhì)錄入的必不可少的環(huán)節(jié)。
豆海圖書數(shù)字化解決方案以O(shè)CR錄入工廠為核心產(chǎn)品,并輔助圖像凈化處理系統(tǒng)、圖文校驗工具,在整個的過程中融入豆海多年的資料數(shù)字化領(lǐng)域的管理與制作經(jīng)驗,確保為用戶提供優(yōu)秀的產(chǎn)品和服務(wù)。
-
優(yōu)秀的加工團隊
現(xiàn)今世界的社會分工逐漸向兩個方向延伸:一是,專業(yè)化和職業(yè)化,二是,分工合作。我們生活在一個知識爆炸的年代,信息不是貧乏,而是泛濫,這導(dǎo)致任何的人都不能精通所有的行業(yè),職業(yè)化以及專業(yè)化使得人們能夠更專注于自己的領(lǐng)域,而做出更大的貢獻。分工合作使項目的成功率大大提高。
豆海秉承以人為本的企業(yè)文化,注重員工與公司的共同發(fā)展,擁有著一批具有專業(yè)技術(shù)和管理水平的項目經(jīng)理及加工隊伍,可以同時為多家客戶提供數(shù)字化加工服務(wù)。
-
低廉的價格
豆海采用優(yōu)秀的產(chǎn)品能夠節(jié)省3~5倍于傳統(tǒng)手工方式的加工,通過規(guī)?;土魉€式的生產(chǎn)手段,再次降低了各種費用和成本,我們?yōu)榭蛻籼峁﹥?yōu)質(zhì)產(chǎn)品的同時,能夠以低于同行業(yè)水平的價格為客戶提供加工服務(wù)。
-
完善的服務(wù)
信息數(shù)字化是一個服務(wù)性質(zhì)的行業(yè),豆海把“客戶就是上帝”的思想,從經(jīng)理到員工,從前期銷售到后期加工、服務(wù),貫徹到每個地方,讓公司所有員工都建立為客戶提供優(yōu)質(zhì)服務(wù)的理念。
公司為客戶提供從售前的銷售拜訪、售前咨詢、規(guī)劃、解決、實施方案,到售后的免費電話、現(xiàn)場有限支持、定期客戶回訪等方式,為客戶提供優(yōu)質(zhì)的服務(wù)。
-
豆海資料數(shù)字化解決方案的流程:
-
正確率
出版要求錯誤率控制在萬分之三以內(nèi),傳統(tǒng)的資料數(shù)字化過程需要進行人工錄入、打樣、一校、打樣、二校、打樣、三校等三次校對,而且其中有大量的人工參與;而豆海公司通過圖像凈化、OCR識別、橫向校對、縱向校對等手段(絕大部分是由計算機完成),能夠?qū)τ∷Ⅲw的資料將錯誤率控制到“萬無一失”。
-
加工速度
傳統(tǒng)的資料數(shù)字化主要是通過人工打字錄入的方式,再通過打樣、校對、排版等工序,最后制作出電子資料。其中大量的需要人工的參與,利用計算機的優(yōu)勢之處較少,因而加工速度較慢。
豆海資料數(shù)字化主要是利用快速掃描技術(shù)、圖像處理技術(shù)、OCR識別技術(shù)等,大量的利用計算機快速處理能力,并輔助人工的控制和管理,因而具有非常高的加工速度。