廣東振越智能家具有限公司—主營:密集架,智能密集架,電動(dòng)密集架,檔案密集架,是一家專注檔案裝具設(shè)備生產(chǎn)廠家。

index_06
ban

檔案密集架紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范

文章出處:檔案庫房密集架廠家    人氣:    發(fā)表時(shí)間:2021-05-05 09:44:22

1 范圍

本標(biāo)準(zhǔn)規(guī)定了紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作的組織、實(shí)施和管理。

本標(biāo)準(zhǔn)適用于字跡清晰、文本規(guī)范的紙質(zhì)檔案數(shù)字復(fù)制件的光學(xué)字符識別(OCR)工作。

2 規(guī)范性引用文件

下列文件對于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

DA/T13 檔號編制規(guī)則

DA/T22 歸檔文件整理規(guī)則

DA/T31 紙質(zhì)檔案數(shù)字化規(guī)范

3 術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

字符 character

供組織、控制或表示數(shù)據(jù)用的元素集合中的一個(gè)元素。

[GB18030—2005,定義4.1]

3.2

字符集 characterset

多個(gè)字符的集合。

注:常見字符集有 ASCII字符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。

3.3

光學(xué)字符識別 opticalcharacterrecognition;OCR

通過信息技術(shù)對圖像文件中的字符形狀進(jìn)行識別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。

3.4

紙質(zhì)檔案數(shù)字復(fù)制件 digitalcopyofpaper-basedrecord紙質(zhì)檔案經(jīng)過數(shù)字化加工過程后形成的,存儲在磁帶、磁盤、光盤等載體上并能被計(jì)算機(jī)等電子設(shè)備識別的數(shù)字圖像。

檔案庫房密集架圖

3.5 檔案 OCR成果 OCRoutcomeofrecord

記錄通過 OCR技術(shù)獲取的紙質(zhì)檔案數(shù)字復(fù)制件文字內(nèi)容的文件。

3DA/T77—2019

3.6

識別準(zhǔn)確率 recognitionaccuracy

通過OCR技術(shù)識別正確字符的比率。注:識別準(zhǔn)確率=(識別正確字符數(shù)/應(yīng)識別字符總數(shù))×100%

3.7

識別速度 recognitionspeed單位時(shí)間內(nèi)通過 OCR技術(shù)識別字符的數(shù)量。

4 總則

4.1 檔案 OCR應(yīng)納入數(shù)字檔案館(室)資源建設(shè)范疇,統(tǒng)籌規(guī)劃、有序?qū)嵤?逐步實(shí)現(xiàn)常態(tài)化。

4.2 檔案 OCR應(yīng)科學(xué)開展,有利于實(shí)現(xiàn)檔案信息檢索和計(jì)算機(jī)輔助編目、編研開發(fā)、數(shù)據(jù)挖掘。

4.3 檔案 OCR應(yīng)基于檔案數(shù)字化工作,檔案 OCR成果與紙質(zhì)檔案數(shù)字復(fù)制件之間應(yīng)建立準(zhǔn)確、可靠的關(guān)聯(lián)關(guān)系。

4.4 應(yīng)當(dāng)釆取有效的管理和技術(shù)手段,加強(qiáng)檔案 OCR的過程管理和質(zhì)量控制,確保檔案 OCR 過程規(guī)范、成果可靠、數(shù)據(jù)安全。

4.5 涉密紙質(zhì)檔案數(shù)字復(fù)制件的 OCR工作,應(yīng)符合涉密檔案相關(guān)的管理和技術(shù)要求。

5 工作組織

5.1 機(jī)構(gòu)及人員

5.1.1 應(yīng)建立檔案 OCR工作機(jī)構(gòu),配備相應(yīng)素質(zhì)和技術(shù)水平的工作人員,組織開展檔案 OCR 工作的統(tǒng)籌規(guī)劃、組織實(shí)施、協(xié)調(diào)管理、技術(shù)保障、安全保障、監(jiān)督檢查、成果驗(yàn)收和長期保存等。檔案 OCR 可與紙質(zhì)檔案數(shù)字化工作統(tǒng)籌配置工作機(jī)構(gòu)和人員。

5.1.2 檔案 OCR工作實(shí)行服務(wù)外包的,應(yīng)從企業(yè)性質(zhì)、股東組成、安全保密、企業(yè)規(guī)模、注冊資金情況等方面嚴(yán)格審查檔案 OCR服務(wù)供方的相關(guān)資質(zhì);從規(guī)章制度的建立健全程度等方面考查服務(wù)供方的管理能力,建立權(quán)責(zé)明確、覆蓋工作全過程的監(jiān)督機(jī)制和安全防范機(jī)制,確保檔案信息安全。對外聘的工作人員,應(yīng)進(jìn)行安全審查,按規(guī)定進(jìn)行保密教育。

5.2 流程控制

5.2.1 檔案 OCR流程包括圖像導(dǎo)入、圖像預(yù)處理、比對識別、修改校正、成果整理輸出五個(gè)業(yè)務(wù)環(huán)節(jié)。應(yīng)依據(jù)相關(guān)技術(shù)標(biāo)準(zhǔn),對檔案 OCR全過程進(jìn)行有效控制。

5.2.2 應(yīng)加強(qiáng)對檔案 OCR工作全流程的質(zhì)量管理和安全管理,建立完善的質(zhì)量、安全問題發(fā)現(xiàn)、修正機(jī)制,確保 OCR成果質(zhì)量和檔案信息安全。

5.3 工作文件與元數(shù)據(jù)

5.3.1 應(yīng)建立檔案 OCR工作方案、技術(shù)方案、工作審批材料、流程控制材料、數(shù)據(jù)驗(yàn)收材料、項(xiàng)目驗(yàn)收報(bào)告、成果移交材料等的管理工作文件,采取服務(wù)外包的還應(yīng)包括項(xiàng)目招標(biāo)文件、投標(biāo)文件、中標(biāo)通知書、項(xiàng)目合同、保密協(xié)議、操作規(guī)程、監(jiān)管記錄等,以加強(qiáng)對檔案 OCR工作的管理。

庫房密集架圖

5.3.2 應(yīng)參照相關(guān)標(biāo)準(zhǔn),提出檔案 OCR 工作流程中相關(guān)元數(shù)據(jù)設(shè)計(jì)、捕獲、著錄和管理的基本要求,與對應(yīng)的紙質(zhì)檔案數(shù)字復(fù)制件管理過程元數(shù)據(jù)實(shí)施融合管理,并納入數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。

4DA/T77—2019

6 方案制定

6.1 確定工作策略

6.1.1

文 OCR工作開展前,應(yīng)當(dāng)依據(jù)紙質(zhì)檔案數(shù)字復(fù)制件 OCR項(xiàng)目的計(jì)劃、合同、招投標(biāo)書等有關(guān)項(xiàng)目件,對 OCR工作的識別處理系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、基礎(chǔ)設(shè)施、保障能力等方面進(jìn)行業(yè)務(wù)評價(jià)。

6.1.2 評價(jià)通過后,應(yīng)根據(jù)以下因素,制定檔案 OCR的工作策略:

———圖像資源:符合導(dǎo)入標(biāo)準(zhǔn)的可識別的彩色(24bits)、灰度(256階)和黑白二值圖像。一般應(yīng)為TIFF、BMP、JPG、PDF(圖像)、OFD(圖像)格式文件。

———OCR引擎:對圖像包含文字進(jìn)行高速度和高準(zhǔn)確率識別的 OCR軟件開發(fā)包。

———OCR軟件:裝備 OCR引擎的軟件,可高速、準(zhǔn)確輸出識別成果,支持人工比對和校正。應(yīng)根據(jù)需要識別的目標(biāo),按照項(xiàng)目資源的成本風(fēng)險(xiǎn)平衡原則確定 OCR 的范圍、質(zhì)量、效率、技術(shù)等要求。

———基礎(chǔ)設(shè)施:支持系統(tǒng)運(yùn)行的場所、設(shè)施和設(shè)備,包括 OCR 設(shè)備及工作間、介質(zhì)的場外存放場所、備用的機(jī)房及輔助設(shè)施等。

———專業(yè)技術(shù)支持能力:對系統(tǒng)的運(yùn)轉(zhuǎn)提供支撐和綜合保障的能力,以實(shí)現(xiàn)系統(tǒng)的預(yù)期目標(biāo)。包括硬件、系統(tǒng)軟件和應(yīng)用軟件的問題分析和處理能力,網(wǎng)絡(luò)系統(tǒng)安全運(yùn)行管理能力,溝通協(xié)調(diào)能力等。

———運(yùn)行維護(hù)管理能力:保障系統(tǒng)相關(guān)的設(shè)備和軟件正常運(yùn)行,提供長期、及時(shí)、全面的技術(shù)支持的能力。包括運(yùn)行環(huán)境管理、系統(tǒng)管理、安全管理和變更管理等。

———災(zāi)難恢復(fù)預(yù)案:對系統(tǒng)災(zāi)難實(shí)行快速、有效的響應(yīng)和恢復(fù)。包括災(zāi)難緊急響應(yīng),災(zāi)后系統(tǒng)重建及重續(xù)運(yùn)行,通信、后勤、技術(shù)等相關(guān)保障機(jī)制建設(shè)。

6.2 制定技術(shù)方案

6.2.1 應(yīng)當(dāng)根據(jù)確定的檔案 OCR工作策略制定 OCR各工作系統(tǒng)技術(shù)方案,包含 OCR 的數(shù)據(jù)管理系統(tǒng)、OCR識別處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。技術(shù)方案中所涉及的系統(tǒng)應(yīng)滿足如下條件:

———與檔案管理系統(tǒng)相當(dāng)?shù)陌踩Wo(hù)級別;

———具有可擴(kuò)展性;

———對檔案管理系統(tǒng)無明顯可用性和性能影響。

6.2.2 為確保技術(shù)方案滿足檔案 OCR 工作策略的要求,應(yīng)對技術(shù)方案進(jìn)行確認(rèn)和驗(yàn)證,并記錄和保存驗(yàn)證及確認(rèn)的成果。按照確認(rèn)的 OCR軟件技術(shù)方案進(jìn)行開發(fā),實(shí)現(xiàn)所要求的數(shù)據(jù)管理系統(tǒng)、OCR 識別處理系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)。

6.2.3 應(yīng)按照經(jīng)過確認(rèn)的技術(shù)方案,制定 OCR 軟件各階段的系統(tǒng)安裝及測試計(jì)劃,以及支持不同關(guān)

鍵業(yè)務(wù)功能的系統(tǒng)安裝及測試計(jì)劃,并組織最終用戶共同進(jìn)行測試。確認(rèn)以下各項(xiàng)功能可正確實(shí)現(xiàn):

———對識別圖像進(jìn)行預(yù)處理;

———數(shù)據(jù)識別及校驗(yàn);

———輸出檔案 OCR成果;

———數(shù)據(jù)安全管理。

密集架招標(biāo)-振越集團(tuán)
廣東振越智能家具有限公司
振 越 集 團(tuán)振 越 智 造
源頭廠家一站式服務(wù)
辦公家具定點(diǎn)供應(yīng)商
國家高新技術(shù)企業(yè)
中標(biāo)率高達(dá)90%

添加微信聯(lián)系

138-2629-3157