長(zhǎng)政采[2018]JZTP-C1-2數(shù)字圖書(shū)館資源建設(shè)項(xiàng)目,由于采購(gòu)人調(diào)整采購(gòu)需求,原報(bào)價(jià)時(shí)間變更為2018年11月27日。
2018年11月21日
變更后需求如下
數(shù)字圖書(shū)館資源建設(shè) |
A、數(shù)字圖書(shū)館資源建設(shè)之地方圖書(shū)數(shù)字化全文識(shí)別加工 資源數(shù)字化數(shù)量:20000頁(yè) 1、元數(shù)據(jù)加工標(biāo)準(zhǔn) 1.1規(guī)范性引用文件 下列文件對(duì)于本規(guī)則的應(yīng)用是必不可少的。 《中國(guó)文獻(xiàn)編目規(guī)則》(第二版) 《GB/T25100-2010 信息與文獻(xiàn) 都柏林核心元數(shù)據(jù)》 《信息資源的內(nèi)容形式和媒體類(lèi)型標(biāo)識(shí)》(GB/T3469-2013) 1.2著錄對(duì)象 以數(shù)字化文獻(xiàn)為著錄對(duì)象。一般以具有獨(dú)立名稱(chēng)、并可獨(dú)立使用的一個(gè)數(shù)字資源為著錄單位。 圖書(shū)的著錄單位為一種圖書(shū)。對(duì)于多部分資源,一般可自由選擇綜合著錄或分散著錄。 1.3著錄信息源 著錄信息源是資源本身。資源本身是著錄的首選來(lái)源。資源本身信息不足,可參考其他信息源。 1.4著錄用文字 題名、責(zé)任者等取自資源本身的信息一般按資源本身的文字著錄。 由編目員進(jìn)行描述或標(biāo)引的信息均采用簡(jiǎn)體中文著錄。 有規(guī)范或規(guī)定編碼標(biāo)準(zhǔn)的要求按標(biāo)準(zhǔn)著錄,如:語(yǔ)種、中圖分類(lèi)。 日期用阿拉伯?dāng)?shù)字著錄。 推薦采用ISBD著錄標(biāo)識(shí)符。 一個(gè)著錄項(xiàng)中多個(gè)著錄內(nèi)容之間以半角分號(hào)分隔。 1.5元數(shù)據(jù)著錄簡(jiǎn)表 必備項(xiàng)為:加工編號(hào)、正題名、中圖分類(lèi)、主題詞或關(guān)鍵詞、摘要、內(nèi)容形式、媒體類(lèi)型、格式、頁(yè)碼、語(yǔ)種、適用對(duì)象、CDOI、數(shù)據(jù)提交單位、所屬任務(wù)年份,共計(jì)13項(xiàng);有則必備項(xiàng)為:其它提名、責(zé)任者名稱(chēng)、責(zé)任方式、附注、出版者名稱(chēng)、出版地、出版日期、關(guān)聯(lián)、時(shí)間范圍、空間范圍、版本、ISBN、統(tǒng)一書(shū)號(hào)、發(fā)布地址,共計(jì)14項(xiàng)。 2、圖像數(shù)字化標(biāo)準(zhǔn)和命名規(guī)則 2.1圖像掃描加工 掃描前根據(jù)國(guó)際色彩協(xié)會(huì)(International Color Consortium,簡(jiǎn)稱(chēng)ICC)標(biāo)準(zhǔn),做加工設(shè)備的基本色彩校正,及針對(duì)各類(lèi)型文獻(xiàn)進(jìn)行色彩校正; 逐頁(yè)掃描; 黑白頁(yè)和灰度頁(yè)用灰度方式掃描 色彩位深:8 位 分辨率:300 dpi;小于5號(hào)字體用400 dpi 檔案典藏級(jí)格式:TIFF 不壓縮 發(fā)布服務(wù)級(jí):PDF(經(jīng)過(guò) JPEG2000 壓縮后,再做格式轉(zhuǎn)換) 彩色頁(yè)用彩色方式掃描 色彩位深:24 位 分辨率:300 dpi;小于5號(hào)字體用400 dpi 檔案典藏級(jí)格式:TIFF 不壓縮 發(fā)布服務(wù)級(jí)格式:PDF(經(jīng)過(guò) JPEG2000 壓縮后,再做格式轉(zhuǎn)換) 糾偏處理。對(duì)出現(xiàn)偏斜的圖像進(jìn)行糾偏處理,圖像歪斜度不可以超過(guò)一度,對(duì)方向不正確的圖像進(jìn)行旋轉(zhuǎn)還原,以符合閱讀習(xí)慣; 去污處理。對(duì)圖像頁(yè)面中出現(xiàn)的影響圖像質(zhì)量的雜質(zhì)如黑邊等進(jìn)行去污處理; 圖像拼接。若原文獻(xiàn)幅面較大,無(wú)法整體采集的,可將原件分畫(huà)幅采集(分畫(huà)幅采集時(shí),注意各拍攝區(qū)域邊緣須留有一定的重復(fù)采集區(qū)域,以保證拼接完成后所有接縫處連貫完整),服務(wù)級(jí)文件進(jìn)行拼接處理,合并為一個(gè)完整的圖像,以保證數(shù)字文件的整體性(合并信息應(yīng)在readme.txt進(jìn)行說(shuō)明)。 2.2圖像文件質(zhì)量要求 圖像文件(各種格式)放大到1:1狀態(tài),逐頁(yè)檢查。檢查文件是否有彩點(diǎn)、彩線、太淡、太濃、黑邊、污點(diǎn)、歪斜、模糊(馬賽克等)或圖像內(nèi)容不完整等現(xiàn)象。若不符合圖像質(zhì)量要求應(yīng)進(jìn)行圖像校正或重新掃描; 圖像文件真實(shí)反映原件,同冊(cè)圖書(shū)的圖像尺寸相同,不得有失真現(xiàn)象;不能有缺頁(yè)、錯(cuò)頁(yè)、數(shù)據(jù)內(nèi)容缺失等現(xiàn)象(原件有缺失的除外); 檔案典藏級(jí)圖像,允許進(jìn)行適當(dāng)?shù)募m偏,去污等處理,以不壓縮標(biāo)準(zhǔn)格式存檔。發(fā)布服務(wù)級(jí)的圖像,為有損壓縮圖像格式,一頁(yè)為一個(gè)PDF文件,在轉(zhuǎn)換工作中應(yīng)在圖像輪廓清晰可讀的前提下(可放大到實(shí)際尺寸檢查判定),盡量減小數(shù)據(jù)量; 圖像符合掃描規(guī)格要求和技術(shù)參數(shù); 所有文件保存位置以及文件命名正確,同一流水號(hào)不得有跳號(hào)情況,可以有效打開(kāi)和顯示; 圖像的綜合錯(cuò)誤率不超過(guò)1‰。 2.3命名規(guī)則 2.3.1加工編號(hào)(book_id) 文獻(xiàn)數(shù)字化加工過(guò)程中一冊(cè)文獻(xiàn)的唯一標(biāo)識(shí),它由11位數(shù)字和1位下劃線組成。 文獻(xiàn)基本資料類(lèi)型(1位)、文獻(xiàn)語(yǔ)種(1位)、任務(wù)年(2位)、機(jī)構(gòu)代碼(4位)、下劃線(1位)、單位內(nèi)部流水號(hào)(3位)。 本規(guī)則針對(duì)地方圖書(shū)的文獻(xiàn)基本資料類(lèi)型為(0:圖書(shū)),文獻(xiàn)語(yǔ)種為(1:中文),任務(wù)年為公元年后兩位數(shù)字(16年項(xiàng)目統(tǒng)一為16),機(jī)構(gòu)代碼見(jiàn)《推廣工程數(shù)字資源聯(lián)合建設(shè)機(jī)構(gòu)代碼》,單位內(nèi)部流水號(hào)由各單位自行分配,從1開(kāi)始,不足3位以0補(bǔ)齊。 例:01160000_001 2.3.2圖像文件名 文件后綴名為小寫(xiě)字母 前封(含封一、封二) 掃描文件名為Axxxxx_00,其中xxxxx為5位數(shù)字,按原書(shū)順序依次排序。 前附頁(yè) 目錄頁(yè)之前的前附頁(yè)掃描文件名為Bxxxxx_00,其中xxxxx為5位數(shù)字,按原書(shū)順序依次排序。 目錄頁(yè)之后的前附頁(yè)掃描文件名為Dxxxxx_00,其中xxxxx為5位數(shù)字,按原書(shū)順序依次排序。 目錄頁(yè) 掃描文件名為Cxxxxx_00,其中xxxxx為5位數(shù)字,按原書(shū)順序依次排序。 正文 有頁(yè)碼的正文掃描文件名為T(mén)xxxxx_00,其中xxxxx為5位數(shù)字,與原書(shū)頁(yè)號(hào)一致,按原書(shū)順序依次排序。當(dāng)存在大幅圖像需分區(qū)掃描時(shí)其文件命名為T(mén)xxxxx_00zz,其中zz為數(shù)字,表示掃描圖像分區(qū),按掃描順序排序,對(duì)應(yīng)的發(fā)布服務(wù)級(jí)進(jìn)行合并后命名為T(mén)xxxxx_00。例如:該圖在原書(shū)的第28頁(yè),該圖分成4個(gè)畫(huà)幅,則4個(gè)畫(huà)幅的掃描文件名分別為T(mén)00028_0001.tif、T00028_0002.tif、T00028_0003.tif、T00028_0004.tif,拼接后的發(fā)布級(jí)圖像文件名為T(mén)00028_00.pdf。 正文中插頁(yè)掃描文件名為T(mén)xxxxx_yy,其中xxxxx為5位數(shù)字,表示插頁(yè)的前一頁(yè)順序號(hào),yy為數(shù)字,表示插頁(yè),并按原書(shū)順序依次排序。當(dāng)插頁(yè)中存在大幅圖像需分區(qū)掃描時(shí)其命名為T(mén)xxxxx_yyzz,yy為數(shù)字,表示插頁(yè);zz為數(shù)字,表示掃描圖像分區(qū),按掃描順序排序,對(duì)應(yīng)的發(fā)布服務(wù)級(jí)圖像進(jìn)行合并后命名為T(mén)xxxxx_yy。例如:一張圖夾在20頁(yè)、21頁(yè)之間,且該圖分成4個(gè)畫(huà)幅掃描,則4個(gè)畫(huà)幅的掃描文件名分別為T(mén)00020_0101.tif、T00020_0102.tif、T00020_0103.tif、T00020_0104.tif,將4個(gè)畫(huà)幅拼接后,該圖的文件名為T(mén)00020_01.pdf。 后附頁(yè) 掃描文件名為Yxxxxx_00,其中 xxxxx為5位數(shù)字,按原書(shū)順序依次排序。 后封(含封三、封四) 掃描文件名為Zxxxxx_00,其中xxxxx為5位數(shù)字,按原書(shū)順序依次排序。 3、TXT文本標(biāo)準(zhǔn) 對(duì)圖像數(shù)據(jù)逐頁(yè)進(jìn)行ocr識(shí)別,每頁(yè)生成一個(gè)對(duì)應(yīng)的TXT文件,文件命名與TIFF圖像一致,后綴名小寫(xiě)。文本轉(zhuǎn)換數(shù)據(jù)的準(zhǔn)確率平均應(yīng)達(dá)到90%以上。 4、數(shù)據(jù)庫(kù)標(biāo)準(zhǔn) 4.1數(shù)據(jù)庫(kù)命名 對(duì)象數(shù)據(jù)所對(duì)應(yīng)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)名由8位數(shù)字組成: 文獻(xiàn)基本資料類(lèi)型(1位)、文獻(xiàn)語(yǔ)種(1位)、任務(wù)年(2位)、機(jī)構(gòu)代碼(4位)。 例:01160000.mdb 4.2數(shù)據(jù)庫(kù)制作 4.2.1 對(duì)marc數(shù)據(jù)進(jìn)行加工處理,制作文獻(xiàn)基本信息表(book)。 4.2.2目錄信息著錄,生成文獻(xiàn)目錄信息表(catalog)。 4.2.3 文獻(xiàn)版權(quán)頁(yè)著錄,生成文獻(xiàn)版權(quán)信息表(copyright)。 4.2.4 不帶頁(yè)號(hào)插圖信息著錄,生成文獻(xiàn)插頁(yè)信息表(inset)。 注:圖書(shū)中有夾頁(yè)時(shí),對(duì)該表字段進(jìn)行標(biāo)引。 4.2.5 文獻(xiàn)缺頁(yè)信息著錄,生成文獻(xiàn)缺頁(yè)信息表(lostpage)。 注:圖書(shū)有缺失頁(yè)時(shí),對(duì)該表字段進(jìn)行標(biāo)引。 4.2.6 文獻(xiàn)結(jié)構(gòu)信息著錄,生成文獻(xiàn)結(jié)構(gòu)信息表(struct)。 注:起始頁(yè)號(hào)均為文獻(xiàn)印刷頁(yè)碼 4.2.7 記錄掃描分辨率、壓縮因子、文件數(shù)量、存儲(chǔ)量等信息,生成文獻(xiàn)加工信息表(process)。 4.3 數(shù)據(jù)庫(kù)制作要求 數(shù)據(jù)庫(kù)的制作符合下列要求。 (1)文件格式為mdb格式; (2)使用字符集為UTF-8; (3)著錄信息應(yīng)嚴(yán)格按照文獻(xiàn)實(shí)際內(nèi)容進(jìn)行描述,所著內(nèi)容與對(duì)象文件應(yīng)正確鏈接; (4)數(shù)據(jù)庫(kù)字段各類(lèi)表格等內(nèi)容嚴(yán)格按照規(guī)定和樣例版式; (5)著錄中遇到無(wú)法錄入的生僻字、公式、符號(hào)等內(nèi)容用“〓”表示。同時(shí)將“〓”所對(duì)應(yīng)圖像文件保存在檔案典藏級(jí)數(shù)據(jù)內(nèi),以“〓”命名的文件夾內(nèi),建立方法: 子目錄內(nèi)應(yīng)包含所有用“〓”表示的圖像文件; 圖像文件刪除其他信息,僅保留“無(wú)法錄入的內(nèi)容”所在行的信息,tif不壓縮格式,圖像命名不變; 多個(gè)用“〓”表示的內(nèi)容對(duì)應(yīng)同一個(gè)圖像時(shí),僅保存一個(gè)圖像文件; (6)各種著錄的文字、符號(hào)、版式、位置和文件名稱(chēng)準(zhǔn)確,其綜合錯(cuò)誤率不超過(guò)0.3‰。 5、說(shuō)明文件 5.1制作文獻(xiàn)的說(shuō)明文件 說(shuō)明文件格式:Microsoft Excel 說(shuō)明文件命名:由8位組成:文獻(xiàn)基本資料類(lèi)型(1位)、文獻(xiàn)語(yǔ)種(1位)、加工年(2位)、機(jī)構(gòu)代碼(4位)。如:01160000.xls (說(shuō)明文件的5張表需保存在同一個(gè)Excel文件的不同工作表中,每個(gè)工作表按下列表命名)。 5.1.1數(shù)據(jù)總體說(shuō)明表 5.1.2保存級(jí)對(duì)象數(shù)據(jù)硬盤(pán)存儲(chǔ)清單 5.1.3發(fā)布級(jí)PDF對(duì)象數(shù)據(jù)硬盤(pán)存儲(chǔ)清單 5.1.4發(fā)布級(jí)TXT對(duì)象數(shù)據(jù)硬盤(pán)存儲(chǔ)清單 5.1.5圖書(shū)單冊(cè)數(shù)據(jù)量統(tǒng)計(jì)表 5.2 制作每?jī)?cè)文獻(xiàn)和保存數(shù)據(jù)介質(zhì)的說(shuō)明文件 6、存儲(chǔ)規(guī)則 6.1 存儲(chǔ)介質(zhì)及命名 存儲(chǔ)介質(zhì)為硬盤(pán),硬盤(pán)命名由8位組成: 文獻(xiàn)基本資料類(lèi)型(1位)、文獻(xiàn)語(yǔ)種(1位)、加工年(2位)、機(jī)構(gòu)代碼(4位)。 6.2數(shù)據(jù)存儲(chǔ)規(guī)則 存儲(chǔ)內(nèi)容包括:TIFF圖像、PDF、TXT文本、對(duì)應(yīng)數(shù)據(jù)庫(kù)、說(shuō)明文件、介質(zhì)說(shuō)明文件,書(shū)目數(shù)據(jù)文件各一份。 各類(lèi)型對(duì)象數(shù)據(jù)按加工編號(hào)遞增順序依次放置在硬盤(pán)內(nèi),保存目錄及文件名由四級(jí)組成: 第一級(jí)目錄為加工編號(hào)的前8位,如01160000,同時(shí)將介質(zhì)說(shuō)明文件并行保存(readme.txt); 第二級(jí)目錄為T(mén)IFF,PDF,TXT同時(shí)將對(duì)應(yīng)數(shù)據(jù)庫(kù)(01160000.mdb)、說(shuō)明文件(01160000.xls)、書(shū)目數(shù)據(jù)文件(01160000.iso)并行保存; 第三級(jí)目錄為加工編號(hào); 第四級(jí)目錄為相應(yīng)格式的對(duì)象數(shù)據(jù)文件,需要相應(yīng)的單冊(cè)文獻(xiàn)的說(shuō)明文件。 7、加工成品數(shù)據(jù)的文獻(xiàn)管理平臺(tái)功能要求 1.該發(fā)布系統(tǒng)需具備完善的數(shù)字圖書(shū)館資源管理和發(fā)布軟件技術(shù)平臺(tái),包括數(shù)字資源發(fā)布、檢索、閱讀、管理、采集、制作、下載以及用戶(hù)交互等功能。資源類(lèi)型包括圖書(shū)、期刊、論文以及自建數(shù)據(jù)庫(kù),并且實(shí)現(xiàn)在圖書(shū),期刊,論文、自建庫(kù)的統(tǒng)一的檢索和獲取。平臺(tái)功能成熟,檢索方便快捷,具備多種途徑的單項(xiàng)檢索、組合條件檢索。 2.能夠兼容國(guó)家863計(jì)劃中國(guó)數(shù)字圖書(shū)館示范工程標(biāo)準(zhǔn)PDG格式的電子圖書(shū)文獻(xiàn)資源,技術(shù)上能夠做到整合到同一平臺(tái)中,同時(shí)支持轉(zhuǎn)換PDF、PDG、PNG、Word格式的文檔資料為網(wǎng)頁(yè)版閱讀方式,方便大多數(shù)用戶(hù)使用習(xí)慣。同時(shí)實(shí)現(xiàn)不同格式的文檔轉(zhuǎn)換,所有圖書(shū)均可實(shí)現(xiàn)文字圖像復(fù)制摘錄和圖書(shū)無(wú)損縮放。支持元數(shù)據(jù)檢索、目次檢索、全文檢索等多種檢索方式,友好統(tǒng)一的用戶(hù)界面,提供各種高級(jí)的檢索功能,具有突出的檢索性能。 3.該系統(tǒng)需具備獨(dú)立完善的管理平臺(tái),管理功能全面,具備基本狀態(tài)、流量分析、用戶(hù)管理、排行管理、IP范圍管理、圖書(shū)管理、反饋需求管理、公告問(wèn)題管理、頻道專(zhuān)題管理、頁(yè)面模板風(fēng)格管理等功能;能實(shí)現(xiàn)自建特色庫(kù),系統(tǒng)具有良好的開(kāi)放性和兼容性,除電子圖書(shū)外還可以支持音頻、視頻、期刊、專(zhuān)題數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)、網(wǎng)站信息等的使用。 4.不限制使用用戶(hù)個(gè)數(shù),無(wú)下載量限制,軟件無(wú)用戶(hù)數(shù)或使用次數(shù)限制;可以進(jìn)行資源管理,包括推薦資源,查詢(xún),分類(lèi)管理、設(shè)置;可以自行修改用戶(hù)的訪問(wèn)權(quán)限和局域網(wǎng)IP范圍。 5.提供原廠開(kāi)發(fā)的數(shù)字圖書(shū)館軟件系統(tǒng)一套,免費(fèi)對(duì)數(shù)據(jù)庫(kù)及相關(guān)軟件系統(tǒng)的安裝、調(diào)試、培訓(xùn)與維護(hù)。 6.平臺(tái)提供IP和用戶(hù)名兩種身份認(rèn)證和權(quán)限管理方式,圖書(shū)館設(shè)有外網(wǎng)地址的情況下可以實(shí)現(xiàn)鏡像平臺(tái)的外網(wǎng)賬號(hào)訪問(wèn);具有強(qiáng)大的查詢(xún)檢索、圖書(shū)推薦、圖書(shū)排行、訪問(wèn)量統(tǒng)計(jì)等功能,并支持頁(yè)面定制。 B、數(shù)字圖書(shū)館資源建設(shè)之地方報(bào)紙數(shù)字化及篇名識(shí)別加工 建設(shè)數(shù)據(jù)量:5000版 1、元數(shù)據(jù)加工標(biāo)準(zhǔn) 1.1規(guī)范性引用文件 下列文件對(duì)于本規(guī)則的應(yīng)用是必不可少的。 《中國(guó)文獻(xiàn)編目規(guī)則》(第二版) 《GB/T25100-2010 信息與文獻(xiàn) 都柏林核心元數(shù)據(jù)》 《信息資源的內(nèi)容形式和媒體類(lèi)型標(biāo)識(shí)》(GB/T3469-2013) 1.2著錄對(duì)象 以數(shù)字化文獻(xiàn)為著錄對(duì)象。一般以具有獨(dú)立名稱(chēng)、并可獨(dú)立使用的一個(gè)數(shù)字資源為著錄單位。 報(bào)紙的著錄單位為一種報(bào)紙。 對(duì)于連續(xù)性資源的著錄對(duì)象是否發(fā)生改變,可依據(jù)題名、發(fā)行者、版本等的變化情況進(jìn)行判斷,具體規(guī)則參照《中國(guó)文獻(xiàn)編目規(guī)則》(第二版)。 1.3著錄信息源 著錄信息源是資源本身。資源本身是著錄的首選來(lái)源。資源本身信息不足,可參考其他信息源。 報(bào)紙的著錄信息源是本題名下第一期或第一部分,若無(wú)法獲得本題名下第一期或第一部分,應(yīng)以可獲得的最早發(fā)行的一期或部分著錄。 1.4著錄用文字 題名、責(zé)任者等取自資源本身的信息一般按資源本身的文字著錄。 由編目員進(jìn)行描述或標(biāo)引的信息均采用簡(jiǎn)體中文著錄。 有規(guī)范或規(guī)定編碼標(biāo)準(zhǔn)的要求按標(biāo)準(zhǔn)著錄,如:語(yǔ)種、中圖分類(lèi)。 日期用阿拉伯?dāng)?shù)字著錄。 推薦采用ISBD著錄標(biāo)識(shí)符。 一個(gè)著錄項(xiàng)中多個(gè)著錄內(nèi)容之間以半角分號(hào)分隔。 1.5元數(shù)據(jù)著錄簡(jiǎn)表 必備項(xiàng)為:加工編號(hào)、正題名、中圖分類(lèi)、主題詞或關(guān)鍵詞、內(nèi)容形式、媒體類(lèi)型、格式、語(yǔ)種、適用對(duì)象、出版頻率、館藏范圍、CODI、數(shù)據(jù)提交單位、所屬任務(wù)年份,共計(jì)14項(xiàng);有則必備項(xiàng)為:其它提名、附注、出版者名稱(chēng)、出版地、開(kāi)始日期、終止日期、關(guān)聯(lián)、時(shí)間范圍、空間范圍、ISSN、統(tǒng)一刊號(hào)、發(fā)布地址,共計(jì)12項(xiàng)。 2圖像數(shù)字化標(biāo)準(zhǔn)和命名規(guī)則 2.1圖像掃描加工 掃描前根據(jù)國(guó)際色彩協(xié)會(huì)(International Color Consortium,簡(jiǎn)稱(chēng)ICC)標(biāo)準(zhǔn),做加工設(shè)備的基本色彩校正,及針對(duì)各類(lèi)型文獻(xiàn)進(jìn)行色彩校正; 逐版掃描; 黑白頁(yè)和灰度頁(yè)用灰度方式掃描 色彩位深:8 位 分辨率:300 dpi 檔案典藏級(jí)格式:TIFF 不壓縮 彩色頁(yè)用彩色方式掃描 色彩位深:24 位 分辨率:300 dpi 檔案典藏級(jí)格式:TIFF 不壓縮 糾偏處理。對(duì)出現(xiàn)偏斜的圖像進(jìn)行糾偏處理,圖像歪斜度不可以超過(guò)一度,對(duì)方向不正確的圖像進(jìn)行旋轉(zhuǎn)還原,以符合閱讀習(xí)慣; 去污處理。對(duì)圖像頁(yè)面中出現(xiàn)的影響圖像質(zhì)量的黑邊等進(jìn)行去污處理。 2.2圖像文件質(zhì)量要求 圖像文件放大到1:1狀態(tài),逐版檢查。檢查文件是否有彩點(diǎn)、彩線、太淡、太濃、黑邊、污點(diǎn)、歪斜、模糊(馬賽克等)或圖像內(nèi)容不完整等現(xiàn)象。若不符合圖像質(zhì)量要求應(yīng)進(jìn)行圖像校正或重新掃描; 圖像文件真實(shí)反映原件,同種報(bào)紙圖像尺寸相同,不得有失真現(xiàn)象;按版次順序由小到大,符合閱讀習(xí)慣,不能有缺版、錯(cuò)版、數(shù)據(jù)內(nèi)容缺失等現(xiàn)象(原件有缺失的除外); 圖像符合掃描規(guī)格要求和技術(shù)參數(shù); 所有文件保存位置以及文件命名正確,可以有效打開(kāi)和顯示; 圖像綜合錯(cuò)誤率不超過(guò)1‰。 2.3命名規(guī)則 注:檔案典藏級(jí)文件(TIFF格式)與其相應(yīng)的發(fā)布文件(雙層PDF格式和XML格式)命名規(guī)則相同,這里僅以TIFF格式文件為例,文件后綴名均為小寫(xiě)。 2.3.1加工編號(hào) 加工編號(hào)是報(bào)紙數(shù)字化加工過(guò)程中一種報(bào)紙的唯一標(biāo)識(shí)號(hào),由11位數(shù)字和下劃線組成。文獻(xiàn)基本資料類(lèi)型(1位)、文獻(xiàn)語(yǔ)種(1位)、任務(wù)年(2位)、機(jī)構(gòu)代碼(4位)、下劃線(1位)、單位內(nèi)部報(bào)紙種類(lèi)編號(hào)(3位)。中文報(bào)紙的文獻(xiàn)基本類(lèi)型為(2:報(bào)紙),文獻(xiàn)語(yǔ)種編碼為(1:中文)。 2.3.2文件命名規(guī)則 每期報(bào)紙按照實(shí)際版次命名,用三位數(shù)字表示,后綴名小寫(xiě)tif。如第一版為001.tif,第2版為002.tif;則若報(bào)紙包含號(hào)外、增刊、副刊、特刊等特殊版面,且其不屬于報(bào)紙?jiān)谐R?guī)版次內(nèi)容,為獨(dú)立的另起版面,其文件的命名規(guī)則為:特殊版面種類(lèi)拼音首字母(大寫(xiě))+版次(2位,如有實(shí)際印刷版次,按實(shí)際命名,如沒(méi)有則按01開(kāi)始順序命名),如號(hào)外第一版H01.tif、增刊第一版Z01.tif、副刊第一版F01.tif、特刊第一版T01.tif;若報(bào)紙中存在通版(即打通同一面上兩個(gè)相鄰版而形成的版)情況,應(yīng)將這兩版整體掃描為一個(gè)圖像文件,并同時(shí)將其保存為這兩版的圖像,如當(dāng)報(bào)紙中的第2版和第3版為通版時(shí),通版圖像整體保存為一個(gè)文件,并且將這一圖像同時(shí)命名為002.tif和003.tif。 3雙層PDF標(biāo)準(zhǔn) 3.1雙層PDF加工 將處理完成后的圖像進(jìn)行報(bào)紙篇目文字識(shí)別校對(duì)。采用圖在文上的模式進(jìn)行雙層PDF輸出。 PDF文件根據(jù)圖像尺寸、顏色、數(shù)據(jù)存儲(chǔ)量、按JPEG2000有損壓縮,壓縮因子適度動(dòng)態(tài)調(diào)整,在確保圖像清晰的情況下,盡量壓縮圖像文件所占空間至最小。 3.2PDF文件質(zhì)量要求 兼容adobe reader6.0及以上版本。 在保持圖像清晰可讀的基礎(chǔ)上盡可能減小存儲(chǔ)量。 PDF文字層所使用的字體以”已嵌入子集”方式嵌入PDF文件。 雙層PDF文件的圖像層和文字層的文字對(duì)位準(zhǔn)確,反顯區(qū)域與文字區(qū)域相差1毫米以?xún)?nèi)。 雙層PDF錯(cuò)誤率不超過(guò)0.3‰。 4XML文件標(biāo)準(zhǔn) 文件應(yīng)著錄全面的報(bào)紙信息,記錄標(biāo)題及篇目位置等信息,標(biāo)題位置為引題、標(biāo)題和副題的整體位置,遵守XML語(yǔ)法規(guī)則,按規(guī)范標(biāo)簽進(jìn)行制作XML,使用utf-8字符集,錯(cuò)誤率小于0.3‰。 5數(shù)據(jù)庫(kù)標(biāo)準(zhǔn) 5.1數(shù)據(jù)庫(kù)命名 每種報(bào)紙單獨(dú)制作數(shù)據(jù)庫(kù),其命名與報(bào)紙加工編號(hào)相同,如:21160000_001.mdb。 5.2數(shù)據(jù)庫(kù)制作 5.2.1報(bào)紙基本信息表(book) 5.2.2報(bào)紙版面篇目信息表(catalog) 5.2.3報(bào)紙結(jié)構(gòu)信息表(struct) 5.3 數(shù)據(jù)庫(kù)制作及要求 標(biāo)引數(shù)據(jù)庫(kù)以MDB數(shù)據(jù)庫(kù)方式提交,后綴名mdb; 基本信息表的內(nèi)容應(yīng)與MARC數(shù)據(jù)相應(yīng)內(nèi)容保持一致; 版面篇目信息數(shù)據(jù)庫(kù)標(biāo)引要求真實(shí)反映報(bào)紙?jiān)玻?/p> 結(jié)構(gòu)信息表應(yīng)嚴(yán)格按文獻(xiàn)實(shí)際情況進(jìn)行描述; 無(wú)法錄入的生僻字等用“〓”表示; 版面篇目信息表與XML文件的對(duì)應(yīng)元素項(xiàng)的內(nèi)容應(yīng)一致; 各種著錄、說(shuō)明文件的文字、符號(hào)、版式、位置和文件名稱(chēng)準(zhǔn)確,其綜合錯(cuò)誤率不超過(guò)0.3‰。 6說(shuō)明文件 6.1數(shù)字化成品總清單 說(shuō)明文件格式:Microsoft Excel 說(shuō)明文件命名:地方文獻(xiàn)數(shù)據(jù)說(shuō)明(說(shuō)明文件的5張表需保存在同一個(gè)Excel文件的不同工作表中,每個(gè)工作表按下列表命名)。 6.1.1提交數(shù)據(jù)總體說(shuō)明 6.1.2保存級(jí)對(duì)象數(shù)據(jù)硬盤(pán)存儲(chǔ)清單 6.1.3發(fā)布級(jí)PDF對(duì)象數(shù)據(jù)硬盤(pán)存儲(chǔ)清單 6.1.4發(fā)布級(jí)XML對(duì)象數(shù)據(jù)硬盤(pán)存儲(chǔ)清單 6.1.5每種文獻(xiàn)數(shù)據(jù)量統(tǒng)計(jì)表 6.2每個(gè)存儲(chǔ)介質(zhì)內(nèi)的說(shuō)明文件(readme.txt) 7. 存儲(chǔ)規(guī)則 7.1 存儲(chǔ)介質(zhì)及命名 存儲(chǔ)介質(zhì)為硬盤(pán),硬盤(pán)命名由8位組成: 文獻(xiàn)基本資料類(lèi)型(1位)、文獻(xiàn)語(yǔ)種(1位)、加工年(2位)、機(jī)構(gòu)代碼(4位)。 7.2 數(shù)據(jù)存儲(chǔ)規(guī)則 存儲(chǔ)內(nèi)容包括:TIFF圖像、雙層PDF、XML、對(duì)應(yīng)數(shù)據(jù)庫(kù)、說(shuō)明文件、介質(zhì)說(shuō)明文件,書(shū)目數(shù)據(jù)文件各一份。 各類(lèi)型對(duì)象數(shù)據(jù)按加工編號(hào)遞增順序依次放置在硬盤(pán)內(nèi),保存目錄及文件名由四級(jí)組成: 第一級(jí)目錄為加工編號(hào)的前8位,如21160000,同時(shí)將介質(zhì)說(shuō)明文件并行保存(readme.txt); 第二級(jí)目錄為T(mén)IFF,PDF,XML同時(shí)將對(duì)應(yīng)數(shù)據(jù)庫(kù)、說(shuō)明文件(21160000.xls)、書(shū)目數(shù)據(jù)文件(21160000.iso)并行保存; 第三級(jí)目錄為加工編號(hào); 第四級(jí)目錄為相應(yīng)格式的對(duì)象數(shù)據(jù)文件; 第五級(jí)目錄為相應(yīng)格式的對(duì)象數(shù)據(jù)文件。 8加工成品數(shù)據(jù)的文獻(xiàn)管理平臺(tái)功能要求 1.該發(fā)布系統(tǒng)需具備完善的數(shù)字圖書(shū)館資源管理和發(fā)布軟件技術(shù)平臺(tái),包括數(shù)字資源發(fā)布、檢索、閱讀、管理、采集、制作、下載以及用戶(hù)交互等功能。資源類(lèi)型包括圖書(shū)、期刊、論文、報(bào)紙以及自建數(shù)據(jù)庫(kù),并且實(shí)現(xiàn)在圖書(shū),期刊,論文、報(bào)紙、自建庫(kù)的統(tǒng)一的檢索和獲取。平臺(tái)功能成熟,檢索方便快捷,具備多種途徑的單項(xiàng)檢索、組合條件檢索。 2.能夠兼容國(guó)家863計(jì)劃中國(guó)數(shù)字圖書(shū)館示范工程標(biāo)準(zhǔn)PDG格式的電子圖書(shū)文獻(xiàn)資源,技術(shù)上能夠做到整合到同一平臺(tái)中,同時(shí)支持轉(zhuǎn)換PDF、PDG、PNG、Word格式的文檔資料為網(wǎng)頁(yè)版閱讀方式,方便大多數(shù)用戶(hù)使用習(xí)慣。同時(shí)實(shí)現(xiàn)不同格式的文檔轉(zhuǎn)換,所有圖書(shū)均可實(shí)現(xiàn)文字圖像復(fù)制摘錄和圖書(shū)無(wú)損縮放。支持元數(shù)據(jù)檢索、目次檢索、全文檢索等多種檢索方式,友好統(tǒng)一的用戶(hù)界面,提供各種高級(jí)的檢索功能,具有突出的檢索性能。 3.該系統(tǒng)需具備獨(dú)立完善的管理平臺(tái),管理功能全面,具備基本狀態(tài)、流量分析、用戶(hù)管理、排行管理、IP范圍管理、圖書(shū)管理、反饋需求管理、公告問(wèn)題管理、頻道專(zhuān)題管理、頁(yè)面模板風(fēng)格管理等功能;能實(shí)現(xiàn)自建特色庫(kù),系統(tǒng)具有良好的開(kāi)放性和兼容性,除電子圖書(shū)外還可以支持音頻、視頻、期刊、專(zhuān)題數(shù)據(jù)庫(kù)、標(biāo)準(zhǔn)、網(wǎng)站信息等的使用。 4.不限制使用用戶(hù)個(gè)數(shù),無(wú)下載量限制,軟件無(wú)用戶(hù)數(shù)或使用次數(shù)限制;可以進(jìn)行資源管理,包括推薦資源,查詢(xún),分類(lèi)管理、設(shè)置;可以自行修改用戶(hù)的訪問(wèn)權(quán)限和局域網(wǎng)IP范圍。 5.提供原廠開(kāi)發(fā)的數(shù)字圖書(shū)館軟件系統(tǒng)一套,免費(fèi)對(duì)數(shù)據(jù)庫(kù)及相關(guān)軟件系統(tǒng)的安裝、調(diào)試、培訓(xùn)與維護(hù)。 6.平臺(tái)提供IP和用戶(hù)名兩種身份認(rèn)證和權(quán)限管理方式,圖書(shū)館設(shè)有外網(wǎng)地址的情況下可以實(shí)現(xiàn)鏡像平臺(tái)的外網(wǎng)賬號(hào)訪問(wèn);具有強(qiáng)大的查詢(xún)檢索、圖書(shū)推薦、圖書(shū)排行、訪問(wèn)量統(tǒng)計(jì)等功能,并支持頁(yè)面定制。 |
備注:成交供應(yīng)商需負(fù)責(zé)將加工數(shù)據(jù)與圖書(shū)館原有軟件平臺(tái)對(duì)接并將數(shù)據(jù)導(dǎo)入,配合省圖書(shū)館驗(yàn)收合格。