精品久久久久国产|AV永久精品无码国产|99亚洲专区福利在线|人妖精品亚洲永久免费精品|91爱国产成人毛片国产a|aV一区二区三区精品无码|国产免费av片在线观看与下载|国产成人99久久亚洲综合精品

當(dāng)前位置:內(nèi)蒙古區(qū)情網(wǎng)  /  數(shù)字史志  /  期刊  /  方志期刊  /  2022年  /  第四期

第四期

  • 【工作研究】 論地方志鑒文本信息化的“三部曲”
  • 發(fā)布時(shí)間:2023-07-06
  • 來(lái)源:

  • 摘要:地方志的信息化是業(yè)界公認(rèn)的發(fā)展方向,是地方志事業(yè)走向繁榮的必由路徑,而地方志和信息化的結(jié)合工作量非常龐大,必須對(duì)其進(jìn)行深入研究,構(gòu)建清晰明了的實(shí)施步驟。通過(guò)分析各省的地方志數(shù)據(jù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù)和各省志鑒文本信息化完成的工作量、展現(xiàn)形式,提出志鑒文本信息化的發(fā)展步驟,并使用“物”“器”“用”三個(gè)詞作為說(shuō)明輔助,闡明三個(gè)步驟之間區(qū)別和關(guān)聯(lián),為地方志信息化工作提供參考借鑒。

    關(guān)鍵詞:地方志鑒  文本信息化  步驟  邏輯關(guān)系

    地方志鑒文本信息化是一項(xiàng)跨越計(jì)算機(jī)學(xué)科和方志學(xué)科的研究課題。目前國(guó)內(nèi)的相關(guān)研究中,針對(duì)地方志數(shù)字化、信息化的研究已有較多分析文章和成果,但多數(shù)是闡述信息化對(duì)地方志的重要性、作用及需要實(shí)現(xiàn)信息化的地方志資源種類,有的涉及到了信息化的實(shí)現(xiàn)方式,但不夠系統(tǒng),對(duì)于地方志資源的信息化表現(xiàn)方式也沒(méi)有進(jìn)行層次化的分析,從數(shù)字化和信息化概念辨析入手,清晰地解構(gòu)地方志鑒文本信息化工作發(fā)展步驟的研究?jī)?nèi)容仍較為罕見(jiàn)。國(guó)內(nèi)大部分的志鑒文本信息化基本停留在將文本內(nèi)容轉(zhuǎn)換存儲(chǔ)致電磁介質(zhì)的階段,本文的研究?jī)?nèi)容將為志鑒文本信息化的下一步發(fā)展提供一定的方向性拓展。

    一、全國(guó)志鑒文本信息化數(shù)據(jù)庫(kù)建設(shè)情況分析

    根據(jù)中國(guó)地方志指導(dǎo)小組辦公室的全國(guó)地方志統(tǒng)計(jì)數(shù)據(jù),截至2019年12月31日,全國(guó)地方志系統(tǒng)已建設(shè)有省級(jí)數(shù)據(jù)庫(kù)24個(gè),地市級(jí)數(shù)據(jù)庫(kù)50個(gè),縣區(qū)級(jí)數(shù)據(jù)庫(kù)26個(gè)。其中,地市級(jí)數(shù)據(jù)庫(kù)山東16個(gè)、河南10個(gè)占比較高,縣區(qū)級(jí)數(shù)據(jù)庫(kù)山東6個(gè)、重慶5個(gè)、四川4個(gè)、河南3個(gè)占比較高。從數(shù)據(jù)中可以分析得到以下兩條結(jié)論。一是省級(jí)地方志機(jī)構(gòu)中已建設(shè)數(shù)據(jù)庫(kù)的占總比為75%統(tǒng)計(jì)數(shù)據(jù)中包含新疆生產(chǎn)建設(shè)兵團(tuán),不包含香港、澳門(mén)、臺(tái)灣,總體來(lái)看,省級(jí)地方志工作機(jī)構(gòu)中已建設(shè)數(shù)據(jù)庫(kù)的比率較高。二是市縣兩級(jí)地方志工作機(jī)構(gòu)中已建設(shè)數(shù)據(jù)庫(kù)的占比較低,而且主要集中在山東、河南等省份。部分縣、縣級(jí)市的地方志工作機(jī)構(gòu)采取的是黨史、檔案、地方志三合一的架構(gòu),實(shí)際建設(shè)的是檔案數(shù)據(jù)庫(kù),并不是地方志的數(shù)據(jù)庫(kù),因而縣級(jí)的地方志工作機(jī)構(gòu)已建設(shè)數(shù)據(jù)庫(kù)的比率比統(tǒng)計(jì)情況還要略低。

    通過(guò)調(diào)查研究,市縣兩級(jí)的地方志工作機(jī)構(gòu)建設(shè)數(shù)據(jù)庫(kù)的比例較低的原因主要是以下三個(gè)方面:一是地方志鑒文本信息化建設(shè)本身就是一個(gè)集約過(guò)程,省級(jí)機(jī)構(gòu)已經(jīng)完成了大量的地方志鑒文本信息化,很多市縣只需要采用“拿來(lái)主義”,就可以使用,無(wú)需重復(fù)開(kāi)發(fā)建設(shè)。二是市縣兩級(jí)的地方志工作機(jī)構(gòu)的地方志鑒文本信息化建設(shè)經(jīng)費(fèi)沒(méi)有保障。三是缺乏信息化人才,工作難以開(kāi)展。市縣兩級(jí)的志鑒文本信息化的發(fā)展存在著不充分、不均衡的狀況,但這種不充分、不均衡的情況并不意味著發(fā)展趨勢(shì)不對(duì)。信息化本身存在一個(gè)集約建設(shè)的問(wèn)題,數(shù)據(jù)只有充分飽和集中,數(shù)據(jù)才有價(jià)值,信息化才有作用。因此,市縣兩級(jí)較少地進(jìn)行志鑒文本信息化的工作,而由省級(jí)地方志工作機(jī)構(gòu)代替其完成這部分工作,在現(xiàn)有條件下,是較為合理的發(fā)展模式。

    二、各省志鑒文本信息化工作情況

    經(jīng)過(guò)對(duì)各省地方志工作機(jī)構(gòu)的網(wǎng)站內(nèi)容進(jìn)行分析統(tǒng)計(jì),得到各省志鑒文本信息化工作情況如下僅統(tǒng)計(jì)志書(shū)、年鑒、舊志三部分內(nèi)容,其余史志期刊、地情書(shū)籍不統(tǒng)計(jì)在內(nèi),統(tǒng)計(jì)情況可能存在訛漏,排名順序不分先后

    1.北京市,完成了部分志書(shū)、年鑒、明清和民國(guó)古籍的信息化展示,更換多個(gè)瀏覽器無(wú)法在線閱讀。

    2.天津市,有市級(jí)志書(shū)71冊(cè),天津區(qū)級(jí)地方志書(shū)18冊(cè),天津區(qū)縣年鑒10卷,舊志點(diǎn)校1種。采用雙層PDF形式展示。

    3.河北省,無(wú),外鏈萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)的2018部與河北有關(guān)志書(shū)、年鑒。

    4.山西省,無(wú)。

    5.內(nèi)蒙古自治區(qū),內(nèi)蒙古年鑒1998卷至2019卷22卷,采用純文本格式展示。另有數(shù)據(jù)庫(kù)系統(tǒng)需要賬號(hào)密碼訪問(wèn),其中內(nèi)容未知。

    6.遼寧省無(wú)。

    7.吉林省,有省市縣三級(jí)地方志書(shū),吉林年鑒1989卷至2000卷,少量其他志書(shū),因點(diǎn)擊“更多內(nèi)容”時(shí)出現(xiàn)錯(cuò)誤,無(wú)法明確志鑒總數(shù)量。內(nèi)容采用純文本格式展示。

    8.黑龍江省,有省級(jí)志書(shū)71冊(cè),市縣兩級(jí)地方志書(shū)218冊(cè),黑龍江年鑒1986卷至2020卷35卷),市縣兩級(jí)綜合年鑒108卷,農(nóng)墾志鑒若干,采用純文本格式展示。舊志Flash翻頁(yè)動(dòng)畫(huà)4種。

    9.上海市,有市級(jí)志書(shū)231冊(cè),區(qū)縣級(jí)志書(shū)174冊(cè),鄉(xiāng)鎮(zhèn)街道村志124冊(cè),上海年鑒1996卷至2020卷25卷),上海區(qū)縣綜合年鑒116冊(cè)。采用純文本格式展示。

    10.江蘇省,有省級(jí)志書(shū)138冊(cè),江蘇年鑒1988卷至2019卷32卷),市縣兩級(jí)年鑒1548卷,省市縣三級(jí)綜合年鑒和專業(yè)年鑒1580卷。采用雙層PDF格式展示,直接加載整本書(shū)PDF文件。舊志1種11卷,采用純文本格式展示。

    11.浙江省,有省級(jí)志書(shū)70冊(cè),采用純文本格式展示。

    12.安徽省,有省級(jí)志書(shū)67冊(cè),市縣兩級(jí)志書(shū)94冊(cè),山湖志7冊(cè),采用純文本格式展示。安徽年鑒1984卷至2020卷37卷),年鑒部分內(nèi)容為單層PDF,年鑒內(nèi)容無(wú)法選中復(fù)制。

    13.福建省,有省級(jí)志書(shū)127冊(cè),市縣兩級(jí)志書(shū)142冊(cè),采用純文本格式展示。行業(yè)及部門(mén)志148冊(cè),采用雙層PDF格式。鄉(xiāng)鎮(zhèn)村志24冊(cè)年鑒387卷,采用單層PDF格式內(nèi)容無(wú)法選中復(fù)制。舊志種類若干,分405卷,混用雙層PDF和單層PDF,以上下滾動(dòng)翻頁(yè)的形式展示。

    14.江西省,有省級(jí)志書(shū)98冊(cè),市縣兩級(jí)志書(shū)81冊(cè)江西年鑒2002卷至2020卷19卷,采用雙層PDF格式,選中后直接彈出PDF。舊志1種57冊(cè)),采用豎版滾動(dòng)條雙層PDF格式展示。

    15.山東省,有省級(jí)志書(shū)174冊(cè),鄉(xiāng)鎮(zhèn)村志11冊(cè),山東年鑒1987卷至2018卷32卷),各市州區(qū)縣志鑒資料等1153冊(cè),采用網(wǎng)頁(yè)純文本格式展示。舊志5種,采用圖片或純文本形式展示。

    16.臺(tái)灣地區(qū),無(wú)。

    17.河南省,有省級(jí)志書(shū)101冊(cè),市縣兩級(jí)志書(shū)2冊(cè),河南年鑒1984卷至2016卷33卷,采用網(wǎng)頁(yè)純文本格式展示,使用腳本語(yǔ)言限制復(fù)制功能。

    18.湖北省,無(wú)。

    19.湖南省,有省級(jí)志書(shū)冊(cè)129冊(cè),省級(jí)年鑒1985卷至2018卷36卷94卷有增刊),采用純文本格式展示。市縣兩級(jí)志書(shū)329冊(cè),采用雙層PDF格式展示。舊志101種,采用Flash翻頁(yè)動(dòng)畫(huà)展示。

    20.廣東省,有省級(jí)志書(shū)110冊(cè),市縣兩級(jí)志書(shū)83冊(cè),廣東年鑒1987卷至2020卷34卷),市縣兩級(jí)年鑒650冊(cè)采用單層PDF格式展示。

    21.廣西壯族自治區(qū),有省級(jí)志書(shū)166冊(cè),市縣兩級(jí)志書(shū)146冊(cè),鄉(xiāng)鎮(zhèn)村志31冊(cè),廣西年鑒1987卷至2019卷33卷),市縣兩級(jí)年鑒336冊(cè),專業(yè)年鑒54冊(cè),采用單層PDF格式展示。

    22.海南省,有省級(jí)志書(shū)72冊(cè),市縣兩級(jí)志書(shū)19冊(cè),部門(mén)志2冊(cè),鄉(xiāng)鎮(zhèn)村志6冊(cè),農(nóng)場(chǎng)志13冊(cè),海南年鑒1989卷至2020卷32卷,市縣兩級(jí)年鑒26卷,專業(yè)年鑒4卷,采用純文本格式展示。舊志3種,采用圖片或純文本格式展示。

    23.香港特別行政區(qū),無(wú)。

    24.澳門(mén)特別行政區(qū),無(wú)。

    25.重慶市,有市級(jí)志書(shū)59冊(cè),重慶年鑒1987卷至1999卷13卷),采用純文本格式展示,使用腳本語(yǔ)言限制復(fù)制功能。舊志10種,采用單層PDF格式展示。

    26.四川省,有省級(jí)志書(shū)112冊(cè),市縣兩級(jí)志書(shū)若干,其他志書(shū)23冊(cè),四川年鑒1986卷至2020卷35卷),采用雙層PDF格式展示。

    27.貴州省,有省級(jí)志書(shū)94冊(cè),市級(jí)志書(shū)316冊(cè),縣級(jí)志書(shū)163冊(cè),采用純文本格式和單層PDF格式和雙重展示。

    28.云南省,有省級(jí)志書(shū)120冊(cè),市縣兩級(jí)志書(shū)214冊(cè)云南年鑒2007卷至2018卷12卷),市縣兩級(jí)年鑒14卷舊志18種,采用單層PDF格式展示。

    29.西藏自治區(qū),無(wú)。

    30.陜西省,有省級(jí)志書(shū)89冊(cè),市縣兩級(jí)志書(shū)134冊(cè)陜西年鑒1987卷至2020增刊卷35卷,市縣兩級(jí)年鑒若干,舊志64種,采用純文本格式和雙層PDF格式和雙重展示。

    31.甘肅省,有省級(jí)志書(shū)133冊(cè),市級(jí)志書(shū)23冊(cè),縣級(jí)志書(shū)164冊(cè),專業(yè)行業(yè)志若干,鄉(xiāng)鎮(zhèn)村志8冊(cè),省級(jí)年鑒2009卷至2020卷12卷,省級(jí)部門(mén)年鑒6卷,市州區(qū)縣年鑒若干,采用雙層PDF格式展示。

    32.青海省,有省級(jí)志書(shū)23冊(cè),市級(jí)志書(shū)0冊(cè),縣級(jí)志書(shū)1冊(cè),青海年鑒2010卷至2020卷2018卷,10卷),采用單層PDF格式展示。

    33.寧夏回族自治區(qū),有部分寧夏通志和寧夏年鑒的目錄圖片。

    34.新疆維吾爾自治區(qū),建設(shè)有地情資料信息庫(kù),顯示正在維護(hù)中,無(wú)法訪問(wèn)。

    通過(guò)各省級(jí)地方志工作機(jī)構(gòu)的志鑒文本信息化情況分析,已經(jīng)啟動(dòng)或準(zhǔn)備實(shí)施志鑒文本信息化是各省級(jí)地方志工作機(jī)構(gòu)的普遍狀態(tài),但在完成的數(shù)量和形式上存在較多差異化。在完成進(jìn)度上存在一個(gè)差量化的區(qū)別,有的省已經(jīng)基本完成省市縣三級(jí)地方志書(shū)和綜合年鑒的文本信息化初步處理,有的省還剩下部分地方志書(shū)和綜合年鑒未進(jìn)行文本信息化初步處理,有的省則還剛開(kāi)始起步。在表現(xiàn)電子文檔的形式上也有較大差異,有的省采用網(wǎng)頁(yè)純文本展示,有的省采用雙層PDF格式展示,有的省則還處于單層PDF展示狀態(tài)。綜合來(lái)說(shuō),各省已進(jìn)入志鑒文本信息化建設(shè)大踏步前進(jìn)的階段。

    經(jīng)過(guò)對(duì)現(xiàn)有方志數(shù)據(jù)庫(kù)的比對(duì)研究,將志鑒文本信息化的工作步驟劃分為三個(gè)階段,即由紙質(zhì)化提升為數(shù)字化、由數(shù)字化整理為結(jié)構(gòu)化、由結(jié)構(gòu)化轉(zhuǎn)變?yōu)橹悄芑Mㄟ^(guò)現(xiàn)有情況和數(shù)據(jù)的分析,對(duì)志鑒文本信息化工作提出“三部曲”設(shè)想。

    三、志鑒文本信息化的步驟解析

    由紙質(zhì)化提升為數(shù)字化

    由紙質(zhì)化提升為數(shù)字化,是志鑒文本信息化的第一步。紙質(zhì)化,即書(shū)面化,以定稿印刷成冊(cè)的形式承載志鑒的文本內(nèi)容,是一種沿襲上千年的文字承載形式。顯而易見(jiàn),紙質(zhì)化的優(yōu)點(diǎn)和缺點(diǎn)都十分明顯,優(yōu)點(diǎn)是更具質(zhì)感、立體感和厚重感,便于人的閱讀和批注,缺點(diǎn)則是不方便尋找特定數(shù)據(jù),不利于攜帶,傳播速度相對(duì)要慢。數(shù)字化,一些從事數(shù)字化服務(wù)的企業(yè)也將其稱之為碎片化,主要變化為存儲(chǔ)介質(zhì)由紙張變?yōu)殡姶盼镔|(zhì),其標(biāo)志就是能實(shí)現(xiàn)文字內(nèi)容可編輯以及全文檢索。前文中統(tǒng)計(jì)的采用單層PDF或圖片形式展示志鑒內(nèi)容的形式,不屬于志鑒文本信息化,因?yàn)槠湮茨軐?shí)現(xiàn)文字內(nèi)容的可編輯,只是將紙質(zhì)書(shū)籍轉(zhuǎn)變?yōu)榇鎯?chǔ)在電磁物質(zhì)中的圖片,只能算志鑒書(shū)頁(yè)的信息化。還有一種特殊情況,即完成了志鑒文本內(nèi)容的掃描識(shí)別,實(shí)現(xiàn)了文字內(nèi)容可編輯,但未能實(shí)現(xiàn)全文檢索功能。因?yàn)檫@種形式并沒(méi)有擺脫紙質(zhì)化不方便尋找特定數(shù)據(jù)的特性,在此處將其定義為半數(shù)字化。由半數(shù)字化變?yōu)閿?shù)字化,只需要對(duì)數(shù)據(jù)進(jìn)行章節(jié)整理,然后按章節(jié)格式存儲(chǔ)至數(shù)據(jù)庫(kù)中即可。

    實(shí)現(xiàn)由紙質(zhì)化提升為數(shù)字化,大多數(shù)地方志機(jī)構(gòu)采用的是掃描紙質(zhì)書(shū)進(jìn)行文字識(shí)別,然后進(jìn)行機(jī)器及人工校對(duì)的工作流程,難以直接采用志鑒電子版文件。這是因?yàn)?,第一輪出版的地方志?shū)和早期的綜合年鑒,大多數(shù)采用鉛字印刷工藝,沒(méi)有使用計(jì)算機(jī)排版,從而也不存在所謂電子版,第二輪出版的地方志書(shū)和本世紀(jì)以來(lái)的綜合年鑒基本采用計(jì)算機(jī)軟件排版,但地方志工作機(jī)構(gòu)并無(wú)志鑒資料定稿的電子文件,出版社或印刷廠提供的PDF文檔也多數(shù)采用了轉(zhuǎn)曲的排版工藝,已經(jīng)將文檔轉(zhuǎn)換成了純圖片,文檔里面的文字無(wú)法進(jìn)行復(fù)制。已經(jīng)有一些學(xué)者提出,需要打通地方志資料搜集、編纂、出版、展示的全流程信息化,但仍存在一些難以克服的問(wèn)題,因本文集中于探討志鑒文本信息化步驟,此處不作深入說(shuō)明。

    地方志工作機(jī)構(gòu)實(shí)現(xiàn)志鑒文本內(nèi)容數(shù)字化主要有純文本形式和雙層PDF形式,有單獨(dú)采用一種格式的,也有采用兩種格式混用的,兩種形式各有利弊。從存儲(chǔ)空間上來(lái)看,純文本格式的數(shù)字化成果需要的存儲(chǔ)空間小,雙層PDF格式需要存儲(chǔ)圖書(shū)的圖片,需要更大存儲(chǔ)空間。從網(wǎng)頁(yè)加載速度上來(lái)看,純文本格式的數(shù)字化成果響應(yīng)時(shí)間短,雙層PDF格式需要加載圖書(shū)的圖片,需要更長(zhǎng)的加載時(shí)間。如果網(wǎng)絡(luò)資源有限,將會(huì)導(dǎo)致二者加載速度出現(xiàn)較明顯區(qū)別。從兼容性上看,純文本格式具有更好的兼容性。雙層PDF格式可能會(huì)存在兩方面的兼容性問(wèn)題,一是少部分電腦網(wǎng)頁(yè)P(yáng)DF文件加載不出來(lái),二是復(fù)制PDF下層文字時(shí)會(huì)出現(xiàn)一些格式混亂的問(wèn)題。從成果驗(yàn)收上看,純文本格式驗(yàn)收更簡(jiǎn)便,因雙層PDF格式的文字在下層,需要復(fù)制出來(lái),粘貼到其他文字軟件后,才能進(jìn)行檢查差錯(cuò)。從學(xué)術(shù)需求的角度上來(lái)看,雙層PDF格式展示內(nèi)容和原書(shū)一致,有效保存了書(shū)籍的原本樣貌,方便用戶獲取引用資料所在頁(yè)碼。綜合來(lái)看,純文本格式在技術(shù)上更有優(yōu)勢(shì),雙層PDF格式在學(xué)術(shù)需求上更有優(yōu)勢(shì)。選取何種格式的方式進(jìn)行加工,需要各地方志工作機(jī)構(gòu)根據(jù)自身實(shí)際情況進(jìn)行分析判斷。

    由數(shù)字化整理為結(jié)構(gòu)化

    數(shù)字化的文本數(shù)據(jù)進(jìn)一步加工,可以將其變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化即指數(shù)據(jù)排列具有規(guī)則性,有內(nèi)在聯(lián)系,其標(biāo)志就是任何一個(gè)數(shù)據(jù)有其對(duì)應(yīng)的元數(shù)據(jù)元數(shù)據(jù),描述數(shù)據(jù)的數(shù)據(jù),可視為數(shù)據(jù)的一種屬性,且元數(shù)據(jù)保持相對(duì)固定不能隨意發(fā)生變化。目前廣泛使用的數(shù)據(jù)庫(kù)MySQL、SQL  Server、Oracle、Sybase等,都是結(jié)構(gòu)化數(shù)據(jù)庫(kù),所以廣泛的意義上來(lái)說(shuō),存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)幾乎都是結(jié)構(gòu)化數(shù)據(jù)。大量數(shù)字化文本要實(shí)現(xiàn)全文檢索功能,存儲(chǔ)在數(shù)據(jù)庫(kù)中是唯一的可行方式,因此數(shù)字化文本必然是結(jié)構(gòu)化數(shù)據(jù)。但是數(shù)字化文本內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)中的模式是將書(shū)的每一節(jié)或每一頁(yè)的文本以長(zhǎng)字段存儲(chǔ)在數(shù)據(jù)庫(kù)中,結(jié)構(gòu)化的是志鑒書(shū)籍和志鑒的目錄,元數(shù)據(jù)為書(shū)籍的章節(jié)或其他版權(quán)信息等,而不是志鑒文本中數(shù)據(jù)的結(jié)構(gòu)化。此處所指需要進(jìn)一步提升到結(jié)構(gòu)化,是指為數(shù)字化志鑒資料中的所有數(shù)據(jù)整理出屬性。

    志鑒資料中,有三種類型的文本內(nèi)容可以轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。第一種就是表格。志書(shū)的體裁有序、述、記、志、傳、圖、表、錄等,構(gòu)成志書(shū)的基本框架。表格這一類型的數(shù)據(jù)按行列存儲(chǔ)在數(shù)據(jù)庫(kù)中即可變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),是志鑒資料可直接轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容。在志書(shū)的篇目中,除大事記之外,其余部分均有表格類型的數(shù)據(jù)存在,如《湖南省志·地理志》的第三章第一節(jié),在記錄湖南人口的歷史記載時(shí),就從歷朝歷代的文獻(xiàn)中整理出16個(gè)表格記錄了從西漢至民國(guó)1947年的戶口數(shù)據(jù)。表格的標(biāo)題列為湖南的各行政區(qū)域,表格的標(biāo)題行省略了,但根據(jù)內(nèi)容可以推測(cè)為戶數(shù)量和人數(shù)量等。這個(gè)表格存儲(chǔ)至數(shù)據(jù)庫(kù)中,其內(nèi)容即為結(jié)構(gòu)化數(shù)據(jù),表格的元數(shù)據(jù)為行政區(qū)域和數(shù)量。

    第二種可以轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的就是志鑒資料中在同一段落或同一章節(jié)內(nèi)以枚舉的形式記錄的屬性重復(fù)的有關(guān)數(shù)據(jù),可以將其先轉(zhuǎn)換為表格,再存儲(chǔ)至數(shù)據(jù)庫(kù)中,即可得到結(jié)構(gòu)化數(shù)據(jù)。仍然以《湖南省志·地理志》為例來(lái)說(shuō)明,如第一章疆域文字部分最后一段的內(nèi)容為:“全省90個(gè)縣的面積,在5000平方公里以上的有1個(gè)縣;5000平方公里以下4000平方公里以上的有4個(gè)縣;4000平方公里以下3000平方公里以上的有11個(gè)縣;3000平方公里以下2000平方公里以上的有39個(gè)縣;2000平方公里以下1000平方公里以上的有34個(gè)縣,1000平方公里以下的有1個(gè)縣……”。通過(guò)觀察,就可發(fā)現(xiàn),文字部分每一句都在闡述行政區(qū)劃的面積和數(shù)量,因此可提煉如下湖南縣級(jí)行政區(qū)劃面積大小數(shù)量統(tǒng)計(jì)表格。

     

    image.png 

    將該表格按行列存儲(chǔ)至數(shù)據(jù)庫(kù),即可得到一組結(jié)構(gòu)化數(shù)據(jù)。在第一種類型舉例時(shí)提到的湖南人口歷史記載,其數(shù)據(jù)也是散列在各歷史文獻(xiàn)中,通過(guò)參與編纂的人員整理后形成的表格,然后才可直接存儲(chǔ)至數(shù)據(jù)庫(kù)中得到結(jié)構(gòu)化數(shù)據(jù)。雖然志鑒資料中有為數(shù)不少的表格,但是畢竟以敘述性文字內(nèi)容為主,通過(guò)屬性重復(fù)的文字內(nèi)容的整理,就能有效擴(kuò)大志鑒文本結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量。

    第三種可以轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的就是志鑒資料中,分散于各篇目或部類之間的具有聯(lián)系的文本內(nèi)容。例如湖南年鑒從1985卷開(kāi)始,均刊載了政府工作報(bào)告,通過(guò)查閱各卷中的政府工作報(bào)告,得到1985年至1992年的全省國(guó)民生產(chǎn)總值GNP如下344.98億元、392.64億元、469.44億元、584億元、640.8億元、703億元、784億元、900億元,得到19932018年的全省國(guó)內(nèi)生產(chǎn)總值地區(qū)GDP如下:1192.41億元、1694億元、2640億元、3000億元、3211.4億元、3407億元、3692億元、3983億元、4340.9億元、4634億元、5612.3億元、6500億元、7493億元、9145億元、11000億元、12930.7億元、1.5萬(wàn)億元、2萬(wàn)億元、2.2萬(wàn)億元、2.45萬(wàn)億元、2.7萬(wàn)億元、2.9萬(wàn)億元、3.12萬(wàn)億元、3.64萬(wàn)億元、3.64萬(wàn)億元均摘錄原文字樣,其中部分?jǐn)?shù)據(jù)原文標(biāo)注為預(yù)計(jì)數(shù),2020卷中記錄的2019年政府工作報(bào)告未提到具體生產(chǎn)總值。當(dāng)然其中還存在其他年度性數(shù)據(jù),不一一列舉,將這些年度性數(shù)據(jù)全部整理后匯總并存入數(shù)據(jù)庫(kù),即可得到一組隨年度變化的結(jié)構(gòu)化數(shù)據(jù)。

    由結(jié)構(gòu)化轉(zhuǎn)變?yōu)橹悄芑?/span>

    結(jié)構(gòu)化的數(shù)據(jù)相比普通的數(shù)字化文本更加簡(jiǎn)潔明了,但數(shù)據(jù)的使用和分析仍然限定在單一結(jié)構(gòu)化區(qū)域。如何實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的跨區(qū)域聯(lián)系,使得結(jié)構(gòu)化數(shù)據(jù)發(fā)揮最大的價(jià)值?目前現(xiàn)有的技術(shù)途徑是人工智能AI,即采取機(jī)器學(xué)習(xí)的方式,根據(jù)人類對(duì)志鑒數(shù)據(jù)的比較、判讀方法形成算法,使用機(jī)器對(duì)數(shù)據(jù)進(jìn)行不斷分析和挖掘、提取數(shù)據(jù)中有價(jià)值的信息,通過(guò)機(jī)器的運(yùn)算結(jié)果反饋優(yōu)化算法,使數(shù)據(jù)智能化。其標(biāo)志就是機(jī)器自發(fā)對(duì)數(shù)據(jù)進(jìn)行處理和加工,形成優(yōu)質(zhì)的分析結(jié)果。

    志鑒文本數(shù)據(jù)的一個(gè)重要特征就是具有較高廣泛性,但是數(shù)據(jù)深度不足。這與地方志的編纂方式有關(guān),地方志的編纂有“眾手成志”的說(shuō)法,數(shù)據(jù)資料來(lái)源于各類組織和社會(huì)各界,但是受限于地方志的篇幅,必然在每一個(gè)領(lǐng)域只能攫取最為緊要和概括性的數(shù)據(jù)。根據(jù)這一特點(diǎn),實(shí)現(xiàn)志鑒文本數(shù)據(jù)的智能化最首要的方式就是對(duì)跨領(lǐng)域的數(shù)據(jù)進(jìn)行比對(duì)和分析,并尋找其中的關(guān)聯(lián)點(diǎn)。通過(guò)這些數(shù)據(jù)關(guān)聯(lián),為黨委政府決策提供支撐,為各類研究人員提供全新的數(shù)據(jù)關(guān)聯(lián)構(gòu)造,方便研究人員能站在更高廣度的基礎(chǔ)上解讀和分析所研究的領(lǐng)域。舉個(gè)例子來(lái)說(shuō),國(guó)務(wù)院總理李克強(qiáng)任職遼寧省委書(shū)記時(shí),喜歡通過(guò)耗電量、鐵路貨運(yùn)量和貸款發(fā)放量三個(gè)指標(biāo)分析當(dāng)時(shí)遼寧省經(jīng)濟(jì)狀況。因?yàn)镚DP的統(tǒng)計(jì)較為復(fù)雜,存在干擾數(shù)據(jù)或統(tǒng)計(jì)不完全數(shù)據(jù)的可能性,而這三項(xiàng)數(shù)據(jù)統(tǒng)計(jì)相對(duì)較為簡(jiǎn)單,通過(guò)工業(yè)用電量新增、鐵路貨運(yùn)量新增和銀行中長(zhǎng)期貸款新增與GDP增長(zhǎng)量之間的線性關(guān)系,可以很好地評(píng)估GDP的統(tǒng)計(jì)準(zhǔn)確性。這里就是通過(guò)工業(yè)用電量新增、鐵路貨運(yùn)量新增和銀行中長(zhǎng)期貸款新增與GDP的增長(zhǎng)速度之間,建立一個(gè)數(shù)據(jù)模型。就志鑒文本數(shù)據(jù)來(lái)說(shuō),可以通過(guò)計(jì)算機(jī)分析已實(shí)現(xiàn)結(jié)構(gòu)化的數(shù)據(jù)的曲線,建立起多個(gè)這樣的數(shù)據(jù)模型,實(shí)現(xiàn)志鑒文本數(shù)據(jù)的智能化。在記錄這些數(shù)據(jù)模型后,可以更進(jìn)一步分析模型和模型之間的關(guān)聯(lián)程度,建立起一套全新的解釋話語(yǔ),為社會(huì)公眾提供高質(zhì)量服務(wù)。

    實(shí)現(xiàn)志鑒文本數(shù)據(jù)的智能化的第二種方式是引入數(shù)字人文技術(shù)。數(shù)字人文是近年來(lái)新興起的概念,實(shí)際上,在人文領(lǐng)域引入計(jì)算機(jī)輔助研究已有很長(zhǎng)的歷史,數(shù)字人文是對(duì)這方面交叉關(guān)系的一個(gè)總概括,應(yīng)用十分廣泛,前文所闡述的建立結(jié)構(gòu)化數(shù)據(jù),實(shí)際也是數(shù)字人文的一個(gè)方面。要實(shí)現(xiàn)志鑒文本數(shù)據(jù)智能化,可以引入部分?jǐn)?shù)字人文的分析方法,對(duì)數(shù)據(jù)進(jìn)行分析利用。舉例來(lái)說(shuō),可以通過(guò)抓取互聯(lián)網(wǎng)的有關(guān)數(shù)據(jù),建立鏈接關(guān)系,并和志鑒文本數(shù)據(jù)進(jìn)行比對(duì),打通志鑒文本數(shù)據(jù)和其他社會(huì)數(shù)據(jù)的聯(lián)系,以實(shí)現(xiàn)志鑒文本數(shù)據(jù)的“遠(yuǎn)讀”。

    四、三部曲之間的關(guān)系

    由紙質(zhì)化提升為數(shù)字化,是地方志鑒文本信息化基礎(chǔ)階段,對(duì)應(yīng)中國(guó)哲學(xué)“物”的概念,為后續(xù)的信息化準(zhǔn)備好充足的材料。強(qiáng)調(diào)的是通過(guò)掃描和識(shí)別兩道工序進(jìn)行數(shù)字化加工,雖然會(huì)耗費(fèi)一些人工,但是在志鑒文本信息化三部曲里面,仍然是較為簡(jiǎn)單和基礎(chǔ)的步驟。

    由數(shù)字化整理為結(jié)構(gòu)化,是地方志鑒文本信息化的發(fā)展階段,對(duì)應(yīng)中國(guó)哲學(xué)“器”的概念,通過(guò)基礎(chǔ)階段的材料,建立起不同的版塊資源。強(qiáng)調(diào)的是通過(guò)人工建立起直觀的數(shù)據(jù)聯(lián)系,如果沒(méi)有基礎(chǔ)階段實(shí)現(xiàn)志鑒數(shù)據(jù)的全文檢索功能,那么發(fā)展階段的結(jié)構(gòu)化數(shù)據(jù)必然是不充分和不全面的。

    由結(jié)構(gòu)化轉(zhuǎn)變?yōu)橹悄芑?,是地方志鑒文本信息化的高級(jí)階段,對(duì)應(yīng)中國(guó)哲學(xué)“用”的概念,通過(guò)發(fā)展階段的版塊資源,拼合起豐富的宏觀空間。強(qiáng)調(diào)的是人工和機(jī)器的深度結(jié)合,結(jié)構(gòu)化數(shù)據(jù)越充分和全面,智能分析的結(jié)果就越精準(zhǔn)和有效。需要注意的是,此處的智能并不意味著取代人工,人工智能有“越多人工、越多智能”的說(shuō)法,要實(shí)現(xiàn)數(shù)據(jù)的整理利用,必須投入大量人工進(jìn)行數(shù)據(jù)清洗和核驗(yàn)。

    概括來(lái)說(shuō),“物”“器”“用”三部曲的每一個(gè)階段,是下一階段的基礎(chǔ)。“物”和“器”,都存在一定的“用”途,但是“器”的“用”途更加準(zhǔn)確和方便。因此,三部曲之間不存在絕對(duì)的、不可動(dòng)搖的步驟順序,但是只有“物”的豐富,才有“器”的充盈,最后“用”才能廣泛和有效。

    五、結(jié)語(yǔ)

    信息化是人類社會(huì)的先進(jìn)生產(chǎn)力,將地方志與計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)深度融合起來(lái),實(shí)現(xiàn)地方志鑒文本的信息化,既是地方志工作發(fā)展的當(dāng)前階段的必然要求,也是決定著地方志工作下一階段的發(fā)展前景,過(guò)去因?yàn)橹T多原因,地方志鑒文本的信息化整體水平仍停留在較淺的數(shù)字化層次。在地方志引入信息化技術(shù)的過(guò)程中,需要做好分階段、分步驟的科學(xué)規(guī)劃,在引入成熟的技術(shù)的基礎(chǔ)上,對(duì)新技術(shù)進(jìn)行分析和研判,確保地方志工作緊跟前沿科技的步伐,不斷繁榮壯大新時(shí)代地方志事業(yè)。

    撰稿:任璀洛,湖南省地方志編纂院湖南省地方文獻(xiàn)研究所

    參考文獻(xiàn)

    1.沈松平,汪鳳娟.新中國(guó)地方志信息化建設(shè)的歷史回顧、存在問(wèn)題及發(fā)展建議[J].中國(guó)地方志2021,(4):1826.

    2.游桃琴.數(shù)字化助推新時(shí)代地方志事業(yè)發(fā)展[J].新疆地方志,2021,(01):2427.

    3.歐長(zhǎng)生,程立雪.淺談地方志的活態(tài)化應(yīng)用[J].史志學(xué)刊,2021,(01):4754.

    4.林秀玲.方志數(shù)字化實(shí)踐與研究的現(xiàn)狀評(píng)析[J].黑龍江史志,2020,(03):1619.

    5.金雄波.以第三輪修志為契機(jī)加快地方志數(shù)字化建設(shè)步伐[J].新疆地方志,2019,(04):4043.

    6.周能漢.新時(shí)代地方志信息化建設(shè)隨想[J].新疆地方志,2019,(02):1415.


  • 聲明: 轉(zhuǎn)載請(qǐng)注明來(lái)源于《內(nèi)蒙古區(qū)情網(wǎng)》官方網(wǎng)站
  • 【工作研究】 論地方志鑒文本信息化的“三部曲”
  • 發(fā)布時(shí)間:2023-07-06
  • 來(lái)源:

  • 摘要:地方志的信息化是業(yè)界公認(rèn)的發(fā)展方向,是地方志事業(yè)走向繁榮的必由路徑,而地方志和信息化的結(jié)合工作量非常龐大,必須對(duì)其進(jìn)行深入研究,構(gòu)建清晰明了的實(shí)施步驟。通過(guò)分析各省的地方志數(shù)據(jù)庫(kù)的統(tǒng)計(jì)數(shù)據(jù)和各省志鑒文本信息化完成的工作量、展現(xiàn)形式,提出志鑒文本信息化的發(fā)展步驟,并使用“物”“器”“用”三個(gè)詞作為說(shuō)明輔助,闡明三個(gè)步驟之間區(qū)別和關(guān)聯(lián),為地方志信息化工作提供參考借鑒。

    關(guān)鍵詞:地方志鑒  文本信息化  步驟  邏輯關(guān)系

    地方志鑒文本信息化是一項(xiàng)跨越計(jì)算機(jī)學(xué)科和方志學(xué)科的研究課題。目前國(guó)內(nèi)的相關(guān)研究中,針對(duì)地方志數(shù)字化、信息化的研究已有較多分析文章和成果,但多數(shù)是闡述信息化對(duì)地方志的重要性、作用及需要實(shí)現(xiàn)信息化的地方志資源種類,有的涉及到了信息化的實(shí)現(xiàn)方式,但不夠系統(tǒng),對(duì)于地方志資源的信息化表現(xiàn)方式也沒(méi)有進(jìn)行層次化的分析,從數(shù)字化和信息化概念辨析入手,清晰地解構(gòu)地方志鑒文本信息化工作發(fā)展步驟的研究?jī)?nèi)容仍較為罕見(jiàn)。國(guó)內(nèi)大部分的志鑒文本信息化基本停留在將文本內(nèi)容轉(zhuǎn)換存儲(chǔ)致電磁介質(zhì)的階段,本文的研究?jī)?nèi)容將為志鑒文本信息化的下一步發(fā)展提供一定的方向性拓展。

    一、全國(guó)志鑒文本信息化數(shù)據(jù)庫(kù)建設(shè)情況分析

    根據(jù)中國(guó)地方志指導(dǎo)小組辦公室的全國(guó)地方志統(tǒng)計(jì)數(shù)據(jù),截至2019年12月31日,全國(guó)地方志系統(tǒng)已建設(shè)有省級(jí)數(shù)據(jù)庫(kù)24個(gè),地市級(jí)數(shù)據(jù)庫(kù)50個(gè),縣區(qū)級(jí)數(shù)據(jù)庫(kù)26個(gè)。其中,地市級(jí)數(shù)據(jù)庫(kù)山東16個(gè)、河南10個(gè)占比較高,縣區(qū)級(jí)數(shù)據(jù)庫(kù)山東6個(gè)、重慶5個(gè)、四川4個(gè)、河南3個(gè)占比較高。從數(shù)據(jù)中可以分析得到以下兩條結(jié)論。一是省級(jí)地方志機(jī)構(gòu)中已建設(shè)數(shù)據(jù)庫(kù)的占總比為75%統(tǒng)計(jì)數(shù)據(jù)中包含新疆生產(chǎn)建設(shè)兵團(tuán),不包含香港、澳門(mén)、臺(tái)灣,總體來(lái)看,省級(jí)地方志工作機(jī)構(gòu)中已建設(shè)數(shù)據(jù)庫(kù)的比率較高。二是市縣兩級(jí)地方志工作機(jī)構(gòu)中已建設(shè)數(shù)據(jù)庫(kù)的占比較低,而且主要集中在山東、河南等省份。部分縣、縣級(jí)市的地方志工作機(jī)構(gòu)采取的是黨史、檔案、地方志三合一的架構(gòu),實(shí)際建設(shè)的是檔案數(shù)據(jù)庫(kù),并不是地方志的數(shù)據(jù)庫(kù),因而縣級(jí)的地方志工作機(jī)構(gòu)已建設(shè)數(shù)據(jù)庫(kù)的比率比統(tǒng)計(jì)情況還要略低。

    通過(guò)調(diào)查研究,市縣兩級(jí)的地方志工作機(jī)構(gòu)建設(shè)數(shù)據(jù)庫(kù)的比例較低的原因主要是以下三個(gè)方面:一是地方志鑒文本信息化建設(shè)本身就是一個(gè)集約過(guò)程,省級(jí)機(jī)構(gòu)已經(jīng)完成了大量的地方志鑒文本信息化,很多市縣只需要采用“拿來(lái)主義”,就可以使用,無(wú)需重復(fù)開(kāi)發(fā)建設(shè)。二是市縣兩級(jí)的地方志工作機(jī)構(gòu)的地方志鑒文本信息化建設(shè)經(jīng)費(fèi)沒(méi)有保障。三是缺乏信息化人才,工作難以開(kāi)展。市縣兩級(jí)的志鑒文本信息化的發(fā)展存在著不充分、不均衡的狀況,但這種不充分、不均衡的情況并不意味著發(fā)展趨勢(shì)不對(duì)。信息化本身存在一個(gè)集約建設(shè)的問(wèn)題,數(shù)據(jù)只有充分飽和集中,數(shù)據(jù)才有價(jià)值,信息化才有作用。因此,市縣兩級(jí)較少地進(jìn)行志鑒文本信息化的工作,而由省級(jí)地方志工作機(jī)構(gòu)代替其完成這部分工作,在現(xiàn)有條件下,是較為合理的發(fā)展模式。

    二、各省志鑒文本信息化工作情況

    經(jīng)過(guò)對(duì)各省地方志工作機(jī)構(gòu)的網(wǎng)站內(nèi)容進(jìn)行分析統(tǒng)計(jì),得到各省志鑒文本信息化工作情況如下僅統(tǒng)計(jì)志書(shū)、年鑒、舊志三部分內(nèi)容,其余史志期刊、地情書(shū)籍不統(tǒng)計(jì)在內(nèi),統(tǒng)計(jì)情況可能存在訛漏,排名順序不分先后。

    1.北京市,完成了部分志書(shū)、年鑒、明清和民國(guó)古籍的信息化展示,更換多個(gè)瀏覽器無(wú)法在線閱讀。

    2.天津市,有市級(jí)志書(shū)71冊(cè),天津區(qū)級(jí)地方志書(shū)18冊(cè),天津區(qū)縣年鑒10卷,舊志點(diǎn)校1種。采用雙層PDF形式展示。

    3.河北省,無(wú),外鏈萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)的2018部與河北有關(guān)志書(shū)、年鑒。

    4.山西省無(wú)。

    5.內(nèi)蒙古自治區(qū),內(nèi)蒙古年鑒1998卷至2019卷22卷,采用純文本格式展示。另有數(shù)據(jù)庫(kù)系統(tǒng)需要賬號(hào)密碼訪問(wèn),其中內(nèi)容未知。

    6.遼寧省,無(wú)。

    7.吉林省,有省市縣三級(jí)地方志書(shū),吉林年鑒1989卷至2000卷,少量其他志書(shū),因點(diǎn)擊“更多內(nèi)容”時(shí)出現(xiàn)錯(cuò)誤,無(wú)法明確志鑒總數(shù)量。內(nèi)容采用純文本格式展示。

    8.黑龍江省,有省級(jí)志書(shū)71冊(cè),市縣兩級(jí)地方志書(shū)218冊(cè),黑龍江年鑒1986卷至2020卷35卷),市縣兩級(jí)綜合年鑒108卷,農(nóng)墾志鑒若干,采用純文本格式展示。舊志Flash翻頁(yè)動(dòng)畫(huà)4種。

    9.上海市,有市級(jí)志書(shū)231冊(cè),區(qū)縣級(jí)志書(shū)174冊(cè),鄉(xiāng)鎮(zhèn)街道村志124冊(cè),上海年鑒1996卷至2020卷25卷),上海區(qū)縣綜合年鑒116冊(cè)。采用純文本格式展示。

    10.江蘇省,有省級(jí)志書(shū)138冊(cè),江蘇年鑒1988卷至2019卷32卷),市縣兩級(jí)年鑒1548卷,省市縣三級(jí)綜合年鑒和專業(yè)年鑒1580卷。采用雙層PDF格式展示,直接加載整本書(shū)PDF文件。舊志1種11卷,采用純文本格式展示。

    11.浙江省,有省級(jí)志書(shū)70冊(cè),采用純文本格式展示。

    12.安徽省,有省級(jí)志書(shū)67冊(cè),市縣兩級(jí)志書(shū)94冊(cè),山湖志7冊(cè),采用純文本格式展示。安徽年鑒1984卷至2020卷37卷),年鑒部分內(nèi)容為單層PDF,年鑒內(nèi)容無(wú)法選中復(fù)制。

    13.福建省,有省級(jí)志書(shū)127冊(cè),市縣兩級(jí)志書(shū)142冊(cè),采用純文本格式展示。行業(yè)及部門(mén)志148冊(cè),采用雙層PDF格式。鄉(xiāng)鎮(zhèn)村志24冊(cè)年鑒387卷,采用單層PDF格式,內(nèi)容無(wú)法選中復(fù)制。舊志種類若干,分405卷,混用雙層PDF和單層PDF,以上下滾動(dòng)翻頁(yè)的形式展示。

    14.江西省,有省級(jí)志書(shū)98冊(cè),市縣兩級(jí)志書(shū)81冊(cè)江西年鑒2002卷至2020卷19卷,采用雙層PDF格式,選中后直接彈出PDF。舊志1種57冊(cè)),采用豎版滾動(dòng)條雙層PDF格式展示。

    15.山東省,有省級(jí)志書(shū)174冊(cè),鄉(xiāng)鎮(zhèn)村志11冊(cè),山東年鑒1987卷至2018卷32卷),各市州區(qū)縣志鑒資料等1153冊(cè),采用網(wǎng)頁(yè)純文本格式展示。舊志5種,采用圖片或純文本形式展示。

    16.臺(tái)灣地區(qū)無(wú)。

    17.河南省,有省級(jí)志書(shū)101冊(cè),市縣兩級(jí)志書(shū)2冊(cè),河南年鑒1984卷至2016卷33卷,采用網(wǎng)頁(yè)純文本格式展示,使用腳本語(yǔ)言限制復(fù)制功能。

    18.湖北省無(wú)。

    19.湖南省,有省級(jí)志書(shū)冊(cè)129冊(cè),省級(jí)年鑒1985卷至2018卷36卷,94卷有增刊),采用純文本格式展示。市縣兩級(jí)志書(shū)329冊(cè),采用雙層PDF格式展示。舊志101種,采用Flash翻頁(yè)動(dòng)畫(huà)展示。

    20.廣東省,有省級(jí)志書(shū)110冊(cè),市縣兩級(jí)志書(shū)83冊(cè)廣東年鑒1987卷至2020卷34卷),市縣兩級(jí)年鑒650冊(cè),采用單層PDF格式展示。

    21.廣西壯族自治區(qū),有省級(jí)志書(shū)166冊(cè),市縣兩級(jí)志書(shū)146冊(cè),鄉(xiāng)鎮(zhèn)村志31冊(cè),廣西年鑒1987卷至2019卷33卷),市縣兩級(jí)年鑒336冊(cè),專業(yè)年鑒54冊(cè),采用單層PDF格式展示。

    22.海南省,有省級(jí)志書(shū)72冊(cè),市縣兩級(jí)志書(shū)19冊(cè),部門(mén)志2冊(cè),鄉(xiāng)鎮(zhèn)村志6冊(cè),農(nóng)場(chǎng)志13冊(cè),海南年鑒1989卷至2020卷32卷,市縣兩級(jí)年鑒26卷,專業(yè)年鑒4卷,采用純文本格式展示。舊志3種,采用圖片或純文本格式展示。

    23.香港特別行政區(qū),無(wú)。

    24.澳門(mén)特別行政區(qū),無(wú)。

    25.重慶市,有市級(jí)志書(shū)59冊(cè),重慶年鑒1987卷至1999卷13卷),采用純文本格式展示,使用腳本語(yǔ)言限制復(fù)制功能。舊志10種,采用單層PDF格式展示。

    26.四川省,有省級(jí)志書(shū)112冊(cè),市縣兩級(jí)志書(shū)若干,其他志書(shū)23冊(cè),四川年鑒1986卷至2020卷35卷),采用雙層PDF格式展示。

    27.貴州省,有省級(jí)志書(shū)94冊(cè),市級(jí)志書(shū)316冊(cè),縣級(jí)志書(shū)163冊(cè),采用純文本格式和單層PDF格式和雙重展示。

    28.云南省,有省級(jí)志書(shū)120冊(cè),市縣兩級(jí)志書(shū)214冊(cè),云南年鑒2007卷至2018卷12卷),市縣兩級(jí)年鑒14卷,舊志18種,采用單層PDF格式展示。

    29.西藏自治區(qū),無(wú)。

    30.陜西省,有省級(jí)志書(shū)89冊(cè),市縣兩級(jí)志書(shū)134冊(cè)陜西年鑒1987卷至2020增刊卷35卷,市縣兩級(jí)年鑒若干,舊志64種,采用純文本格式和雙層PDF格式和雙重展示。

    31.甘肅省,有省級(jí)志書(shū)133冊(cè),市級(jí)志書(shū)23冊(cè),縣級(jí)志書(shū)164冊(cè),專業(yè)行業(yè)志若干,鄉(xiāng)鎮(zhèn)村志8冊(cè),省級(jí)年鑒2009卷至2020卷12卷,省級(jí)部門(mén)年鑒6卷,市州區(qū)縣年鑒若干,采用雙層PDF格式展示。

    32.青海省,有省級(jí)志書(shū)23冊(cè),市級(jí)志書(shū)0冊(cè),縣級(jí)志書(shū)1冊(cè),青海年鑒2010卷至2020卷2018卷,10卷),采用單層PDF格式展示。

    33.寧夏回族自治區(qū),有部分寧夏通志和寧夏年鑒的目錄圖片。

    34.新疆維吾爾自治區(qū),建設(shè)有地情資料信息庫(kù),顯示正在維護(hù)中,無(wú)法訪問(wèn)。

    通過(guò)各省級(jí)地方志工作機(jī)構(gòu)的志鑒文本信息化情況分析,已經(jīng)啟動(dòng)或準(zhǔn)備實(shí)施志鑒文本信息化是各省級(jí)地方志工作機(jī)構(gòu)的普遍狀態(tài),但在完成的數(shù)量和形式上存在較多差異化。在完成進(jìn)度上存在一個(gè)差量化的區(qū)別,有的省已經(jīng)基本完成省市縣三級(jí)地方志書(shū)和綜合年鑒的文本信息化初步處理,有的省還剩下部分地方志書(shū)和綜合年鑒未進(jìn)行文本信息化初步處理,有的省則還剛開(kāi)始起步。在表現(xiàn)電子文檔的形式上也有較大差異,有的省采用網(wǎng)頁(yè)純文本展示,有的省采用雙層PDF格式展示,有的省則還處于單層PDF展示狀態(tài)。綜合來(lái)說(shuō),各省已進(jìn)入志鑒文本信息化建設(shè)大踏步前進(jìn)的階段。

    經(jīng)過(guò)對(duì)現(xiàn)有方志數(shù)據(jù)庫(kù)的比對(duì)研究,將志鑒文本信息化的工作步驟劃分為三個(gè)階段,即由紙質(zhì)化提升為數(shù)字化、由數(shù)字化整理為結(jié)構(gòu)化、由結(jié)構(gòu)化轉(zhuǎn)變?yōu)橹悄芑?。通過(guò)現(xiàn)有情況和數(shù)據(jù)的分析,對(duì)志鑒文本信息化工作提出“三部曲”設(shè)想。

    三、志鑒文本信息化的步驟解析

    由紙質(zhì)化提升為數(shù)字化

    由紙質(zhì)化提升為數(shù)字化,是志鑒文本信息化的第一步。紙質(zhì)化,即書(shū)面化,以定稿印刷成冊(cè)的形式承載志鑒的文本內(nèi)容,是一種沿襲上千年的文字承載形式。顯而易見(jiàn),紙質(zhì)化的優(yōu)點(diǎn)和缺點(diǎn)都十分明顯,優(yōu)點(diǎn)是更具質(zhì)感、立體感和厚重感,便于人的閱讀和批注,缺點(diǎn)則是不方便尋找特定數(shù)據(jù),不利于攜帶,傳播速度相對(duì)要慢。數(shù)字化,一些從事數(shù)字化服務(wù)的企業(yè)也將其稱之為碎片化,主要變化為存儲(chǔ)介質(zhì)由紙張變?yōu)殡姶盼镔|(zhì),其標(biāo)志就是能實(shí)現(xiàn)文字內(nèi)容可編輯以及全文檢索。前文中統(tǒng)計(jì)的采用單層PDF或圖片形式展示志鑒內(nèi)容的形式,不屬于志鑒文本信息化,因?yàn)槠湮茨軐?shí)現(xiàn)文字內(nèi)容的可編輯,只是將紙質(zhì)書(shū)籍轉(zhuǎn)變?yōu)榇鎯?chǔ)在電磁物質(zhì)中的圖片,只能算志鑒書(shū)頁(yè)的信息化。還有一種特殊情況,即完成了志鑒文本內(nèi)容的掃描識(shí)別,實(shí)現(xiàn)了文字內(nèi)容可編輯,但未能實(shí)現(xiàn)全文檢索功能。因?yàn)檫@種形式并沒(méi)有擺脫紙質(zhì)化不方便尋找特定數(shù)據(jù)的特性,在此處將其定義為半數(shù)字化。由半數(shù)字化變?yōu)閿?shù)字化,只需要對(duì)數(shù)據(jù)進(jìn)行章節(jié)整理,然后按章節(jié)格式存儲(chǔ)至數(shù)據(jù)庫(kù)中即可。

    實(shí)現(xiàn)由紙質(zhì)化提升為數(shù)字化,大多數(shù)地方志機(jī)構(gòu)采用的是掃描紙質(zhì)書(shū)進(jìn)行文字識(shí)別,然后進(jìn)行機(jī)器及人工校對(duì)的工作流程,難以直接采用志鑒電子版文件。這是因?yàn)?,第一輪出版的地方志?shū)和早期的綜合年鑒,大多數(shù)采用鉛字印刷工藝,沒(méi)有使用計(jì)算機(jī)排版,從而也不存在所謂電子版,第二輪出版的地方志書(shū)和本世紀(jì)以來(lái)的綜合年鑒基本采用計(jì)算機(jī)軟件排版,但地方志工作機(jī)構(gòu)并無(wú)志鑒資料定稿的電子文件,出版社或印刷廠提供的PDF文檔也多數(shù)采用了轉(zhuǎn)曲的排版工藝,已經(jīng)將文檔轉(zhuǎn)換成了純圖片,文檔里面的文字無(wú)法進(jìn)行復(fù)制。已經(jīng)有一些學(xué)者提出,需要打通地方志資料搜集、編纂、出版、展示的全流程信息化,但仍存在一些難以克服的問(wèn)題,因本文集中于探討志鑒文本信息化步驟,此處不作深入說(shuō)明。

    地方志工作機(jī)構(gòu)實(shí)現(xiàn)志鑒文本內(nèi)容數(shù)字化主要有純文本形式和雙層PDF形式,有單獨(dú)采用一種格式的,也有采用兩種格式混用的,兩種形式各有利弊。從存儲(chǔ)空間上來(lái)看,純文本格式的數(shù)字化成果需要的存儲(chǔ)空間小,雙層PDF格式需要存儲(chǔ)圖書(shū)的圖片,需要更大存儲(chǔ)空間。從網(wǎng)頁(yè)加載速度上來(lái)看,純文本格式的數(shù)字化成果響應(yīng)時(shí)間短,雙層PDF格式需要加載圖書(shū)的圖片,需要更長(zhǎng)的加載時(shí)間。如果網(wǎng)絡(luò)資源有限,將會(huì)導(dǎo)致二者加載速度出現(xiàn)較明顯區(qū)別。從兼容性上看,純文本格式具有更好的兼容性。雙層PDF格式可能會(huì)存在兩方面的兼容性問(wèn)題,一是少部分電腦網(wǎng)頁(yè)P(yáng)DF文件加載不出來(lái),二是復(fù)制PDF下層文字時(shí)會(huì)出現(xiàn)一些格式混亂的問(wèn)題。從成果驗(yàn)收上看,純文本格式驗(yàn)收更簡(jiǎn)便,因雙層PDF格式的文字在下層,需要復(fù)制出來(lái),粘貼到其他文字軟件后,才能進(jìn)行檢查差錯(cuò)。從學(xué)術(shù)需求的角度上來(lái)看,雙層PDF格式展示內(nèi)容和原書(shū)一致,有效保存了書(shū)籍的原本樣貌,方便用戶獲取引用資料所在頁(yè)碼。綜合來(lái)看,純文本格式在技術(shù)上更有優(yōu)勢(shì),雙層PDF格式在學(xué)術(shù)需求上更有優(yōu)勢(shì)。選取何種格式的方式進(jìn)行加工,需要各地方志工作機(jī)構(gòu)根據(jù)自身實(shí)際情況進(jìn)行分析判斷。

    由數(shù)字化整理為結(jié)構(gòu)化

    數(shù)字化的文本數(shù)據(jù)進(jìn)一步加工,可以將其變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化即指數(shù)據(jù)排列具有規(guī)則性,有內(nèi)在聯(lián)系,其標(biāo)志就是任何一個(gè)數(shù)據(jù)有其對(duì)應(yīng)的元數(shù)據(jù)元數(shù)據(jù),描述數(shù)據(jù)的數(shù)據(jù),可視為數(shù)據(jù)的一種屬性,且元數(shù)據(jù)保持相對(duì)固定不能隨意發(fā)生變化。目前廣泛使用的數(shù)據(jù)庫(kù)MySQL、SQL  Server、Oracle、Sybase等,都是結(jié)構(gòu)化數(shù)據(jù)庫(kù),所以廣泛的意義上來(lái)說(shuō),存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)幾乎都是結(jié)構(gòu)化數(shù)據(jù)。大量數(shù)字化文本要實(shí)現(xiàn)全文檢索功能,存儲(chǔ)在數(shù)據(jù)庫(kù)中是唯一的可行方式,因此數(shù)字化文本必然是結(jié)構(gòu)化數(shù)據(jù)。但是數(shù)字化文本內(nèi)容存儲(chǔ)在數(shù)據(jù)庫(kù)中的模式是將書(shū)的每一節(jié)或每一頁(yè)的文本以長(zhǎng)字段存儲(chǔ)在數(shù)據(jù)庫(kù)中,結(jié)構(gòu)化的是志鑒書(shū)籍和志鑒的目錄,元數(shù)據(jù)為書(shū)籍的章節(jié)或其他版權(quán)信息等,而不是志鑒文本中數(shù)據(jù)的結(jié)構(gòu)化。此處所指需要進(jìn)一步提升到結(jié)構(gòu)化,是指為數(shù)字化志鑒資料中的所有數(shù)據(jù)整理出屬性。

    志鑒資料中,有三種類型的文本內(nèi)容可以轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。第一種就是表格。志書(shū)的體裁有序、述、記、志、傳、圖、表、錄等,構(gòu)成志書(shū)的基本框架。表格這一類型的數(shù)據(jù)按行列存儲(chǔ)在數(shù)據(jù)庫(kù)中即可變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),是志鑒資料可直接轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容。在志書(shū)的篇目中,除大事記之外,其余部分均有表格類型的數(shù)據(jù)存在,如《湖南省志·地理志》的第三章第一節(jié),在記錄湖南人口的歷史記載時(shí),就從歷朝歷代的文獻(xiàn)中整理出16個(gè)表格記錄了從西漢至民國(guó)1947年的戶口數(shù)據(jù)。表格的標(biāo)題列為湖南的各行政區(qū)域,表格的標(biāo)題行省略了,但根據(jù)內(nèi)容可以推測(cè)為戶數(shù)量和人數(shù)量等。這個(gè)表格存儲(chǔ)至數(shù)據(jù)庫(kù)中,其內(nèi)容即為結(jié)構(gòu)化數(shù)據(jù),表格的元數(shù)據(jù)為行政區(qū)域和數(shù)量。

    第二種可以轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的就是志鑒資料中在同一段落或同一章節(jié)內(nèi)以枚舉的形式記錄的屬性重復(fù)的有關(guān)數(shù)據(jù),可以將其先轉(zhuǎn)換為表格,再存儲(chǔ)至數(shù)據(jù)庫(kù)中,即可得到結(jié)構(gòu)化數(shù)據(jù)。仍然以《湖南省志·地理志》為例來(lái)說(shuō)明,如第一章疆域文字部分最后一段的內(nèi)容為:“全省90個(gè)縣的面積,在5000平方公里以上的有1個(gè)縣;5000平方公里以下4000平方公里以上的有4個(gè)縣;4000平方公里以下3000平方公里以上的有11個(gè)縣;3000平方公里以下2000平方公里以上的有39個(gè)縣;2000平方公里以下1000平方公里以上的有34個(gè)縣,1000平方公里以下的有1個(gè)縣……”。通過(guò)觀察,就可發(fā)現(xiàn),文字部分每一句都在闡述行政區(qū)劃的面積和數(shù)量,因此可提煉如下湖南縣級(jí)行政區(qū)劃面積大小數(shù)量統(tǒng)計(jì)表格。

     

    image.png 

    將該表格按行列存儲(chǔ)至數(shù)據(jù)庫(kù),即可得到一組結(jié)構(gòu)化數(shù)據(jù)。在第一種類型舉例時(shí)提到的湖南人口歷史記載,其數(shù)據(jù)也是散列在各歷史文獻(xiàn)中,通過(guò)參與編纂的人員整理后形成的表格,然后才可直接存儲(chǔ)至數(shù)據(jù)庫(kù)中得到結(jié)構(gòu)化數(shù)據(jù)。雖然志鑒資料中有為數(shù)不少的表格,但是畢竟以敘述性文字內(nèi)容為主,通過(guò)屬性重復(fù)的文字內(nèi)容的整理,就能有效擴(kuò)大志鑒文本結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量。

    第三種可以轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的就是志鑒資料中,分散于各篇目或部類之間的具有聯(lián)系的文本內(nèi)容。例如湖南年鑒從1985卷開(kāi)始,均刊載了政府工作報(bào)告,通過(guò)查閱各卷中的政府工作報(bào)告,得到1985年至1992年的全省國(guó)民生產(chǎn)總值GNP如下344.98億元、392.64億元、469.44億元、584億元、640.8億元、703億元、784億元、900億元,得到19932018年的全省國(guó)內(nèi)生產(chǎn)總值地區(qū)GDP如下:1192.41億元、1694億元、2640億元、3000億元、3211.4億元、3407億元、3692億元、3983億元、4340.9億元、4634億元、5612.3億元、6500億元、7493億元、9145億元、11000億元、12930.7億元、1.5萬(wàn)億元、2萬(wàn)億元、2.2萬(wàn)億元、2.45萬(wàn)億元、2.7萬(wàn)億元、2.9萬(wàn)億元、3.12萬(wàn)億元、3.64萬(wàn)億元、3.64萬(wàn)億元均摘錄原文字樣,其中部分?jǐn)?shù)據(jù)原文標(biāo)注為預(yù)計(jì)數(shù),2020卷中記錄的2019年政府工作報(bào)告未提到具體生產(chǎn)總值。當(dāng)然其中還存在其他年度性數(shù)據(jù),不一一列舉,將這些年度性數(shù)據(jù)全部整理后匯總并存入數(shù)據(jù)庫(kù),即可得到一組隨年度變化的結(jié)構(gòu)化數(shù)據(jù)。

    由結(jié)構(gòu)化轉(zhuǎn)變?yōu)橹悄芑?/span>

    結(jié)構(gòu)化的數(shù)據(jù)相比普通的數(shù)字化文本更加簡(jiǎn)潔明了,但數(shù)據(jù)的使用和分析仍然限定在單一結(jié)構(gòu)化區(qū)域。如何實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的跨區(qū)域聯(lián)系,使得結(jié)構(gòu)化數(shù)據(jù)發(fā)揮最大的價(jià)值?目前現(xiàn)有的技術(shù)途徑是人工智能AI,即采取機(jī)器學(xué)習(xí)的方式,根據(jù)人類對(duì)志鑒數(shù)據(jù)的比較、判讀方法形成算法,使用機(jī)器對(duì)數(shù)據(jù)進(jìn)行不斷分析和挖掘、提取數(shù)據(jù)中有價(jià)值的信息,通過(guò)機(jī)器的運(yùn)算結(jié)果反饋優(yōu)化算法,使數(shù)據(jù)智能化。其標(biāo)志就是機(jī)器自發(fā)對(duì)數(shù)據(jù)進(jìn)行處理和加工,形成優(yōu)質(zhì)的分析結(jié)果。

    志鑒文本數(shù)據(jù)的一個(gè)重要特征就是具有較高廣泛性,但是數(shù)據(jù)深度不足。這與地方志的編纂方式有關(guān),地方志的編纂有“眾手成志”的說(shuō)法,數(shù)據(jù)資料來(lái)源于各類組織和社會(huì)各界,但是受限于地方志的篇幅,必然在每一個(gè)領(lǐng)域只能攫取最為緊要和概括性的數(shù)據(jù)。根據(jù)這一特點(diǎn),實(shí)現(xiàn)志鑒文本數(shù)據(jù)的智能化最首要的方式就是對(duì)跨領(lǐng)域的數(shù)據(jù)進(jìn)行比對(duì)和分析,并尋找其中的關(guān)聯(lián)點(diǎn)。通過(guò)這些數(shù)據(jù)關(guān)聯(lián),為黨委政府決策提供支撐,為各類研究人員提供全新的數(shù)據(jù)關(guān)聯(lián)構(gòu)造,方便研究人員能站在更高廣度的基礎(chǔ)上解讀和分析所研究的領(lǐng)域。舉個(gè)例子來(lái)說(shuō),國(guó)務(wù)院總理李克強(qiáng)任職遼寧省委書(shū)記時(shí),喜歡通過(guò)耗電量、鐵路貨運(yùn)量和貸款發(fā)放量三個(gè)指標(biāo)分析當(dāng)時(shí)遼寧省經(jīng)濟(jì)狀況。因?yàn)镚DP的統(tǒng)計(jì)較為復(fù)雜,存在干擾數(shù)據(jù)或統(tǒng)計(jì)不完全數(shù)據(jù)的可能性,而這三項(xiàng)數(shù)據(jù)統(tǒng)計(jì)相對(duì)較為簡(jiǎn)單,通過(guò)工業(yè)用電量新增、鐵路貨運(yùn)量新增和銀行中長(zhǎng)期貸款新增與GDP增長(zhǎng)量之間的線性關(guān)系,可以很好地評(píng)估GDP的統(tǒng)計(jì)準(zhǔn)確性。這里就是通過(guò)工業(yè)用電量新增、鐵路貨運(yùn)量新增和銀行中長(zhǎng)期貸款新增與GDP的增長(zhǎng)速度之間,建立一個(gè)數(shù)據(jù)模型。就志鑒文本數(shù)據(jù)來(lái)說(shuō),可以通過(guò)計(jì)算機(jī)分析已實(shí)現(xiàn)結(jié)構(gòu)化的數(shù)據(jù)的曲線,建立起多個(gè)這樣的數(shù)據(jù)模型,實(shí)現(xiàn)志鑒文本數(shù)據(jù)的智能化。在記錄這些數(shù)據(jù)模型后,可以更進(jìn)一步分析模型和模型之間的關(guān)聯(lián)程度,建立起一套全新的解釋話語(yǔ),為社會(huì)公眾提供高質(zhì)量服務(wù)。

    實(shí)現(xiàn)志鑒文本數(shù)據(jù)的智能化的第二種方式是引入數(shù)字人文技術(shù)。數(shù)字人文是近年來(lái)新興起的概念,實(shí)際上,在人文領(lǐng)域引入計(jì)算機(jī)輔助研究已有很長(zhǎng)的歷史,數(shù)字人文是對(duì)這方面交叉關(guān)系的一個(gè)總概括,應(yīng)用十分廣泛,前文所闡述的建立結(jié)構(gòu)化數(shù)據(jù),實(shí)際也是數(shù)字人文的一個(gè)方面。要實(shí)現(xiàn)志鑒文本數(shù)據(jù)智能化,可以引入部分?jǐn)?shù)字人文的分析方法,對(duì)數(shù)據(jù)進(jìn)行分析利用。舉例來(lái)說(shuō),可以通過(guò)抓取互聯(lián)網(wǎng)的有關(guān)數(shù)據(jù),建立鏈接關(guān)系,并和志鑒文本數(shù)據(jù)進(jìn)行比對(duì),打通志鑒文本數(shù)據(jù)和其他社會(huì)數(shù)據(jù)的聯(lián)系,以實(shí)現(xiàn)志鑒文本數(shù)據(jù)的“遠(yuǎn)讀”。

    四、三部曲之間的關(guān)系

    由紙質(zhì)化提升為數(shù)字化,是地方志鑒文本信息化基礎(chǔ)階段,對(duì)應(yīng)中國(guó)哲學(xué)“物”的概念,為后續(xù)的信息化準(zhǔn)備好充足的材料。強(qiáng)調(diào)的是通過(guò)掃描和識(shí)別兩道工序進(jìn)行數(shù)字化加工,雖然會(huì)耗費(fèi)一些人工,但是在志鑒文本信息化三部曲里面,仍然是較為簡(jiǎn)單和基礎(chǔ)的步驟。

    由數(shù)字化整理為結(jié)構(gòu)化,是地方志鑒文本信息化的發(fā)展階段,對(duì)應(yīng)中國(guó)哲學(xué)“器”的概念,通過(guò)基礎(chǔ)階段的材料,建立起不同的版塊資源。強(qiáng)調(diào)的是通過(guò)人工建立起直觀的數(shù)據(jù)聯(lián)系,如果沒(méi)有基礎(chǔ)階段實(shí)現(xiàn)志鑒數(shù)據(jù)的全文檢索功能,那么發(fā)展階段的結(jié)構(gòu)化數(shù)據(jù)必然是不充分和不全面的。

    由結(jié)構(gòu)化轉(zhuǎn)變?yōu)橹悄芑?,是地方志鑒文本信息化的高級(jí)階段,對(duì)應(yīng)中國(guó)哲學(xué)“用”的概念,通過(guò)發(fā)展階段的版塊資源,拼合起豐富的宏觀空間。強(qiáng)調(diào)的是人工和機(jī)器的深度結(jié)合,結(jié)構(gòu)化數(shù)據(jù)越充分和全面,智能分析的結(jié)果就越精準(zhǔn)和有效。需要注意的是,此處的智能并不意味著取代人工,人工智能有“越多人工、越多智能”的說(shuō)法,要實(shí)現(xiàn)數(shù)據(jù)的整理利用,必須投入大量人工進(jìn)行數(shù)據(jù)清洗和核驗(yàn)。

    概括來(lái)說(shuō),“物”“器”“用”三部曲的每一個(gè)階段,是下一階段的基礎(chǔ)?!拔铩焙汀捌鳌保即嬖谝欢ǖ摹坝谩蓖?,但是“器”的“用”途更加準(zhǔn)確和方便。因此,三部曲之間不存在絕對(duì)的、不可動(dòng)搖的步驟順序,但是只有“物”的豐富,才有“器”的充盈,最后“用”才能廣泛和有效。

    五、結(jié)語(yǔ)

    信息化是人類社會(huì)的先進(jìn)生產(chǎn)力,將地方志與計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)深度融合起來(lái),實(shí)現(xiàn)地方志鑒文本的信息化,既是地方志工作發(fā)展的當(dāng)前階段的必然要求,也是決定著地方志工作下一階段的發(fā)展前景,過(guò)去因?yàn)橹T多原因,地方志鑒文本的信息化整體水平仍停留在較淺的數(shù)字化層次。在地方志引入信息化技術(shù)的過(guò)程中,需要做好分階段、分步驟的科學(xué)規(guī)劃,在引入成熟的技術(shù)的基礎(chǔ)上,對(duì)新技術(shù)進(jìn)行分析和研判,確保地方志工作緊跟前沿科技的步伐,不斷繁榮壯大新時(shí)代地方志事業(yè)。

    撰稿:任璀洛,湖南省地方志編纂院湖南省地方文獻(xiàn)研究所

    參考文獻(xiàn)

    1.沈松平,汪鳳娟.新中國(guó)地方志信息化建設(shè)的歷史回顧、存在問(wèn)題及發(fā)展建議[J].中國(guó)地方志,2021,(4):1826.

    2.游桃琴.數(shù)字化助推新時(shí)代地方志事業(yè)發(fā)展[J].新疆地方志,2021,(01):2427.

    3.歐長(zhǎng)生,程立雪.淺談地方志的活態(tài)化應(yīng)用[J].史志學(xué)刊2021,(01):4754.

    4.林秀玲.方志數(shù)字化實(shí)踐與研究的現(xiàn)狀評(píng)析[J].黑龍江史志,2020,(03):1619.

    5.金雄波.以第三輪修志為契機(jī)加快地方志數(shù)字化建設(shè)步伐[J].新疆地方志,2019,(04):4043.

    6.周能漢.新時(shí)代地方志信息化建設(shè)隨想[J].新疆地方志,2019,(02):1415.


  • 聲明: 轉(zhuǎn)載請(qǐng)注明來(lái)源于《內(nèi)蒙古區(qū)情網(wǎng)》官方網(wǎng)站

版權(quán)所有:中共內(nèi)蒙古自治區(qū)委黨史和地方志研究室

蒙ICP備05003250號(hào)-3

蒙公安備案:15010502000173號(hào)

政府網(wǎng)站標(biāo)識(shí)碼:1500000032

技術(shù)支持: 內(nèi)蒙古傳星科技有限公司