兰台世纪
LANTAISHIJI
当前位置:
杨冬权:为什么要建智慧档案馆(室)?
来源:中国档案 | 作者:杨冬权 | 发布时间: 2021-05-20 | 1728 次浏览 | 分享到:
我们为什么现在要迫切地提出建设智慧档案馆(室)呢?因为现在有着5个方面的有利条件和现实基础。

我们为什么现在要迫切地提出建设智慧档案馆(室)呢?因为现在有着5个方面的有利条件和现实基础。



1|智慧社会的到来,为智慧档案馆(室)建设营造了外部环境


“智慧社会”的提法,最早源于IBM在2008年11月提出的“智慧地球”的概念,2009年时任美国总统奥巴马运用了这个提法后,这个概念迅速蹿红。它包括三个要素,即物联化、互联化、智能化。这个概念提出后,很多城市又提出了“智慧城市”的概念,并开始了智慧城市的建设和评选,我国的许多城市就在积极地建设智慧型城市。2019年我在雄安看到了无人驾驶汽车、无人酒店、无人超市等,切切实实地感受到了智慧城市的雏形。伴随着智慧城市的还有智慧小区、智慧楼宇、智慧家居等。此外,智慧教育、智慧交通、智慧医疗、智慧司法、智慧旅游、智慧人文、智慧物流等也已经扑面而来,各行各业、方方面面都在以智慧为引领,推进智能化建设。正是在此基础上,党的十九大提出了“智慧社会”这一新的理念,智慧社会的到来为智慧档案馆(室)建设营造了很好的社会环境,同时也增添了现实的迫切性。


2| 人工智能和数据挖掘推送为智慧档案馆(室)提供了关键技术


(1)先看人工智能技术

最近几年我们先后看到,“阿尔法狗”这款智能人工软件,先是在2017年以4:1战胜了前世界围棋第一人李世石九段。这是人工智能研究的一个标志性成就和里程碑式事件。之后,它又在2018年击败了史上最年轻的“五冠王”、中国围棋九段职业棋手柯洁,再次显示了人工智能的威力。紧接着,在中央电视台“中国诗词大会”节目中出现了一款输入了几万首诗词的机器人,与诗词高手们同台竞赛,主持人任意出一个诗题,机器人都能根据题意写出诗来,而且水平不亚于人类,与同台选手的写诗水平难分伯仲。同样在2018年,我国应用了机器人播音。它能模仿任何人进行播音,只要把某人的声音和影像资料输进去,它就能模仿这个人进行播音,其动作、表情、声音都惟妙惟肖。现在,科大讯飞可以根据声纹来让机器人模仿任何人的声音,只要输入不到一分钟的真人声音,机器人即可模仿出可以乱真的模拟声音。

2019年11月,司法部在南京召开有关“智慧司法”的会议,重庆市司法局展示了法律服务智能机器人“大牛”,它的服务速度和准确度已多次战胜人类律师。最近我在参观科大讯飞时得知,他们研制的智能机器人参加律师资格考试,竟然胜过 90%以上的人类考生;智能机器人教师能够批改考试卷,并且比人类教师批改得更加客观公正,其评分一致率在中考试卷评分中普遍高于人类教师5%左右,在高考试卷评分中普遍高于人类教师10%左右;智能机器人医生的诊断水平也高于很多人类医生,因而被推荐到全国很多基层医院做医生助手使用。

由上可见,人工智能技术的发展,已使得机器人不但具有“智慧”,而且具有高于人类平均水平或高于普通人的“智慧”。以前,我们以为机器人只能干体力活,不能干智力活,但现在人工智能技术的发展,已经打破我们的这个认识。

(2)再看数据挖掘推送技术

近年来,我切实感受到数据挖掘推送技术的发展。它不但挖掘出很多新信息,而且还定向地、主动地向人进行推送。比如,我用手机和电脑录入文字,刚输入一个字,输入法软件就会弹出由这个字组成的所有词或词组供我选择;我用搜索引擎查某个词,也会出来一连串与之相关联的自动推送。为什么在新闻类App上会有很多我想看的消息?那是App根据我过去的阅读内容、阅读习惯而主动推送给我的。这些都是运用算法等数据挖掘推送技术来完成的。

定向推送技术最知名的应用是所谓“俄罗斯干预美国大选”。据说俄罗斯运用定向推送技术,向美国各种不同的人群,定向地、主动地推送美国总统候选人有关信息,对选民进行“洗脑”和引导,影响选民对候选人的好恶。

由上可见,数据挖掘与推送技术发展得也出乎想象地快,应用得也出乎意料地普遍。今天,可能我们一不小心就会被别人“定向推送”,并加以左右甚至成功“洗脑”了。

人工智能技术也好,数据挖掘推送技术也好,都是把数据变成智慧的技术。这些技术的应用和发展,为建设智慧档案馆(室)提供了关键性的技术,让智慧档案馆(室)不再是一个空话或标签,而是能够变成现实、得以实现、成为实际。在它们没有出现的时候,人们讲智慧档案馆(室),只能是表面的、浅层次的、名义上的,甚至是误读的,而当它们出现以后,建设智慧档案馆(室)就可以名副其实了,可以建成实质意义上的智慧档案馆(室)。这些技术的出现,是我这两年开始提出建设智慧档案馆(室)的一个重要主因。


3|信息识别转化为智慧档案馆(室)建设提供了技术手段


以前,传统的纸质和声像档案要转化为电脑可检索的数据,实现手段只有一个——人工输入电脑。尽管有汉语拼音输入、笔画输入、手写输入等方法,但输入速度都比较慢。之后,又不断地发展出一些新的信息识别转化技术。

(1)OCR识别技术

目前只能用于印刷体或手写特别工整的文字,其识别率可达99%以上。一页印刷的或手写工整的档案扫描进电脑,通过软件即可把它转化成电脑可以检索的文字。前提是档案页面要整洁,没有凌乱的笔画,否则识别率就会降低。

(2)手写字扫描识别技术

为了解决OCR技术识别不了手写档案的问题,人们又专门研究出手写字的扫描识别技术。据我所知,科大讯飞的扫描识别技术在识别民国档案上的繁体手写字时,准确率已可达80%以上。银雁科技的简体手写字识别技术的准确率也能达90%左右。前几年,中国科学院自动化研究所的扫描识别技术在扫描识别快递上的简体手写字时,准确率已可达95%以上。随着扫描识别的不断积累,识别率肯定还会继续地不断提高,将来一定能达到目前OCR对印刷体字的识别水平。

(3)声音转化文字技术

也就是通过人来读档案,机器再把人的声音转化成文字。只要读音准确,机器基本能“听声出字”,准确率也很高,它的速度是电脑手工输入的一倍以上。前不久,我在科大讯飞目睹了一场“嘴”和“手”的比赛:国内一些数字化公司的录入快手之间先进行比赛,产生的冠军再与讯飞的声音录入员比赛,结果“人嘴”完胜了“人手”,声音转化文字的速度大大快于计算机手工录入文字的速度。

(4)人脸识别技术

主要是根据人的面部特征,把照片、录像中的人物识别出是谁来。

智慧档案馆(室)建设,关键在于建立档案全文数据;建立档案全文数据,关键又在于把档案里电脑不能检索的文字、声音、图像,转化成可检索的数据。当有了以上这些途径的识别转化技术以后,档案数据化就不再是不可能的了,而是变成完全可能了。这些技术的应用和发展,也是我在今天提出建设智慧档案馆(室)的又一个主要原因。


4|档案行业对建智慧档案馆(室)有了更高的积极性,使智慧档案馆(室)建设有了实现主体


从档案部门来说,有些档案室十几年前就通过手工录入的方法,对档案进行了“数据化”,把档案中的所有文字转化成了电脑可以检索的数据。只可惜那时尚无数据挖掘技术,因而未对这些数据进行智慧性开发、关联性挖掘和自主式推送。2014年以来,浙江省和其他一些地方的档案馆(室)在数字档案馆(室)的基础上,对档案实体、档案保管条件等方面进行智能化、自动化管理,进行了他们所自定义的智慧档案馆(室)建设。

从档案服务企业来说,科大讯飞2018年以来分别同国家档案局、浙江省档案馆等单位签署了包括人工智能应用等“智慧档案”建设在内的战略合作协议,并在相关档案馆进行了纸质档案数据化建设的试验。还有一些档案服务企业,最近几年也提出了基于档案实体自动化跟踪和管理、档案装具自动性移动、档案温湿度自动控制、档案安全自动报警等的所谓“智慧服务”。

档案馆(室)的积极性会带动起档案服务企业的积极性和创造性。因为档案馆(室)有建设智慧档案的积极性,则会产生智慧档案的需求;智慧档案的需求,则会引发档案服务企业产生积极性,引导企业的技术和人力向这个方面发展、向这个方向投入。档案馆(室)是需方,他们有需求,但缺技术、缺人力;档案服务企业是供方,他们有技术、有人力,但缺市场、缺用武之地。现在,需方和供方这双方都产生了并且双方都有积极性,就可以自然结合、互利共赢。他们的结合,可以很快让智慧档案变成现实,让智慧档案馆(室)建设起步、起飞。他们的积极性,让我看到了智慧档案馆(室)建设的可行性和现实性。


5| 在推进纸质档案数字化的过程中,不厘清思路将造成人力和财力的浪费


档案数据化之于档案数字化,智慧档案馆(室)之于数字档案馆(室),是迭代式的更新和发展,是覆盖性的提高和增强,是管理方式的根本性变化、转向性发展。不少工作在数字档案馆(室)建设中是必要项,而在智慧档案馆(室)中则会成为非必要项,成为闲置的、冗余的、无用的东西。如果我们尽早开展档案数据化,则可以不做这些不久将会无用的工作,避免不必要的人力、物力和时间的浪费。比如,我在2019年年底到一个省级档案馆参观时,看到他们正在大规模地开展档案数字化,其中有几十个人都在搞档案题名的著录。但是在智慧档案条件下,档案已经全文数据化,每个字都可以供电脑任意检索了,现在著录的题名、责任者、文种、形成时间等,就没有单独存在的意义了,因为它已经包含在全文数据当中了。一份档案的每句话、每个词、每个字,都可被检索出来,无需人工再去重新拟写标题并著录各项主要内容。前不久,在一次观看人工著录标题与录音转化著录标题的比赛时,主持人曾问我,这种人工著录标题将来的前景怎样?我就回答了3个字:“会消失!”因为档案全文数据化后,就无需再做现在这些费时费力的标题著录工作了。还有一些档案馆(室)热衷于搞档案实体的自动跟踪、监控和管理,在这方面花人力、花时间、花经费,其实也大可不必。因为档案数字化或数据化以后,纸质档案实体应全部进入封存状态,一般情况下,在库房内不会再移动,无需再去自动跟踪、监视、管理它。所以,人们今天正在费人、费力、费钱去做的一些事,将在档案数据化后失去意义。因此,各个档案馆(室)越早开展档案数据化工作,就越能避免更多重复劳动或无效劳动,越能避免花更多冤枉钱,越能更好地提高我们的工作水平。


以上这些,都为智慧档案馆(室)建设提供了各方面的条件,使智慧档案馆(室)建设具有了现实的可行性,也有了实际的可操作性,甚至还有了紧迫性。因为“智慧化”是目前的大势所趋,已不得不行。因此,智慧档案应该是我国档案馆(室)建设和档案事业发展的新方向、新目标、新任务、新出路。