在日常办公中往往需要将扫描的图片文档转换为可供编辑的电子版,因此图文识别几乎是一项办公刚需,具备“图文识别”功能的手机微信小程序恰恰迎合了这项需求,由此引发了大量的失泄密问题。 事实上,图文识别本身并不会直接导致保密安全问题,须知“涉密不上网、上网不涉密”是保密红线,手机时刻处于移动互联网环境中,使用微信处理文档资料,传递办公信息的行为已经触碰了保密红线。 具备图文识别功能的微信小程序和提供图文识别服务的网站,其原理是将用户待识别的图片上传,后台服务器调用图文识别引擎进行处理,然后将识别结果整理,产生可供用户编辑文字的电子版。 可以看到,整个过程中触控保密红线的行为是“上传”,而非图片识别处理,然而,由此引发的失泄密问题与图文识字直接相关,在不懂不会的情况下,人们对图文识别本身产生了困惑甚至担忧,选择放弃这项办公刚需,即使以贻误工作为代价。 查处失泄密问题产生这样的影响,完全违背了保密工作的初衷,在保密管理实践中,类似的情况并不鲜见。对具体事项不懂不会,使得落实保密管理措施陷入两难境地,要么成为“空中楼阁”无法落实,要么成了阻碍业务开展的紧箍咒。 从保密管理实践来看,最大的挑战和困难是什么?是“这不能干,那不能干”与“怎么能干”的矛盾。解决好这类矛盾,可以极大地促进保密措施的落地落实,显著提升保密管理水平。 以图文识别这项办公刚需为例,使用具备离线图文识别功能的应用可以既保密安全,又满足日常办公图文识别需要。 图文识别准确来说叫光学字符识别,即OCR。对人类来说,眼睛可读信息和耳朵可听信息最为重要,机器对光学信息和声学信息进行识别分别产生了光学字符识别、语音识别系统,以此为基础,人机交互才成为可能,识别系统的核心在于识别引擎。 目前,OCR引擎有国外的ABBYY、Tesseract和国内的汉王,ABBYY是一个古老的汉藏语系苗瑶语族词语,意为“敏锐的眼光”,相应的OCR产品是ABBYY FineReader,识别质量和精准度一流,而Tesseract被认为是最精准的开源光学字符识别引擎之一。dpscreenocr是一款采用Tesseract OCR识别引擎的桌面文字识别工具,可以准确地识别屏幕上图片中的文字,并转换成可供用户编辑的电子版,它单机运行,完全不依赖网络,同时支持Windows系统和Linux系统,成为用户日常办公得力工具。
官方网址:https://danpla.github.io/dpscreenocr/en/
|