Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >档案文件如何才能发挥更大的价值

档案文件如何才能发挥更大的价值

作者头像
明月AI
发布于 2022-11-07 05:04:53
发布于 2022-11-07 05:04:53
4170
举报
文章被收录于专栏:野生AI架构师野生AI架构师

一个企业的档案文件的类型是多种多样的,包括文本,图像,电子档,扫描件,音视频等等,怎么样才能让它们发挥更大的价值呢?

档案价值是什么

说到价值,我们最直接能类比的就是钱,钱的价值就是能用来交换自己所需要的产品或者服务,而要让钱发挥更大的作用,政府就要想办法让钱更快地流动起来,让钱能配置到更高效的地方,或者让钱能到更需要的人的手里。

那档案的价值是什么?百度百科上有一个档案价值的词条,摘录一段:

档案价值是指主体与客体的关系,因而决定了档案这一客观物是档案价值的物质承载者,它只有进入社会和人的活动领域,为人所共识,并同人的实际需要相联系,相统一时,才使档案及其属性进入价值化过程,与人的需要构成价值关系。故档案的价值不是单方面决定的,而是相互作用的产物,即取决于档案的客体属性和主体的需要这两方面的统一,二者缺一不可。据此,所谓档案的价值实为档案的使用价值,就是档案这一客观存在物对人们所具有的实用性或有益性及有用程度。

(以上这段摘自百度百科)

简单说就是,档案及其属性要和人的需求相匹配,才能产生价值。其实,任何一种实体的价值化,应该都是这样的。

怎么才能让档案发挥更大的价值

理解了什么是档案价值,那么怎么样才能发挥更大价值就好理解了。简单说就是:

更高效地把档案及其属性和更多有需要的人链接起来。

相当于就是效率乘以数量,就像店铺的收益等于客单价乘以客户数类似。

提升链接效率

可以从以下几点考虑:

1. 数据资产:就像经营店铺一样,首先得清楚自己有什么,得先有一个商品目录,才知道自己的商品应该卖给谁。对于商品来说,一个店铺通常不太多,但是对于档案来说,分分钟就是几千万几亿,需要的就是资产目录,有了这个才更容易提升效率。

2. 快速检索:怎么能快速地从几亿份文档里快速检索到自己需要的文档,就像大海捞针一样,要是没点技术,那将价值就大打折扣。就像那些查案的影视剧一样,要找历史相似案例的时候,就一堆人没日没夜翻卷宗,或者没日没夜的盯着历史监控视频看。

而要实现快速检索,有两个技术就非常关键:

2.1 多模态文档数据的半结构化与结构化:半结构化主要就是将各种文档转成文本数据,主要涉及ocr及语音识别等技术,而结构化技术主要就是信息抽取,人脸识别,行为识别,目标检测等技术。

2.2 高效的全文检索技术:对于结构化信息,检索手段非常丰富,不用多说。而对于半结构化数据,虽说也有比较成熟的方案,但是挑战还是有一些的。

3. 快速地建立连接:通常资产目录或者检索系统找到目标档案之后,怎么样和需求方建立连接,就很关键。这也有两个方向:

3.1 信息抽取:目标档案可能非常多,但是需求方可能就只是需要这种文档中的某个信息,能否快速地把这些需要的信息提取出来就很关键。这有两个要点,一是能灵活方便地提取各类的信息,很可能是没法形成固定范式的,第二就是要快,提取个信息,你说要一两个月,那黄花菜都凉了。而这个快的关键就是识别功能前置,就是说在抽取前,系统已经把可以识别的东西都已经识别好了,那这个关键信息抽取,可能就是秒级能完成的,有统一的中台基座很重要。

3.2 分享:有些需求方需要的可能就是文档式的文件,并不需要抽取,那这个问题就转变成怎么能快速地分享给档案的需求方。而阻碍这个分享过程的关键因素就是数据安全

是否可以只分享文档中需要分享的内容?

分享出去的文档会不会被第三方截获?

分享出去的文档有没有隐私信息?如果有,会不会被泄露?

如果文档被泄露到了网络上,是否可以追踪到是谁泄露出去的?

如果这几个问题能够被很好的解决,那么档案的流动就可以加快,也就能产生更多的价值。

提升链接数量

前面提到的技术其实也是有助于提升数量的,只是我觉得侧重点是效率,所以放到了前面。如果本身链接已经很高效了,那剩下的关键就是要让更多有需求的人知道档案的价值点。

能想到的除了主动地加强潜在用户群的培训与交流,技术上能不能为此做些什么呢?

在其他领域,例如电商等,实现途径往往就是推荐引擎,这跟检索对应,一个是主动的,一个是被动的。

关于档案数据推荐引擎,能想到的就是一个档案的关联档案推荐,这应该是有价值的,因为一个事件脉络往往涉及到多个档案,也是一个不那么容易解决的问题。感觉通过文档的相似性性推荐是可以达到这个目的的,但是普通的计算距离的方式,需要构造一种合理的距离公式,或者可以考虑标注数据训练一个判别模型,计算两个文档是否相关。这应该是很有难度的课题,而且效果不好评估,模型也比较难达到通用。

-------------------------------

ps:居然躺着用手机打出了这么多字……又是秃头的夜晚

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 野生AI架构师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
利用AI能力平台实现档案馆纸质文件的智能化数字处理
在传统档案馆中,纸质文件管理是一项繁重而复杂的任务,特别是面对大量历史资料的存储与查询需求。为了提高档案处理的效率,AI能力平台提供了一套高效的数字化解决方案,利用OCR(光学字符识别)技术将纸质档案信息转换为数字文本。以下详细介绍从图像处理到文本提取的完整技术流程,展示如何高效完成档案数字化转型。
思通数科
2024/11/07
3740
利用AI能力平台实现档案馆纸质文件的智能化数字处理
档案大数据来袭
据统计,我国“十一五”末馆藏档案已达到39264万卷(件)。随着社会活动快速加强、网络信息化日益普遍,移动互联、社交网络、电子商务大大拓展了网络的疆界和应用领域,悄无声息,大数据时代已经来临。我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。 档案大数据的产生 过去,档案检索主要依靠手工著录、卡片检索。随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。档案数据主要来源于两个方面:1、各业务部门通过业务系统产生的业务数据转为档案数据;2、档案部
大数据文摘
2018/05/21
1.9K0
腾讯云智能结构化识别在电子档案中的应用前景
腾讯云智能结构化识别在电子档案中应用前景非常大。下面将介绍电子档案面临的痛点和智能结构化识别在电子档案场景中的应用。
用户9295575
2024/12/28
1450
数字人民币落地最后一公里,大数据和 AI 将如何改变金融
这个五一假期,你用上数字人民币红包了吗?还在试点中的数字人民币已然强势来袭,不但落地北京、上海、深圳、成都、长沙、海南等十几个城市,除了线下支付,还对接了美团、京东、滴滴和 B 站等十几个第三方平台。
Zilliz RDS
2021/05/17
1.1K0
数字人民币落地最后一公里,大数据和 AI 将如何改变金融
高效档案管理案例介绍:文档内容批量结构化解决方案解析
档案文件中包含的内容丰富且形式多样,通常不仅包括文本,还可能包含表格、图片、标题、段落、注释等多种内容元素。传统的档案管理往往依赖人工对文档内容进行归档、分类和标注,这种方式耗时费力,且在管理庞大数据量的档案库时效率较低,容易导致信息检索效率低下。而随着档案信息化进程的加速,档案数字化成为提高管理和利用效率的关键步骤。
思通数科
2024/11/11
3960
高效档案管理案例介绍:文档内容批量结构化解决方案解析
大数据市场正从基础投入迈向应用
作为当今企业信息化领域最热门的话题,大数据掀起了新一波IT投资和信息化建设的浪潮。无论是在大数据发源的互联网和电子商务领域,还是在金融、零售、制造、物流等线下业务领域,越来越多的中国企业开始思考、探索和尝试应用大数据的技术和手段,来提升营销、运营和生产的效率及效能。  个性化信息成大数据营销法宝   瞄准大数据时代带来的巨大市场机遇和广阔前景,百分点公司定位于第三方大数据技术和应用服务提供商。百分点创始人兼董事长苏萌告诉《经济参考报》记者,“数据在未来是商业里面最核心的价值,我们做的所有的事都是
腾讯研究院
2018/01/31
6130
锘崴科技王爽:提升效能与安全平衡点,让隐私计算发挥更大潜力价值 | 数据猿专访
近日,德勤发布的《未来医院报告》指出:未来的医疗机构长期发展需要建立数字化转型的文化内核;具备信息分享及便捷沟通的科技技术;注重医疗数据收集及分析;引入更适应医疗数字化的人才及更重视信息安全等。数据、安全、科技都是报告中反复提及的关键词。
数据猿
2022/09/04
4490
锘崴科技王爽:提升效能与安全平衡点,让隐私计算发挥更大潜力价值 | 数据猿专访
“平民化”非结构数据处理
在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(AI)等技术的蓬勃发展,非结构化数据的价值得到了巨大的发挥。如:自然语言处理、图像识别、语音识别等技术,已在各行业得到广泛应用,并不断的提炼数据中的价值。
colorknight
2023/02/08
1.1K0
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
在纸质档案的数字化过程中,首先需要使用高精度扫描仪对纸质文档进行扫描,生成高清的数字图像。这一步骤是整个OCR流程的基础,图像的质量直接影响到后续识别的准确性。图像预处理技术包括去噪、增强对比度、校正倾斜和图像增强等,这些操作有助于提高图像质量,减少识别错误。
思通数科
2024/11/10
4990
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
明智工作:连接客户,赋能员工,穿越价值增长周期
越来越多的企业发现,CRM与客户的互动很弱,很难找到客户的真正需求痛点。 在此背景下,SCRM(社会化客户关系管理)成为业界新宠。 而在SCRM的底层,整合办公系统、生产系统、协作系统等多源异构数据, 通过人工智能技术打造员工助理,创造客户和员工新体验,是很多企业落地数字化转型的超越SCRM“小目标“的重要方向。 1 连接客户的能力进一步下沉 SCRM与CRM仅相差一个“S”,业内却有不同的看法。 部分人将SCRM视为CRM基于社交场景的延伸,不过是在传统的CRM上面增添了“Social”功能,具备了社会
AI科技评论
2022/04/25
4730
明智工作:连接客户,赋能员工,穿越价值增长周期
浅析通用文字识别技术在档案管理中的未来趋势
随着数字化转型的加速推进,越来越多的企业和机构开始重视纸质档案的电子化管理。在这个过程中,通用文字识别技术(OCR, Optical Character Recognition) 正在成为档案管理系统中不可或缺的技术支柱。通过通用文字识别技术(OCR)
智能图文识别OCR
2025/04/29
1620
浅析通用文字识别技术在档案管理中的未来趋势
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
在信息化浪潮推动下,基于OCR技术的纸质档案电子化方案成为解决档案管理难题的有效途径。该方案通过先进的OCR技术,能够统一采集各类档案数据,无论是手写文件、打印文件、复古文档还是照片或扫描的历史资料,都能实现高效识别。利用文档智能分析技术,我们对电子化后的档案进行规范化归档,结合档案管理模块,实现对档案的分类、编目和元数据提取,从而提高档案检索的效率和准确性。AI能力平台在此过程中发挥了关键作用,它支持多种格式的批量识别,智能纠错与校对,确保档案内容的准确性,同时注重数据安全与隐私保护,为档案馆提供了一个全面、高效的电子化管理解决方案。
思通数科
2024/11/11
8220
深度解读AI在数字档案馆中的创新应用:高效识别与智能档案管理
非结构化数据治理方案
随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位。日常的业务过程中,需要处理的大量电子文档、图片、音频、视频等,都属于内容数据范畴。
肉眼品世界
2022/06/15
2.8K0
非结构化数据治理方案
大数据架构和模式(三)——理解大数据解决方案的架构层
作者:Divakar Mysore等 来源:DeveloperWorks 摘要:大数据解决方案的逻辑层可以帮助定义和分类各个必要的组件,大数据解决方案需要使用这些组件来满足给定业务案例的功能性和非功能性需求。这些逻辑层列出了大数据解决方案的关键组件,包括从各种数据源获取数据的位置,以及向需要洞察的流程、设备和人员提供业务洞察所需的分析。 概述   这个 “大数据架构和模式” 系列的 第 2 部分 介绍了一种评估大数据解决方案可行性的基于维度的方法。如果您已经使用上一篇文章中的问题和提示分析了自己的情况,并
机器学习AI算法工程
2018/03/09
9920
大数据架构和模式(三)——理解大数据解决方案的架构层
何鸿凌:电信运营商数据资产及变现探讨
点击标题下「大数据文摘」可快捷关注 作者:何鸿凌,中国移动高级工程师 感谢何鸿凌的精彩分享,大数据文摘专注数据,旨在搭建专业的案例、资讯分享交流平台,期待更多的投稿、合作,欢迎给文摘后台留言,谢绝软文。 电信运营商在长期的内部精细化管理和精确营销服务的过程中积累了大量的数据资产,这些数据资产在大数据背景下具备外部变现的潜质。本文分析了这些数据资产的状况,并探讨了几种数据变现模式。 一、电信运营商数据资产情况及分析 资产是指由企业过去交易或事项形成的,由企业拥有或控制的,预期会给企业带来经济利益的资源。电信
大数据文摘
2018/05/23
1.7K0
新年将至,沉睡的文本数据也该醒醒了
随着企业收集的非结构化数据不断增加,文本智能处理的价值和流行趋势也处于上升阶段。越来越多的企业意识到利用文本挖掘从企业文本资源库中提取知识和提升效率的重要性。 达观数据联合创始人桂洪冠,近日作为邀请嘉宾在年末亿欧四周年庆典上和各领域嘉宾一同探讨了文本挖掘在企业中的应用现状及未来前景展望。桂洪冠作为文本智能领域的处理专家,在大数据架构与核心算法以及文本挖掘等领域有深厚的积累和丰富的实战经验。 和我们熟悉的结构化数据不同,当提到文本数据时,常有以下几种特点: 1.数据无结构化 文档格式多样化,通常以PDF、
达观数据
2018/04/02
1.2K0
新年将至,沉睡的文本数据也该醒醒了
腾讯云大数据:融合Data与AI,加速企业数智化转型与价值释放
当前,中国经济正迈向高质量发展新阶段,数字经济已成为核心增长引擎。数据作为关键生产要素,其价值亟待通过数据智能技术充分释放。然而,众多企业在推进数智化转型的道路上,仍面临概念不清、目标不明、实践缺乏参考等挑战。在此背景下,行业亟需清晰的指引和成熟的实践方案。
腾讯QQ大数据
2025/04/26
3690
腾讯云大数据:融合Data与AI,加速企业数智化转型与价值释放
大数据的价值:找到别人的“集体智慧”
大数据部门该放在运营团队还是技术团队?在红杉资本中国基金会专家合伙人、原阿里数据委员会会长车品觉看来,纠结于此类问题的企业,距离大数据的法门尚远。车品觉认为,大数据应该是CEO直接领导的战略级部门,是一把开启新世界大门的钥匙。今天,大数据已在营销、风险控制等领域已大放异彩;而在可预见的未来,基于大数据的诸多模式创新,将带给我们无限的想象空间。
IT阅读排行榜
2018/08/15
4180
大数据的价值:找到别人的“集体智慧”
GMIC2018,达观数据文本智能处理技术瞩目全场
4月26日,2018 全球移动互联网大会(Global MobileInternet Conference, 简称:GMIC)在北京国家会议中心正式开幕。达观数据作为人工智能领域优秀企业亮相本次大会,
达观数据
2018/06/04
1.3K0
认知智能浪潮将至,企业技术底座和业务流程变革在即 | 爱分析报告
认知智能以新技术和新产品为抓手,可以为企业带来从技术底座到业务流程的重大变革。对于技术底座的影响主要来自知识图谱平台和NLP平台。知识图谱平台是面向企业打造业务场景应用、挖掘数据价值的需求,构建基于自然语言处理和知识图谱技术,集知识建模、抽取、融合、存储、计算、推理以及应用为一体的知识全生命周期的管理平台。NLP平台是指使用机器学习、深度学习、知识图谱等技术,通过计算机编程,将文本、声音等自然语言数据编码成结构化信息的赋能平台。知识图谱平台和NLP平台是企业迈向认知智能的“必修内功”,企业将其融入自身技术底座后可以对上层的应用和业务进行赋能。
爱分析ifenxi
2023/03/29
5310
推荐阅读
相关推荐
利用AI能力平台实现档案馆纸质文件的智能化数字处理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档