并非所有数据都是平等的。在当今复杂的数字世界中,试图以同等的力量保护每一个数据资产既不可行也不明智。由于手头有数 TB 甚至 PB 的数据,数据安全团队需要变得更加复杂 - 他们需要数据分类。
数据分类是保护关键和敏感数据的关键。通过对数据进行分类,您可以对实际重要的数据应用有效的安全措施。这对于保护数据免受未经授权的访问和破坏以及确保完全符合行业法规和标准至关重要。
在本文中,我们将探讨不同的数据分类方法,包括它们的优势和潜在挑战,并探讨如何使用这些方法来实现您的业务目标。
对数据进行分类是一个巨大的挑战,特别是考虑到企业通常处理大量数据。
您可以采取以下几个简单步骤来确保正确处理:
分类是一个大主题,在安全工具箱中实施分类之前,需要考虑很多事项。
在本节中,我们将介绍要考虑的两件大事 – 不同类型的数据分类方法和要分类的数据类型。
数据分类有两种不同的风格。为了掌握数据安全性,重要的是要知道它们是什么以及它们之间的区别。
第一种类型是基于上下文的。基于上下文的分类不是直接查看文件或数据对象包含的内容,而是从上下文信息(如元数据)派生数据类型,包括历史记录、属性、资产所有者和环境。例如,如果在名为“电子邮件地址”的列中找到数据,则数据将被归类为电子邮件地址。尽管此类信息很有价值,但从元数据中得出的结论可能不准确,从而使分类本身具有极大的误导性。
另一方面,基于内容的分类通过直接观察数据来确定数据类型。例如,此方法可以高度确定数据资产是名称、电子邮件、地址还是信用卡号,即使标记不正确也是如此。例如,如果信用卡号位于“注释”字段下。
您可能会惊讶地发现,大多数解决方案仅根据上下文执行分类。这里需要注意的另一个微妙的一点是,如果不查看动态数据,就无法获得上下文。以合理的成本可靠获取动态数据的唯一方法是通过有效负载在运行时分析数据(与公有云日志相反,例如 AWS 流日志)。
因此,如果要确保正确且经济高效地识别和分类敏感数据,则应与将基于内容的分类与基于上下文的分类配对的供应商合作,并确保后者通过有效负载执行。否则,您将面临增加成本、错过重要信号以及将易受攻击的数据暴露在泄漏和泄露的风险。
数据有不同的形状,但大致可以分为两大类:
结构化数据:采用“键值”格式:CSV、JSON、Excel 文件等。
非结构化数据:自由文本、图像(可能包括自由文本)、视频、文档等。
这里需要注意的重要一点是,结构化和非结构化数据的数据分类本质上非常不同,并非所有分类解决方案都可以处理非结构化数据。
底线是这样的 - 如果您认为非结构化数据中可能潜伏着敏感数据,那么确保您的分类工具可以检测和分类它们非常重要。即使您认为这不适用于您 - 考虑到当数据由某些应用程序处理时,它可以从结构化更改为非结构化,反之亦然。因此,对非结构化数据进行分类几乎总是一件值得投资的好事。
花时间将数据分类工具实施到数据安全操作中可能需要一些工作,但它具有一些显着的优势。
将数据分类纳入数据保护策略时,需要注意一些重大陷阱。让我们来看看其中的一些以及如何处理它们。
由于每天生成大量数据,分配足够的时间和资源来收集、分类、监控和维护它们很快就会变得昂贵和复杂,尤其是在处理遗留数据时。相互竞争的优先事项和有限的预算会进一步加剧这一问题。
为了应对这一挑战,组织可以采用自动化方法,消除劳动密集型任务和随之而来的人为错误。此外,组织可以优先对最敏感的信息进行分类,并实施防止收集不必要数据的策略,从而节省时间并有效控制成本。
仅依靠 IT 和工程团队进行数据分类可能会造成瓶颈、税务团队并导致错误。由于分类过程的复杂性及其技术要求,这种做法可能长期不可持续。
自动化也可以在这里派上用场。它可以加快分类过程,提高其准确性,并消除安全和工程团队之间可能建立的紧张关系。
不同部门和团队选择的政策和格式不一致可能会导致混乱和错误,从而导致信息丢失、分类不良和资源浪费。
为了防止此问题,组织应建立跨部门一致遵守的标准化策略和格式。
自动化工具可以通过实施预定义的策略和格式来帮助维护此标准。定期监测、更新和审查也有助于确保这些政策和格式保持相关性和有效性。
标签不完整、数据排序不当、上下文缺失或信息重复和模棱两可——所有这些都可能导致数据分类不佳。反过来,这可能导致关键的监督。例如,个人姓名可能被认为敏感度较低,但如果它们出现在健康或财务记录中,则应将其标记为敏感和机密。
为了应对这些挑战,组织应特别注意如何收集数据,确保它考虑到元数据和缺失的链接,以及如何完成它们。
自动化工具可以使用机器学习算法来缓解异常、更新策略、修复格式并经济高效地监控数据收集,从而进一步帮助实现这一目标。
DSPM解决方案提供基于上下文和内容的自动数据分类。它旨在发现和分类结构化和非结构化数据,无论这些数据流向何处 - 无论是在本地、云中还是传输到外部服务和影子数据库时。
引擎通过实时分析数据有效负载对数据进行分类。这意味着不仅分类更准确,而且您知道的不仅仅是数据类型。通过分析数据有效负载,您还可以获得上下文:数据是如何生成的,由谁以及何时生成。例如,您可以了解电子邮件列表的上下文:列表是由内部人员、承包商生成的还是购买的?
基于其高度准确的分类引擎,该平台允许您对这些数据进行精确控制,因此您可以收到任何违规行为的警报,快速响应安全事件,遵守法规,并将您的安全状况提升到新的高度。
每过一刻,您照顾的数据量就会增加。如果没有适当的数据分类策略,企业可能会暴露敏感信息并面临严重的法律和声誉后果。
如果要设置实际完成其工作的规则和安全控制,则必须拥有强大的数据分类引擎。如果您没有牢牢掌握流经系统的数据类型,则几乎不可能遵守法规并降低风险。
好消息是,您不必自己完成所有这些工作。有优秀的第三方工具可以为您完成工作。但是,如果您沿着这条路走下去,有几件重要的事情需要注意。
在与声称对数据进行分类的外部供应商签订合同之前,要评估的三件大事是:
数据分类可以提高数据管理效率,加速数据检索和访问,支持信息提取和分析,促进数据挖掘和机器学习任务,以及帮助知识发现和应用。这些好处都有助于我们更好地利用数据,并从中获取价值和洞察。
参考:https://www.flowsecurity.com/data-classification/
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。