在不牺牲安全性的情况下激活机器学习和分析用例
在云中启用数据和分析可以让您拥有无限的规模和无限的可能性,以更快地获得洞察力并利用数据做出更好的决策。数据湖仓一体越来越受欢迎,因为它为您的所有企业数据提供了一个单一平台,并且可以灵活地运行任何分析和机器学习 (ML) 用例。与云数据湖和云数据仓库相比,云数据湖提供了显着的可扩展性、敏捷性和成本优势。
“它们结合了两全其美:数据湖的灵活性、成本效益和性能,以及数据仓库的可靠性。”
云数据湖仓一体将多个处理引擎(SQL、Spark 等)和现代分析工具(ML、数据工程和商业智能)结合在一个统一的分析环境中。它允许用户快速摄取数据并运行自助分析和机器学习。与本地数据湖相比,云数据湖可提供显着的扩展性、敏捷性和成本优势,但迁移到云并非没有安全考虑。
数据湖仓一体架构在设计上结合了复杂的组件生态系统,每个组件都是可以利用数据的潜在路径。将这个生态系统迁移到云端对于那些规避风险的人来说可能会感到不知所措,但云数据湖仓一体安全多年来已经发展到可以更安全、正确完成并提供比本地部署显着优势和好处的地步数据湖仓一体部署。
以下是 10 种基本的云数据湖仓一体安全实践,它们对于保护、降低风险和为任何部署提供持续可见性至关重要。*
将此实践视为您的云安全框架最重要的功能和基础。NIST Special Publication中描述的目标旨在将安全功能与非安全功能分开,并且可以通过使用最小特权功能来实现。将此概念应用于云时,您的目标是将云平台功能严格限制为它们的预期功能。数据湖仓一体角色应仅限于管理和管理数据湖仓一体平台,仅此而已。云安全功能应分配给经验丰富的安全管理员。数据湖仓一体用户不应该将环境暴露于重大风险中。DivvyCloud最近进行的一项研究发现导致违规的云部署的主要风险之一仅仅是由错误配置和缺乏经验的用户引起的。通过将安全功能隔离和最小权限原则应用于您的云安全程序,您可以显着降低外部暴露和数据泄露的风险。
从唯一的云帐户开始隔离和强化您的云数据湖仓一体平台。限制平台功能以限制允许管理员管理和管理数据湖仓一体平台的功能,仅此而已。云平台上逻辑数据分离的最有效模型是为您的部署使用唯一帐户。如果您使用 AWS 中的组织单位管理服务,您可以轻松地将新账户添加到您的组织中。创建新账户不会增加成本,您将产生的唯一增量成本是使用 AWS 的网络服务之一将此环境连接到您的企业。
一旦您拥有一个独特的云帐户来运行您的数据湖仓一体服务,请应用互联网安全中心(CIS) 概述的强化技术。例如,CIS 指南描述了用于保护您的 AWS 账户的详细配置设置。使用单一帐户策略和强化技术将确保您的数据湖仓一体服务功能与其他云服务分开且安全。
加固云账号后,为环境设计网络路径很重要。这是您的安全态势和第一道防线的关键部分。您可以通过多种方式来解决保护云部署的网络边界的问题:其中一些取决于您的带宽和/或合规性要求,这要求使用专用连接,或使用云提供的虚拟专用网络 (V**) 服务并回传您的流量通过隧道返回您的企业。
如果您计划在您的云帐户中存储任何类型的敏感数据并且不使用到云的私有链接,则流量控制和可见性至关重要。使用云平台市场中提供的众多企业防火墙之一。它们提供了更高级的功能,可以补充原生云安全工具,而且价格合理。您可以在中心辐射型设计中部署虚拟化企业防火墙,使用单个或一对高度可用的防火墙来保护您的所有云网络。防火墙应该是您的云基础设施中唯一具有公共 IP 地址的组件。创建明确的入口和出口策略以及入侵防护配置文件,以限制未经授权的访问和数据泄露的风险。
基于主机的安全性是云部署中另一个关键且经常被忽视的安全层。
与防火墙的网络安全功能一样,基于主机的安全保护主机免受攻击,并且在大多数情况下充当最后一道防线。保护主机的范围非常广泛,并且可能因服务和功能而异。可以在此处找到更全面的指南。
执行日志管理策略的最常用方法是将日志实时复制到集中存储库,以便对其进行访问以进行进一步分析。商业和开源日志管理工具有多种选择;它们中的大多数都与 AWS CloudWatch 等云原生产品无缝集成。CloudWatch 是一种用作日志收集器的服务,包括在仪表板中可视化数据的功能。您还可以创建指标以在系统资源达到指定阈值时触发警报。
身份是审计和为云数据湖仓一体提供强大访问控制的重要基础。使用云服务时,第一步是将您的身份提供商(如 Active Directory)与云提供商集成。例如,AWS 提供了有关如何使用 SAML 2.0 执行此操作的明确说明。对于某些基础设施服务,这对于身份来说可能就足够了。如果您确实冒险管理自己的第三方应用程序或部署具有多种服务的数据湖仓一体,您可能需要集成身份验证服务的拼凑,例如 SAML 客户端和 Auth0、OpenLDAP 等提供程序,可能还有 Kerberos 和 Apache Knox。例如,AWS 提供有关SSO 集成的帮助用于联合 EMR Notebook 访问。如果您想扩展到 Hue、Presto 或 Jupyter 等服务,您可以参考有关Knox 和 Auth0 集成的第三方文档。
授权提供数据和资源访问控制以及列级过滤以保护敏感数据。云提供商通过基于资源的 IAM 策略和 RBAC 将强大的访问控制纳入其 PaaS 解决方案,可以将其配置为使用最小权限原则限制访问控制。最终目标是集中定义行和列级别的访问控制。像 AWS 这样的云提供商已经开始扩展 IAM 并提供数据和工作负载引擎访问控制,例如湖的形成,以及增加在服务和账户之间共享数据的能力。. 根据云数据湖仓一体中运行的服务数量,您可能需要将此方法扩展到其他开源或第三方项目(例如 Apache Ranger),以确保对所有服务进行细粒度授权。
加密是集群和数据安全的基础。最佳加密实践的实施通常可以在云提供商提供的指南中找到。正确获取这些详细信息至关重要,这样做需要对 IAM、密钥轮换策略和特定应用程序配置有深入的了解。对于存储桶、日志、机密和卷以及 AWS 上的所有数据存储,您需要熟悉KMS CMK 最佳实践。确保您对动态和静态数据进行了加密。如果您正在与不是由云提供商提供的服务集成,您可能必须提供自己的证书。无论哪种情况,您还需要开发证书轮换方法,可能每 90 天一次。
无论您的分析堆栈和云提供商如何,您都希望确保数据湖仓一体基础设施中的所有实例都具有最新的安全补丁。应实施常规的操作系统和软件包修补策略,包括定期对基础架构的所有部分进行安全扫描。您还可以关注您的云提供商(例如Amazon Linux 安全中心)的安全公告更新,并根据您组织的安全补丁管理计划应用补丁。如果您的组织已经拥有漏洞管理解决方案,您应该能够利用它来扫描您的数据湖仓一体环境。
合规性监控和事件响应是任何用于早期检测、调查和响应的安全框架的基石。如果您拥有现有的本地安全信息和事件管理 (SIEM) 基础架构,请考虑将其用于云监控。每个市场领先的 SIEM 系统都可以摄取和分析所有主要的云平台事件。事件监控系统可以通过触发威胁或失控警报来帮助您支持云基础架构的合规性。它们还用于识别妥协指标 (IOC)。
为确保数据的完整性和可用性,云数据湖仓一体应通过安全、经济高效的冗余存储、持续吞吐量和高可用性将数据持久保存在云对象存储(如 Amazon S3)上。其他功能包括具有保留生命周期的对象版本控制可以修复意外删除或对象替换。应评估管理或存储数据的每项服务并防止数据丢失。限制删除和更新访问的强大授权实践对于最大限度地减少来自最终用户的数据丢失威胁也至关重要。总之,为了降低数据丢失的风险,创建适合您的预算、审计和架构需求的备份和保留计划,努力将数据放在高可用性和冗余存储中,并限制用户出错的机会。
云数据湖仓一体是一个复杂的分析环境,超越了存储,需要专业知识、规划和纪律才能有效保护。归根结底,企业对自己的数据负有责任和义务,应该考虑如何将云数据湖仓一体转变为运行在公有云上的“私有数据湖仓一体”。此处提供的指南旨在将云提供商基础架构的安全范围扩展到包括企业数据。
Cloudera 为客户提供了在他们选择的云中运行云数据湖仓一体的选项,可以使用PaaS 模型中的Cloudera 数据平台(CDP) 公有云或作为 SaaS 解决方案的CDP One,以及我们内置的世界级专有安全性. 使用 CDP One,我们会认真对待您的数据和算法的安全访问。我们了解保护您的业务资产的重要性以及当我们的安全失败时您所招致的声誉风险,这就是促使我们在业务中拥有最佳安全性的原因。
原文作者:Brian Lachance
原文链接:https://blog.cloudera.com/10-keys-to-a-secure-cloud-data-lakehouse/