数据体系结构的目标是将业务需求转换为数据和系统需求,并管理数据及其在企业中的流动。
在信息技术中,数据体系结构由模型,策略,规则或标准组成,这些模型,策略,规则或标准控制收集哪些数据以及如何在数据系统和组织中存储,安排,集成和使用这些数据。数据通常是构成企业体系结构或解决方案体系结构支柱的几个体系结构域之一。
数据架构师的职责
就像设计房屋或建筑物的传统架构师一样,数据架构师创建数据环境的蓝图,该蓝图可满足组织的短期和长期目标及其独特的文化和背景要求。
数据架构师通常负责定义目标状态,在开发过程中进行对齐,然后进行后续操作以确保按照原始蓝图的精神进行增强。
在定义目标状态的过程中,数据体系结构将主题分解为原子级别,然后将其构建回所需的形式。数据架构师通过3个传统的架构过程来分解主题:
- 概念性-代表所有业务实体。
- 逻辑-表示实体如何关联的逻辑。
- 物理-特定功能类型的数据机制的实现。
什么是数据架构
数据体系结构定义了组织用来管理数据的一组标准产品和工具。但是,不仅如此。数据体系结构定义了捕获,转换并将可用数据交付给业务用户的过程。最重要的是,它确定了将使用这些数据的人员及其独特的需求。良好的数据体系结构从右到左流动:从数据使用者到数据源。
数据体系结构应为其所有数据系统设置数据标准,以作为这些数据系统之间最终交互的愿景或模型。例如,数据集成应依赖于数据体系结构标准,因为数据集成需要两个或多个数据系统之间的数据交互。数据体系结构描述了企业及其计算机应用程序软件使用的数据结构。数据架构处理存储中的数据,使用中的数据和移动中的数据;数据存储,数据组和数据项的描述;以及这些数据工件到数据质量,应用程序,位置等的映射。它为数据处理操作提供了标准,以便可以设计数据流并控制系统中的数据流。
这是标准化组织如何收集,存储,转换,分发和使用数据的过程。目的是在需要时向需要它的人提供相关数据,并帮助他们理解它。
数据体系结构描述了组织的逻辑和物理数据资产以及数据管理资源的结构。数据体系结构的目标是将业务需求转换为数据和系统需求,并管理数据及其在企业中的流动。
数据架构组件
数据架构可以综合为三个整体组成部分:
- 数据架构成果。这些是模型,定义和数据流,通常称为数据体系结构工件。
- 数据架构活动。这些是数据架构意图的形式,部署和实现。
- 数据架构行为。这些是影响企业数据体系结构的各种角色的协作,思维定势和技能。
15数据架构特征
数据架构是围绕某些特征构建的:
1.自动化
自动化消除了使遗留数据系统难以配置的麻烦。现在,可以使用基于云的工具在数小时或数天内完成耗时数月的构建过程。如果用户希望访问不同的数据,则自动化使架构师能够快速设计管道以交付数据。当获取新数据时,数据架构师可以将其快速集成到体系结构中。为了创建一个适应性的体系结构,数据可以连续不断地流动,数据架构师可以自动执行所有操作。
2.安全
安全性内置于现代数据体系结构中,可确保根据业务定义在需要知道的基础上提供数据。良好的数据架构还可以识别对数据安全性的现有和新兴威胁,并确保法规遵从HIPAA和GDPR之类的法规。
3.用户驱动
过去,数据是静态的,访问受到限制。决策者不一定得到他们想要或需要的东西,而是可以得到的东西。在现代数据架构中,业务用户可以放心地定义需求,因为数据架构师可以合并数据并创建解决方案以符合业务目标的方式访问数据。
良好的数据体系结构会不断发展,以满足新的和不断变化的客户信息需求。
4.弹性
任何数据架构都必须具有弹性,并具有高可用性,灾难恢复和备份/还原功能。
5.可扩展的数据管道
为了利用新兴技术,数据体系结构支持实时数据流和微批量数据突发。
6.协同合作
有效的数据体系结构建立在鼓励协作的数据结构上。良好的数据体系结构通过将组织各个部门的数据以及所需的外部资源组合到一个位置,以消除同一数据的竞争版本,从而消除了孤岛。在这种环境下,数据不会在业务部门之间进行易货交易或ho积,而是被视为公司范围内的共享资产。
7.由AI驱动
数据架构使用机器学习和人工智能来构建保持数据流通的数据对象,表,视图和模型。智能数据架构使用机器学习(ML)和人工智能(AI)来调整,警告和推荐针对新情况的解决方案,从而将自动化提升到一个新的水平。ML和AI可以识别数据类型,识别和修复数据质量错误,为传入数据创建结构,为新的见解识别关系并推荐相关的数据集和分析。
8.弹性
弹性使公司可以根据需要扩大或缩小规模。云使您可以快速,经济地按需扩展。弹性使管理员可以集中精力进行故障排除和解决问题。弹性体系结构使管理员不必精确校准容量,在必要时限制使用量并无需过多地购买硬件。弹性还产生了许多类型的应用程序和用例,例如按需开发和测试环境,分析沙箱和原型设计场。
9.简单
在高效的数据体系结构中,简单性胜过复杂性。力求简化数据移动,数据平台,数据组装框架和分析平台。
最简单的架构是最好的架构。为了减少复杂性,组织应该尽力限制数据移动和数据重复,并提倡使用统一的数据库平台,数据组装框架和分析平台,尽管存在各种最佳支持者。
10.适应性强
现代数据体系结构必须足够灵活,以支持多种业务需求。它需要支持多种类型的业务用户,负载操作和刷新率,查询操作,部署,数据处理引擎和管道。
11.治理
治理是自助服务的关键。现代的数据体系结构为每种类型的用户定义了访问点,以满足他们的信息需求。数据科学家需要能够访问着陆区的原始数据,或者更好的是,可以使用专用沙箱将原始公司数据与自己的数据混合在一起。
12.原生云
现代数据架构旨在支持弹性缩放,高可用性,移动数据和静止数据的端到端安全性以及成本和性能可伸缩性。
13.无缝数据集成
数据体系结构使用标准API接口与旧版应用程序集成。它们经过优化,可以在系统,地区和组织之间共享数据。
14.实时数据启用
现代数据体系结构支持部署自动和主动数据验证,分类,管理和治理的能力。
15.解耦且可扩展
现代数据体系结构被设计为松散耦合的,使服务能够独立于其他服务执行最少的任务。
数据架构原理
根据AtScale副总裁Joshua Klahr所说,构成现代数据体系结构基础的六项原则:
- 数据是共享资产。现代数据架构需要消除部门数据孤岛,并为所有利益相关者提供公司的完整视图。
- 用户需要足够的数据访问权限。现代数据体系结构需要提供接口,使用户可以使用适合其工作的工具轻松使用数据。
- 安全是必不可少的。现代数据架构必须针对安全性进行设计,并且必须直接在原始数据上支持数据策略和访问控制。
- 共同的词汇确保共同的理解。共享数据资产(例如产品目录,会计日历维度和KPI定义)需要通用的词汇表,以帮助避免在分析过程中发生争执。
- 数据应精选。投资执行数据管理的核心功能。
- 数据流应针对敏捷性进行优化。减少必须移动数据的次数,以降低成本,提高数据新鲜度并优化企业敏捷性。
如果您有数据架构项目,并且需要帮助,请告诉我们,我们是数据架构专家!