数据管理领域的相关术语
术语名称 | 概念与解释 |
---|---|
数据资产 | 数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。 |
关系型数据库 | 关系型数据库是采用关系数据模型的数据库系统。 关系数据模型是表示各类实体及其之间联系的、由行和列构成的二维表结构。 一个关系数据库由多个二维表组成,表中的每一个行为一个元组(或称记录),每一列为一个属性,属性的取值范围又称为域。 对其进行操作通常采用结构化查询语言SQL。 |
非关系型数据库 | 是对不同于传统的关系型数据库的数据库管理系统的统称。 使用NoSQL而非SQL作为查询语言。 |
图数据库 | 是以图结构来表示和存储信息的数据库。 |
时序数据库 | 指时间序列数据库,是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的。 |
数据仓库 | 数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 作用:为企业所有级别的决策制定过程提供所有类型数据支撑。 |
数据湖 | 数据湖是以原始格式存储数据(无需事先对数据进行结构化处理)的存储库或系统。 数据湖不是一个产品或工具,它是整合了数据采集、数据处理、数据存储、机器学习、数据挖掘等技术和工具的解决方案。 |
结构化数据 | 指数据元素之间具有统一且确定关系的数据。 它由明确定义的数据类型组成。 结构化数据的一般特点是数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。 |
非结构化数据 | 指数据元素之间没有统一和确定关系的数据。 它是具有内部结构,但不通过预定义的数据模式进行结构化的数据,如各种格式的图片、视频等。 |
半结构化数据 | 指数据元素之间的关系介于结构化和非结构数据之间的数据。 它是非关系模型的、有基本固定结构模式的数据,如日志文件、E-MAIL等 |
主数据 | 主数据是指满足跨部门业务协同需要的、反映核心业务实体状态属性的基础信息。 |
基础数据 | 狭义的基础数据就是系统的数据字典,又称参考数据,是用于描述、分类或基础规范其他数据,或者将数据与企业外部信息联系起来的任何数据。 |
业务数据 | 业务数据又称交易数据,是业务活动、流程过程或系统自动产生的既定事实的数据,是企业日常经营活动的直接体现。 |
主题数据 | 主题数据是根据数据分析需要,按业务主题对数据所做的一种组织和管理方式,是为了进行面向主题的分析或加速主题应用的数据。 主题数据是分析型数据,按一定的业务主题域组织。 一个主题数据可以由多个主数据和交易数据组成。 主题数据是汇总的、不可更新的、用于读的数据。 |
统计数据 | 统计数据又称报告数据、指标数据、分析数据、报表数据 指对数据按照一定的计算和统计规则进行加工处理,用于满足企业内部管理、业务决策及外部监管需求,用于支持报告和报表的生成。 一般由指标名称、时间和数值组成,如维度数据、指标数据、分类数据、标签数据等。 |
元数据 | 元数据是描述数据的数据,或关于数据的结构化数据。 元数据分为:业务元数据、技术元数据、管理元数据 |
时序数据 | 指时间序列数据。它是按时间顺序记录的数据列,在同一个数据列中的各个数据必须是同口径的,要求具有可比性。 在工业企业中,实时数据是时序数据的一种,如设备运行监测类数据、安全类监测数据、环境监测类数据, |
观测数据 | 通过观测工具获取的数据,观测对象一般为人、事、物、环境。 |
规则数据 | 规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据。 |
外部数据 | 指组织引入的外部组织或个人拥有处置权利的数据。 |
异常数据 | 是不满足数据标准、不符合业务实质的客观存在的数据。 |
脏数据 | 脏数据一般是指不符合要求,以及不能直接进行相应分析的数据,脏数据包括:缺失值、异常值(离群点)、不一致的值、内容未知的值、无效值。 |
表 | 记录的组合,表示同一类事物的组合 |
字段 | 数据库中表的列,表达某一个事物的一个特征,或者说是属性。 |
记录 | 事物特征的组合,可以描述一个具体事物。数据库表中的每一行叫一个“记录” |
属性 | 实体所具有的属性或特性。属性用来描述实体,是组成实体的数据定义、格式、值域。属性也被称为列。 |
实体 | 现实世界中的对象,可以具体到人、事、物,实体是一个系统内可以定义的事物或概念,如采购订单、产品、服务、客户等 在实体关系图中,实体通常用来代替“表”。 在考虑实体时,可以把实体想成名词。 |
数据元 | GB/T 18391.1-2002:用一组属性描述定义、标识、表示和允许值的数据单元。 数据元由三部分组成:对象、特性和表示。 数据元是组成实体数据的最小单元。 如:个人信息中,手机号就是数据元,1360XXXXX是数据元的值。 |
主键 | 能唯一标识信息的事物,用于界定数据库表中的记录的独特性。并不是每一个表中都需要主键,一般如果多个表之间进行连接操作时,需要用到主键。 因此并不需要为每个表建立主键。 |
外键 | 是对主键的引用,用于识别实体之间的关系。有别于主键,外键不必是唯一的,多个记录可以共享相同的值。 |
数据源 | 指业务上首次正式发布某项数据的应用系统,经过数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用。 数据同源是数据治理的核心观点之一。要确保数据源头的统一,以及跨流程、跨系统数据的唯一性和一致性。 |
事实表 | 从业务活动或者事件中提炼出来的性能度量。 |
业务对象 | 用于定义业务领域重要的人、事、物,承载了业务运作和管理涉及的重要信息。 业务对象通常在企业内只能有一个唯一的数据所有者,而且有唯一的身份标识信息。 |
标签 | 标签是根据业务场景的需求,通过对目标对象(含静态、动态特性)运用抽象、归纳、推理等算法得到的高度精练的特征标识,用于差异化管理与决策。 标签由标签和标签值组成,打在目标对象上。 |
维度 | 用于观察和分析业务数据的视角,支持对数据进行汇聚、钻取、切片分析。 |
数据架构 | 数据架构是通过组织级数据模型定义数据需求,指导对数据资产的分布控制和融合,部署数据的共享和应用环境,以及元数据管理的规范。 数据架构包括数据模型、数据分布、数据集成与共享、数据服务 |
数据资产目录 | 通过分层架构表达,对数据的分类和定义 |
数据模型 | 数据模型是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系。 数据模型是一组反映数据需求和设计的数据规范与相关图示,是对数据特征的描述。 数据模型3要素:数据结构、数据操作和数据约束。 |
数据标准 | 定义公司层面需共同遵守的属性层数据的含义和业务规则,是公司层面对某个数据的共同理解。 |
数据的标准化 | 数据的标准化是一组织涉及数据标准制定、数据标准管理流程和制度、数据标准管理技术和工具的解决方案。 |
数据标准规范体系 | 通过统一梳理数据,识别数据资产,并对数据分类、编码、属性、业务规则、安全策略、存储策略、管理要求等内容进行规范化定义,在组织范围内形成对数据的一致性认知,建立数据标准化的过程。 |
数据装载 | 也就是数据入库,将经加工处理后满足数据使用需求的数据,存储至指定的数据库或相关存储环境中。 |
数据交换 | 指从一个或多个信息系统(源系统)读取(抽取)数据,并基于一定的业务规则(解析、转换),将数据定稿(加载)一个或多个目标系统、企业级数据中心(EDW)或数据中台。 |
数据质量规则 | 是判断数据是否符合数据质量要求的逻辑约束。 包括:单列、跨列、跨行、跨表数据质量规则。 数据质量规则一般以业务属性(即数据列)为对象,数据质量规则类型为颗粒度进行设计和应用。 |
数据成本 | 数据成本包括采集、存储和计算的费用,如人工费用、IT设备等直接或间接费用,以及运维费用,如业务操作费、技术操作费等。 |
数据价值 | 数据价值主要通过数据资产的分类、使用频次、使用对象、使用效果和共享流通等维度计量。数据价值取决于数据应用场景,同样的数据在不同的应用场景中产生的价值是不一样的。 |
数据的利益相关方 | 数据的生产者:通过业务交易或事项产生数据的人或组织 数据的拥有者或控制者:生产者不一定拥有数据 数据价值和经济利益的获得者 |
数据战略 | 一组选择和决定,这些选择和决定共同制定了高级目标的高级行动方案。 |