第6章 数据库和数据仓库技术

6.1 复习笔记

一、企业数据处理方式

现代企业处理信息的方式有以下几种:

1.以联机事务处理形式处理信息

企业的业务数据库可以应用OLTP技术及功能,即采用联机收集和处理信息,然后再对收集到的经过处理的信息加以利用,并且不断更新已有的信息。

2.利用信息进行决策

企业从事务中获取信息后,需要对信息进行分析,以便从事各项决策任务。联机分析处理(OLAP)是一种为支持决策而进行的信息处理方式。

3.在信息应用过程中管理信息

(1)考虑采用适当的技术去组织信息;

(2)考虑使用信息的权限;

(3)考虑信息的更新与维护。

二、文件组织

1.文件—数据库的基础

企业中的数据一般是以文件的形式组织起来,并按搁置档案的方式存放在光盘、磁盘等存储介质上,应用时根据用户的指令,用特定的程序对文件的内容进行操纵。

2.数据的物理组织和逻辑组织

(1)物理组织

物理组织方式存储在各类存储器上。信息的物理组织是面向机器、面向存储设备的。

(2)逻辑组织

信息的逻辑组织是面向用户的应用需求。

(3)关系

使数据的物理存储与逻辑处理分离是进行数据处理的关键。将逻辑进行信息处理的请求向相应的物理存储形式转换的工作,由系统软件所提供的技术界面实现。

3.文件组织方式

(1)顺序文件组织

文件的顺序组织方式是指文件中数据记录的物理顺序与逻辑顺序一致。在顺序文件中,文件的记录按关键字值的递增(或递减)次序排序,形成了记录的逻辑顺序。

(2)索引文件

具有索引表(简称索引)的文件称为索引文件。索引文件由索引与主文件两部分组成。索引是关键字学号与学生记录地址的对应表,必定是升序排序的。

(3)链表文件

链表组织中,着重考虑用指针建立许多不同的逻辑联系,以适合多变情况下文件记录的检索。记录的指针在文件组织中是用一个指针项来表示的,这个指针项的内容就是指向下一个相关记录的地址。

(4)倒排文件

倒排文件的结构是对每个辅关键字都设立一个索引,每种关键字值对应一个索引项,将具有相同关键字值记录地址都保存在相应的索引项中。

三、数据库系统

1.数据库处理

(1)数据库存储

数据字典描述数据定义、格式,内容以及数据库的相互关系,以确保所建立的数据库的完整性、一致性和可行性。

(2)数据库处理方式

通过更新和维护共享数据库,对组织的记录,映射新的事务、传送变化的事件。

使用能共享公共数据库数据的应用程序,为用户提供所需信息。

通过DBMS提供的查询/响应及报告功能,使用户能直接地快速访问数据库,得到响应,并产生报告。

2.数据库管理系统

(1)数据库开发

数据库管理软件允许用户很方便地开发自己的数据库。DBMS也允许数据库管理员(DBA)在专家指导下,对整个组织的数据库开发给予控制。

(2)数据库查询

用户可以使用DBMS中的查询语言或报告发生器,询问数据库中的数据。用户可以在显示器或打印机上直接接受机器的响应。

(3)数据库维护

组织的数据库需要经常更新数据以适应企业新的状况,即对数据库进行修改,以保证数据库数据的准确性。

(4)应用与开发

DBMS可以使应用程序员不必像使用通常的程序设计语言,通过编程去开发详细的数据处理过程。应用数据操纵语言(DML)中的一个句子,就可以让DBMS执行必要的数据处理活动。

3.数据库模型与数据库组织结构

(1)数据库模型

组织的数据库模型能使数据以记录的形式组织在一起,综合反映企业组织经营活动的各种业务信息。该模型能反映企业组织中各部门业务信息所存在的内在联系。目前DBMS所提供的数据库模型主要有三种:

网络模型;

层次模型;

关系模型。

(2)数据库组织结构

数据库三级组织结构

a.模式

模式又称逻辑模型,即数据模型。它是一种对数据库组织的全局逻辑观点,反映企业数据库的整体组织和逻辑结构。

b.外模式

是数据库的外层,也是与用户相联系的一层。它属于模式的一个子集,因而是面向用户的逻辑组织,以文件形式展现在用户面前。

c.内模式

内模式又称数据的存储模式,具体描述了数据如何组织并存入外部存储器上。

三个层次之间的两种映射

a.模式与子模式之间的映射

这种映射把概念数据库与用户级数据库联系起来。

b.模式与内模式之间的映射

这种映射把概念数据库与物理数据库联系起来。

c.作用

正是有了这两种映射,才能把用户对数据库的逻辑操作转换为对数据库的物理操作,方便地存取数据库的数据。

4.数据库设计

(1)信息的转换

信息是人们关于现实世界客观存在事物的反映,数据则是用来表示信息的一种符号。若要将反映客观事物状态的数据,经过一定的组织,成为计算机内的数据,将经历三个不同的状态:现实世界、信息世界(概念世界)、计算机世界(数据世界),如图6-1所示。

图6-1  三个不同的世界

(2)数据库设计步骤

对现实世界进行需求分析

a.了解组织机构情况,为分析信息流做准备;

b.了解各部门业务情况,调查各部门输入和使用的数据及处理数据的方式与算法;

c.确定数据库的信息组成及计算机系统应实现的功能。

建立信息世界中E-R(概念)模型

a.建立分E-R图;

b.综合分E-R图,产生总E-R图。

从E-R图导出计算机世界的关系数据模型

转化的原则如下:

a.E-R图中每个实体,都相应地转换为一个关系;

b.对于E-R图中联系,根据不同的联系方式,或将联系反映在关系中,或将联系转换成一个关系。

5.数据库技术发展的趋势

(1)分布式数据库

作为分布式数据库,数据存储的物理地址是分散的,但是在分布式数据库管理系统的支撑下,在计算机网络环境的支持下,却能达到物理地址分散的数据库在逻辑结构上是一个整体。

(2)多媒体技术在数据库中的应用

这是一种能够储存且管理数值、文字,表格,图形、图像、声音等多种媒体的数据库。

(3)面向对象数据库

采用面向对象技术,将多媒体数据(一段乐曲或一张图片)以一个对象的形式存储到数据库中,对象除包含自身数据以外,还包含完成数据库事务处理所需的各种处理过程。通过面向对象的数据库管理系统(OODBMS)进行存取、检索及与其他对象的关联。

四、数据仓库和商业智能

1.数据仓库

数据仓库的最终目标是把企业范围内的所有数据集成在一个大仓库中,让用户能运行查询、产生报告、执行分析。

2.联机分析处理

联机分析处理(OLAP)是对大量多维数据的动态综合、分析和归纳。OLAP多维分析包括针对多维视图的各种操作:

(1)切片和切块

在多维视图中,如果某个维度上的取值选定了一个固定值,原视图就降低了一个维度,即进行了“切片”操作;如果某个维度上的取值范围缩小到一个区间,原视图的维度没有降低,但内容减少了,即是切块操作。

(2)钻取

钻取就是按某个维度上的不同取值层次变换多维视图,钻取包含向下钻取和向上钻取/上卷操作,钻取的深度与所划分的层次相对应。

(3)旋转/转轴

通过对多维视图中各个坐标的旋转变化可以得到不同视角的数据。

3.数据挖掘

数据挖掘是从大量数据中自动发现隐藏的有用信息的过程,是从大量数据中挖掘“宝藏”的过程。数据挖掘的主要方式包括:

(1)分类

分类是从大量数据中找出不同类别对象的特征,从而对新加入对象进行自动分类。

(2)聚类

聚类是根据数据特征对数据对象进行自动归类。

(3)关联规则发现

关联规则发现是在大量数据中找出有关联的数据,或者找出同时发生的事件。

(4)时序模式发现

时序模式发现主要寻找事件发生的时序关系。

4.商业智能

商业智能是指通过对数据的收集、管理、分析以及转化,使数据成为可用的信息,并在企业中共享传递,从而帮助企业获得必要的洞察力和理解力,更好地辅助决策和指导行动。