- 地理信息系统中的不确定性问题
- 邬伦等
- 426字
- 2024-12-21 15:05:40
2.3 不确定性研究方法[1]
精确性是经典数学的最大特点,许多学科的研究目标在于获得自然现象的精确定量表示。但自然现象千变万化,客观世界错综复杂,并不是所有自然现象都能够精确地用数表示出来。随着人类对自然界认识的深入,现实世界的复杂性和不确定性逐渐被发现和重视。总括前人的研究成果,现实世界的不确定性问题可归为现实世界客观存在的不确定性和人们主观认识上的不确定性两类。现实世界客观存在的不确定性最为典型的是随机性;人们主观认识上的不确定性有:由于定义不清造成的模糊性,灰色系统中的部分已知、部分未知的灰性,以及未确知性。其中,未确知性是指就客观事物本身来讲它是确定的,但对于决策者来说由于受决策条件限制而导致的认识不清,所掌握的证据不足以确定事物的真实状态和数量关系而带来的纯主观的、认识上的不确定性。上述两类不同的不确定性问题有不同的研究方法。GIS的不确定性问题也不能逃脱开这两种类型的不确定性,对它们的研究方法是GIS不确定性问题研究的基础。
2.3.1 客观世界存在的不确定性——随机性的研究方法
客观条件的不充分或偶然因素的干扰,使得几种确定性结果的出现呈现偶然性,在某次试验中不能预知哪一个结果发生,这种偶然性称为随机性,这种试验称为随机试验。荷兰著名天文学家、物理学家和数学家惠更斯在他1657年出版的著作《论机会游戏的计算》中就已提出随机性问题并对它进行了研究。但随机性问题真正为人类所重视,还要归功于前苏联数学家柯尔莫哥洛夫,他于1933年在其专著《概率论的基本概念》中首次提出并建立了在测度论基础上的概率论与公理化方法。
处理和解决随机性需要将概率论中的随机事件抽象为经典集合,根据集合的交、并、补、差等运算得出随机事件的积、和、对立、差等运算,从而求出各随机事件的概率并进而研究随机变量的分布、随机变量的数字特征以及大数定律和中心极限定理等重要问题。因此,随机性还是以经典集合为基础的,可以用概率论进行分析和解决。
对于随机试验,一般验前结果都是确定的,只是验后结果不能在验前确定,当试验结束后,结果也就确定了:“这类现象归纳起来可以看做在相同条件下对一系列试验的观察的结果不止一个,在每次试验或观察之前无法预知确切的结果,即呈现出不确定性”。这种不确定性表现为验后结果的“是”与“非”两个方面,或称为与客观标准的“同”与“非”两个方面。若用“1”表示“是”或“同”,用“0”表示“非”,则可用{0,1}表示信息的度量值域。用集合表示,即有:
设A为论域U的一个子集,则称
为集合A的特征函数。
对于随机不确定性的度量,除了用随机事件的概率大小来进行一般性度量外,采用熵对随机变量不确定性的尺度进行度量也是一种比较有效的手段。设随机变量A由有限个可能状态集构成,该集合为A1,A2,…,An,与之对应的概率分别为p1,p2,…,pn,则用值
作为对随机变量A的不确定性的度量。式(2-2)中的泛函称为随机变量A的熵,或称为分布{pi}的熵。可以证明,熵具有完全真实地度量随机变量不确定性的能力。
2.3.2 人们主观认识上的不确定性
人们对于现实世界主观认识上存在的不确定性主要有模糊性、灰性和未确知性,其主要的研究方法分别是模糊数学和粗糙集、灰色数学、未确知数学,下面分别进行介绍。
1. 模糊性的研究方法
1)模糊数学(Fuzzy Mathematics)
由于事物的复杂性,使其界限不分明,对其概念不能给出确定的描述,不能给出确定的评定标准,它向人们提供的宿信息称为模糊信息。例如,技术经济方案的优与劣、产品质量的好与坏等都是模糊概念。模糊概念是内涵确定而外延不确定的概念。
近代经典数学是建立在集合论基础之上的,一个元素要么属于一个集合要么不属于该集合,即非此即彼,经典逻辑中也只有真、假二值。但实际上大量模糊现象存在于真和假之间,它们可以部分属于一个子集,部分属于其补集,即存在亦此亦彼现象。因此,许多逻辑学家、数学家和哲学家长期以来致力于模糊概念的研究。早在1904年,谓词逻辑的创始人G.Frege就提出了“含糊(Vague)”一词,并将其归结到边界线区域,即在全域上存在一些个体既不能在其某个子集上被分类,也不能在该子集的补集上被分类。例如“高个子”这一概念,在人类全域的某个子集(如中国人)的集合上并不能被分类出究竟多高的人才属于“高个子”,在中国以外的其他国家的人的集合上同样也不能被分类出“高个子”的类聚,因此“高个子”是个模糊概念。
现实世界中存在大量的模糊现象,如不同种类土壤类型的边界问题就是典型的模糊现象,再如森林和草原的过渡带中森林和草原的边界划分问题,污染水域与未污染水域的边界划分问题等都属于模糊性问题,需要借助模糊数学进行相应的研究。
模糊数学是由美国控制论专家L.A.Zadeh于20世纪60年代提出的专门用于研究模糊现象的一门新兴数学分支。
模糊性是概念的外延不清晰,不能给出确定的评定标准。对某一事物,尽管我们不能说出它的明确程度,但可使用开区间(0,1)中的某个值表示事物的可信度。当A越来越接近于“1”时,表明“同”的程度越来越大;当A越来越靠近“0”时,表明“同”的程度越来越小,即“非”的程度越来越大。当A=1时,表明与人的认识无差异,即为“同”;当A=0时,表明与人的认识完全不同,即为“非”。在模糊集合中把“0”和“1”视为特殊信息归入其中,故模糊信息的值域为闭区间[0,1 ],表示“同”、“异”、“非”三层含意。用集合表示即有:
设在论域U上给定了一个映射:
则A称为U上的模糊集,A(μ)称为A的隶属函数(或称μ对A的隶属度)。定义了模糊集合后,将其可以推广应用到经典数学的函数、矩阵、逻辑、群论、图论、测度、概率、拓扑等方面,从而得出模糊函数、模糊矩阵、模糊逻辑、模糊群模图、模糊测度、模糊概率(模糊随机性)、模糊拓扑等分支,形成模糊数学体系,可以解决许多模糊性问题。
2)粗糙集(Rough Set)
粗糙集理论是由波兰数学家Z.Pawlak于1982年提出的,这一理论为处理具有模糊、不精确或不完全信息的分类问题提供了一种新的工具。其主要思想是在保持信息系统分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。目前,粗糙集理论已被应用于机器学习、模式识别、知识发现、数据挖掘、故障诊断、控制算法获取、过程控制等各种应用领域并取得了很大的成功。
模糊数学用隶属函数来描述模糊程度,但隶属函数的确定是个十分复杂的问题,往往很难获得所需的隶属函数。粗糙集是从另外一个角度来研究模糊概念的,用上近似集和下近似集表示模糊边界线区域。由于上近似集和下近似集可以通过等价关系给出确定的数学公式进行描述,因此模糊区域中的含糊数目可以被计算出来,也即在真、假二值之间的模糊程度可以计算。
粗糙集理论是一种处理模糊性和不确定性问题的新型数学工具,比起模糊数学来,该理论对于当今现代的计算机应用来说,无疑是最具挑战性的领域之一。自问世以来,粗糙集理论在理论和应用上都是一种新的、最重要的并且是迅速发展的既有理论又有应用的研究领域。它对于人工智能和认知科学也十分重要,尤其在机器学习、模式识别、知识获取、决策分析、数据库的知识发现、专家系统、决策支持系统、归纳推理、矛盾归结、模糊控制等方面都有广泛的应用。粗糙集理论一直得到模糊数学创始人Zadeh的重视,他对该理论给予高度评价,并把它列为其新提出的软计算的基础理论之一。
粗糙集概念在某种程度上与其他处理模糊性和不确定性问题的数学工具有相似之处,尤其是和Dempster-Shater(DS)证据理论相似。两者之间的主要区别在于:DS理论利用置信和似然推理函数作为主要工具;而粗糙集理论利用下近似集和上近似集作为计算的主要依据。
粗糙集理论自提出以来,其研究内容(理论的和应用上的)主要为两个方面:一是对粗糙集的理论研究,主要有粗糙集代数、粗糙集拓扑及性质、粗糙集推理以及处理近似推理的逻辑工具等,在这些研究中充分论述了粗糙集与模糊集、粗糙集与证据理论之间的关系,并建立了粗糙集与概率逻辑、粗糙集与模态逻辑等的统一框架;二是粗糙集理论的逻辑研究,发表了一系列的粗糙集逻辑方面的文章。
2. 灰性的研究方法
灰色概念是外延确定而内涵不确定的概念。灰性为不同于模糊性的另一类不确定性,它是部分已知、部分未知的。由于事物的复杂性,信道上各种噪声的干扰以及接收系统能力的限制,使得人类只能获得事物的部分信息或信息量的大致范围,而不能获得全部信息或确切信息。这种部分已知,部分未知的信息称为灰色信息。具有灰色信息的不确定性为灰性。例如,某人年龄在20~40岁之间,其范围已知,但内部具体信息未知。此类问题用经典集合无法解决和处理,但将经典集合推广为灰集合后就可以分析和处理上述问题。
灰色系统理论由我国学者邓聚龙在1982年所提出。灰色表示缺少、不完全、不确定等现象。灰色系统是控制论观点和方法的延伸,它从系统的角度出发研究信息间的关系,即研究如何利用已知信息去揭示未知信息,也就是系统的“白化问题”。例如,一个运行中的设备实际就是一个复杂的灰色系统。在这个系统中,有的信息能知道,有的信息不准确知道或不可能知道,故障诊断就是利用已知信息去认识含有不可知信息系统的特性、状态和发展趋势,并对未来作出预测和决策,实际上是一个灰色系统的白化过程。
在经典集合的特征函数表示法中,将特征函数拓宽为两个,分别称为上、下隶属函数。将值域{0,1}推广为[0,1],则可得出灰集合定义。
设U为论域,若∀u∈U存在(u),-A(u)∈[0,1],且- (u)<- (u),并有
则称 和 构成了U上的一个灰子集,-A和 分别称为U对于A的上、下隶属度。在灰集合的基础上,将其应用于经典数学中的函数、矩阵、群论、概率、拓扑等方面,则可以分别得出灰函数、灰矩阵、灰群、灰概率、灰拓扑等,形成灰色数学体系,可解决大量灰色不确定性问题。
3. 未确知性的研究方法
未确知性是由中国工程院院士王光远教授1990年在其发表的《未确知性信息及其数学处理》一文中提出的。未确知性是纯主观认识上的不确定性。它既无随机性又无模糊性,客观上是一种确定性事物,但决策者纯粹由于主观上对事物认识不清,该事物对决策者提供了一种不完整信息。
王光远教授所定义和研究的是“未确知信息”或“未确知量”。未确知的本意是:不管事物本身是确定的还是不确定的,但对于决策者来说,它是部分已知、部分未知,因此是未确知的。未确知量和灰量在性质上有很大的一致性,都知道一部分且都不全知。但二者又有重大区别,表现为:灰量的已知部分少于未确知量的已知部分,即就其数学表现来比较,未确知数比灰数增加了“确定”的含量。例如,只知道一个数落在区间[a,b]上,那么这是一个区间灰数,如果知道了一个数落在区间[a,b]上同时还知道它在该区间上的某种分布,这才是个未确知数。
我国学者吴和琴、刘开弟、王清印等在未确知性的研究方面做了大量工作,提出了基于未确知有理数的一套基本理论,初步建立了未确知数学的基本框架和体系。
若a≥0,a≤b≤1,则未确知数{[a,b],F(x)}称为非负且不大于1的未确知数,这样的未确知数的全体构成的集合记为:
若N为论域U上的一个未确知子集,是指N由一个隶属函数
所表达。隶属函数把U中的每个元素u和集合I[0,1]中的一个未确知数结合起来,μ(u)为u对于N的隶属度,未确知集合记为N或Nμ(N)。
由以上定义可知,U上的未确知集实质上是定义在U上且取值于I[0,1]中的函数,即由闭区间[0,1]的取值和未确知分布F(x)组成。因此,它除了具有“同,异,非”内涵之外,还有分布函数F(x)这一层含义。
2.3.3 盲数和盲信息
目前人们所认识的不确定性主要包括随机性、模糊性(包括粗糙性)、灰性(包括泛灰)和未确知性。以上介绍的各种数学工具分别对应于各种不确定性问题的处理。但由于现实世界的复杂性,各种不确定性信息往往不是单独存在的,常常是多种不确定性的混合体。例如,凡是有行为因素同时包含状态因素的任何体系中,不确定性问题至少存在两种以上的不确定性,因为行为因素必然导致未确知性,而状态因素将导致随机性、模糊性、灰性或兼而有之。
从信息的角度看,上述各种不确定性信息都是“单一”不确定性信息;而任意复杂的信息称为“信息混沌”,从信息混沌类中分离出一种最多同时具有随机信息、模糊信息、灰信息和未确知信息的较为复杂的信息称为盲信息,并用盲数进行表达和处理。
设R为实数集合,-为未确知有理数集,g(I)为区间型灰数集。设ai∈g(I),αi∈[0,1],i=1,2,…,n,f(x)为定义在g(I)上的灰数集,且
若当i≠j 时,ai≠aj,且,则称函数f(x)为一个盲数。称αi 为f(x)为ai值的可信度,称α为f(x)的总可信度,称n为f(x)的阶数。对真盲数,ai用区间表示。
由盲数的定义,未确知有理数可以看做盲数的特例。真盲数所包含的信息至少含有两种不确定性,因此可借助盲数研究盲信息的数学表达和数学处理。对盲数的运算可采用类似于未确知有理数的运算方法。通过盲数的运算,可以得到盲数组合后的所有可能取值区间和取值可信度之间的对应关系。用UM模型和BM模型可求算盲数的可信度,供决策者从不同的角度进行分析。
综上所述,对于现实世界中的各种不确定性问题,由于其概念和含义不同,其研究也用不同的数学方法。王清印等总结了各种不确定性问题,并提出了不确定性系统科学的理论框架。他认为不确定性系统科学应该由5个部分组成,如图2-8所示。
图2-8 不确定性系统组成
A级是不确定性系统科学的研究对象——不确定性系统,它包括4个子系统:随机系统,模糊系统,灰色系统和未确知系统。B级是关于不确定性系统科学一般性理论,它不是关于某种特殊的不确定性系统的理论,而是适于各种不确定性系统的普遍原理,把各种不确定性系统的共性和异性抽象出来形成理论的客体。它包括4个子客体:随机系统理论,模糊系统理论,灰色系统理论和未确知系统理论。C级是关于不确定性信息共性理论,是不确定性系统科学的核心。D级是不确定性系统科学的基础,因为没有相应的数学理论和方法,就不能合理地处理不确定性信息进而解决系统问题,就不能实现计算机模拟。这里要强调的是,不仅要注重4种不确定性数学分支的发展问题,更要注意综合处理各种不确定性信息的不确定性数学的建立和发展问题。E级是理论与实践相结合的一级,因为凡有人参与的系统皆为不确定性系统(特别是经济系统)。