集成系统支持下的信息提取

如题所述

(一)GIS支持下的遥感图像处理

GIS常常与遥感图像处理手段结合起来使用,更有效的增强与提取遥感信息。这主要表现在两个方面。

一方面是GIS作为重要的辅助手段用于遥感影像的目视解译,以提高解译精度。具体做法是将那些有助于图像解译的矢量专题图层(比如地质图、地形图、土地利用图及植被覆盖、水系发育等等)与待解译的影像叠加显示,前提是这些矢量图层必须先与影像进行过坐标配准,具有统一的坐标。这可以用于人机交互的影像解译,直接在屏幕上画出影像解译结果,还可用于在影像的监督分类前进行选取正确的训练样区以便提高分类精度。在这方面的应用中,同时还要注意这些专题图层与影像的时间差,比如植被覆盖与时相的相关性很大,另外如果时间相差较长,要充分考虑到一些客观条件上的变化,如土地利用类型、建筑物、道路等的变化。

GIS与遥感图像处理结合应用的另一方面表现在:在GIS技术支持下,地学及其他知识直接参与遥感图像的处理中,比如遥感图像的分类中可以将DEM、NDVI等知识直接作为遥感影像的新增波段,与其他波段一起进行分类,这样分类结果中就将反映出这些专题信息的分布。还比如专家系统的应用也是GIS与遥感技术结合应用的成果。

(二)GIS支持下的专题信息提取

1.遥感专题信息提取方法研究的发展

遥感专题信息提取(thematic information extraction)是从遥感影像资料中获取某种特定地物特征的信息,其目的是区别图像中所含的专题目标。分类也是一种专题信息提取的方法,但专题信息提取和一般意义上的遥感图像分类有所不同,先定目标,然后有意识地专门面向对象进行识别,而分类是就图像中即有的像元给予类别的归属与划分。它的方法随着遥感技术的改进及遥感应用的深入也在不断地改进,经历了目视解译、自动分类、光谱特性的信息提取及光谱与空间特征的信息提取等多个阶段。

目视解译是最初的图像识别方式。现在的图像识别沿着两个方向发展,一是由计算机的出现带来的信息识别自动化,二是沿着遥感信息传输的本质而探寻信息识别的高精度。它们没有严格的界限,随着各自的发展而相互渗透。现有的计算机自动分类方法,都只是利用了图像数据,没有自动加入其他方面,如地学的知识,没有充分利用人脑在分析图像时所应用的知识,因此不会达到很高的精度。基于知识及专家系统的分类对分类的精度有所改善。同样,专题信息提取的最初是分析特定目标的光谱特征,形成规则,对图像进行操作。计算机领域中人工智能的出现使基于知识或信息的专题信息提取成为可能。遥感成像是从多到少的映射,是个确定过程,影像解译是从少到多的映射,是个不确定过程。因此在遥感解译时,包含一个重要的地学处理过程,它包括两个方面,一是把遥感未带回的信息再补上去,即补充地学相关信息,二是根据影像信息进行地学分析,来推断出影像上未反映的信息,这都需要地学知识强有力的支持。如何把地学专家用于目视解译的知识定量化表达,让它来参与计算机处理,从根本上实现知识参与的自动提取,这是目前专题信息自动提取研究的焦点问题。

计算机自动分类前,先对训练区进行训练,实际上是一个统计的过程。这个统计过程只是就这幅图像而言。然后利用统计结果进行回归,建立一个基本适于该图像的类别确定模型。专题信息提取时,一般是先有一套遥感信息模型,而后根据具体图像的实际情况来不断地修改,实质是对模型参数的调整,最终使模型适用于该影像。遥感信息模型是在现有地面实验基础上提炼出来的地物的反演模型,而地物在卫星图像上的反映并非与地面实测数据一一对应,原因很多,使图像数据具有很大的随机性,这就又涉及到光谱辐射校正的问题。因此,需要把遥感信息理论和实际图幅影像有效地结合在一起来进行专题信息的提取。

2.遥感地质专题信息提取

当今,遥感卫星“群星闪烁”,遥感数据空前丰富,然而,遥感信息被利用的比率却极低。其原因是我们缺少遥感专题信息提取的方法和模型。相对与土地利用/土地覆盖遥感信息提取来说,遥感地质信息提取的难度更大些。概括地说,遥感信息提取的方式主要有3种:目视判读提取、基于分类的信息提取和基于知识发现的遥感信息提取。遥感地质专题信息提取的方式也不外乎这三种。

(1)目视判读提取

早期从遥感影像中提取信息的主要方法是目视判读提取。由于目视判读能综合利用地物的色调或色彩、形状、大小、阴影、纹理、图案、位置和布局等影像特征知识,以及有关地物的专家知识,并结合其他非遥感数据资料进行综合分析和逻辑推理,从而能达到较高的专题信息提取的精度,尤其是在提取具有较强纹理结构特征的地物时更是如此,它是目前业务化生产的一门技术,与非遥感的传统方法相比,具有明显的优势。尽管该方法较费工费时,但由于遥感地质信息计算机自动提取的难度,仍将在遥感地质信息提取中长期存在。

(2)基于分类方法的遥感信息自动提取

在遥感信息自动提取方面,分类方法的研究历史最长久,其核心是对遥感图像的分割,其方法有无监督分类和有监督分类。就无监督分类而言,有 K-MEANS 法、动态聚类型法、模糊聚类法以及人工神经网络法;在有监督分类方面,有最小距离法、最大拟然法、模糊分类法以及人工神经网络法。最大拟然法需要各类型的先验知识及其概率,特别是需要假定各类型的分布属于正态分布,因而它是一种有参数的分类器,在具有先验性概率知识以及各类型满足正态分布的条件下,它具有较好的分类效果,该分类器具有分类速度快的优点。模糊分类是根据模糊数学所构建的一种分类器。它是建立在假设一个像元是由多个类型所组成的基础上,只是各类型的隶属度不同。在对分类器训练时,需要确定训练样本像元中各类型的隶属度,它不需要各类型的先验概率知识,也不要求各类型服从正态分布,它是一种无参数的分类器。但是对训练像元中各类型隶属度的确定比较困难。该方法适用于亚像元信息的提取。人工神经网络分类器是利用人工神经网络技术所构造的分类器,人工神经网络是近几年得到迅速发展的一门非线性科学,它是模拟生物神经网络的人工智能技术,已广泛地用于趋势分析和模式识别以及遥感图像的分类等方面。人工神经网络器不需要各类型的先验性概率知识,也不要求各类型一定要服从正态分布,它是一种无参数的分类器。尽管利用分类器进行分类时所需要的时间很短,但是在对分类器进行训练时,所需要的时间却很长。

就无监督分类而言,其所分的结果,需要专家进行判读和类别的归并,并最终确定其所属的类型。就有监督分类而言,需要选取大量的训练样区,而训练样区的选取不仅费工、费时,训练样区选择的好坏还直接影响分类的效果;同时,分类是对整个图像进行分割,它所要求的是总体的精度最高,这样就不可能完全保证我们所需专题信息的精度一定最高。分类是建立在数理统计基础之上,而没有建立在对遥感信息机理分析的基础上,也没有建立在知识挖掘的基础上,这样就使得它难以实现遥感图像专题信息提取的全自动化。同时,基于光谱特征的分类难以解决异物同谱的问题。在分类中所获取到的知识通常既不可传递,也难以解释。这也是我们对所分结果知其然,而不知其所以然的原因。我们对在任何时候,任何地点的图像,都必须重复选取训练样区的工作。这样,显然就大大限制了遥感信息提取的自动化。为此,基于知识发现的遥感专题信息提取将成为另一个最有前途的方向。

3.基于知识发现的遥感专题信息提取

基于知识发现的遥感专题信息提取是遥感专题信息提取的发展趋势之所在。其基本内容包括知识的发现、应用知识建立提取模型,利用遥感数据和模型提取遥感专题信息。在知识发现方面包括从单期遥感图像上发现有关地物的光谱特征知识、空间结构与形态知识、地物之间的空间关系知识。其中,空间结构与形态知识包括地物的空间纹理知识、形状知识以及地物边缘形状特征知识;从多期遥感图像中,除了可以发现以上知识外,还可以进一步发现地物的动态变化过程知识;从GIS数据库中可以发现各种相关知识。在利用知识建立模型方面,主要是利用所发现的某种知识、某些知识或所有知识建立相应的遥感专题信息提取模型,如图3-8所示。在利用遥感数据和模型提取遥感专题信息时,应从简单到复杂,从单知识、单模型的应用到多知识、多模型的集成应用。从单数据的使用到多数据的综合使用。

4.基于光谱知识的遥感专题信息提取

地物的光谱知识是遥感专题信息提取中最重要的知识。对地物光谱特征的研究,长期以来都得到各国的高度重视。我国对地物光谱开展了深入的研究,并出版了《中国典型地物波谱及其特征分析》《遥感反射光谱测试与应用研究》等书。周成虎、杜云艳根据对水体光谱特征的分析,建立了有效的NOAA AVHRR水体提取模型。陈铭臻根据对水稻和背景的光谱特征分析,建立了水稻种植面积的提取模型(TM4/TM1,TM4/TM3,TM4/TM2)。Helmut Mayer Carsten Steger通过对道路光谱知识的分析,探讨了从遥感图像上提取道路的方法,Jinfei Wang,Paul M.Treitz和Philip J.Howarth探讨了利用梯度方向剖面分析法从SPOT PAN图像中提取新修道路,并将其用于更新城区GIS数据库中的道路网。V.Lacroix,M.Acheroy利用了约束梯度法提取了房屋拐角。

R.M.Haralick,S.Wang,G.Shapiro,J.B.Campbell,探讨了利用一致性标记技术提取河网及其流向。Moller-Jenson提出利用NOAA AVHRR的 CH4<45,CH5<35 建立水体提取模型。Jupp等曾提出利用 TM7波段,通过阈值法可以将水体提取出来。

图3-8 基于知识发现的遥感专题信息提取模型

发现光谱知识的方法有典型采样法、光谱曲线法和光谱剖面线法。下面还以新疆瓦石峡地区的美国陆地卫星遥感影像为例,影像大小为512×512 像元,主要典型地物有裸露岩石、雪、阴影等。为了利用这些地物的光谱知识,首先对这几种典型地物进行了光谱采样,光谱采样结果见图3-9。从中可以发现这几种地物具有明显的光谱差。

我们通过对比可以发现,岩石裸露区、冰雪覆盖区及山体阴影的光谱特征明显不同:

(1)总体上看,岩石裸露区的反射率较高,阴影的反射率较低,雪盖区位于中间岩石裸露区在TM1、TM2、TM3、TM4波段上比雪盖区稍高或相近,但在TM5、TM7波段上远高于雪盖区。

(2)雪盖区在 TM1、TM2、TM3、TM4 波段上较阴影为高,在 TM5、TM7 波段上与阴影相近或稍高。

图3-9 瓦石峡地区典型地物光谱采样曲线

(3)岩石裸露区在TM1~TM7波段上都远高于阴影区。

(4)从谱间关系上看,阴影区的反射率从TM1到TM7有逐渐降低的趋势,即TM1>TM2>TM3>TM4>TM5>TM6>TM7。从谱间关系上看,岩石裸露区在TM4上是峰值,即TM3<TM4,TM4>TM5;雪盖区的谱间关系也很明显,即由TM4到TM5有一个明显的下降趋势。

通过以上波谱分析,分别对裸露岩石、雪、阴影建立基于光谱知识的提取模型:

雪:

1∶25万遥感地质填图方法和技术

阴影:

1∶25万遥感地质填图方法和技术

岩石:

1∶25万遥感地质填图方法和技术

按照上述模型可提取出雪、阴影和裸露岩石。

基于光谱知识的专题信息提取,需要地物与背景之间在光谱上是可分的,与背景之间存在着较少的同谱现象,并且地物内部的光谱最好要一致。当地物内部光谱不一致时,可以借助于地物内部的特征成分光谱进行提取。当地物内部成分的光谱与背景之间存在着较多同谱现象时,得借助于地物的其他知识进行提取。

5.基于地物纹理知识的专题信息提取

当地物组成复杂,且大于传感器的空间分辨率时,就可能遥感到地物的结构和组成。其影像就存在着明显的纹理特征。当存在着有别于背景地物的纹理结构特征时,当只靠基于光谱特征知识的提取难以完全解决专题信息的提取问题时,就必须将地物的光谱知识与纹理知识一起用来提取专题信息。纹理是指灰度值在空间上的变化,它是由一些纹理基元按照不同的空间配置形式所构成的一种图案。纹理基元的空间配置可以是随机的、确定的、概率的和函数的。纹理可分为结构性纹理和非结构性纹理,非结构性纹理又叫随机纹理。在目视判读中,纹理一般用粗细度、平滑性、颗粒性、随机性、方向性、直线性、周期性、重复性等术语来描述和表达。在通过纹理识别地物时,需要将某专题的纹理特征与周围地物的纹理特征进行比较分析。在ERDAS IMAGINE中主要有4种纹理识别的算法:平均欧氏距法(一阶)、方差法(二阶)、斜度(三阶)和峰度(四阶)。它们的计算方法如下:

(1)平均欧氏距法(一阶)

1∶25万遥感地质填图方法和技术

式中:xijλ——多波段图像λ波段(i,j)像元的数字值;

x——活动窗口中心像元的λ波段数字值;

n——窗口中的像元数。

(2)方差法(二阶)

1∶25万遥感地质填图方法和技术

式中:xij——像元(i,j)的数字值;

n——活动窗口的像元数;

M——活动窗口的平均值。

(3)斜度(三阶)

1∶25万遥感地质填图方法和技术

式中:xij——像元(i,j)的数字值;

n——活动窗口的像元数;

M——活动窗口的平均值;

V——方差。

(4)峰度(四阶)

1∶25万遥感地质填图方法和技术

式中:xij——像元(i,j)的数字值;

n——活动窗口的像元数;

M——活动窗口的平均值;

V——方差。

另外,常见的纹理探测方法还有共生矩阵法。

本项目主要利用ERDAS IMAGEINE软件二阶方差法来计算影像的纹理特征。计算时采用的移动窗口,为5×5。从新疆瓦石峡地区TM影像的纹理图中可以发现,岩石裸露区纹理指数(二阶方差)较高,图像中显得较亮,而非岩石裸露区纹理指数较低,图像较暗。采用合适的阈值,提取岩石裸露区,可以发现结果大体符合实际情况。

6.基于地物形状知识的专题信息提取

有时,地物与背景之间,不仅在光谱特征上相同或相近,而且在纹理特征上也比较相似。在这种情况下,就得依据地物的形状知识进行深一步的提取。对于地质岩性来说,不同的岩性常常具有不同的空间特征:

(1)侵入岩

侵入岩一般具有比较规则的平面几何形态,如:圆、椭圆、透镜状、脉状等,多数缺少层理影像特征。出露规模较大的侵入岩在图像上常具有环状、放射状等类型的水系、节理或岩脉群。

(2)沉积岩

平面形态为条状或带状,具有明显的层理影像特征。一组有序分布的沉积岩常构成颜色各异的层状影像特征。

(3)变质岩

变质岩的影像特征一般与原岩组分及变质过程新物质的加入和结构的变化有关。如果它是正变质岩,影像特征类似岩浆岩;如果它是负变质岩,其影像特征则与沉积岩的影像特征相类似。

发现地物的形态知识的方法有基于周长和面积的方法、基于面积的方法以及基于面积和区域长度的方法。

基于周长和面积的方法

形状指数

1∶25万遥感地质填图方法和技术

对于圆形而言,k大于0.25,对于正方形而言,k等于0.25,对于长方形而言,k小于0.25。线形地物如道路、机场和河流,其k值很小。对于非规则物体而言,其形状越复杂,其k越小。

圆度:

1∶25万遥感地质填图方法和技术

紧凑度:

1∶25万遥感地质填图方法和技术

瘦度率:

1∶25万遥感地质填图方法和技术

基于面积的测度

紧凑度指数:

1∶25万遥感地质填图方法和技术

1∶25万遥感地质填图方法和技术

基于面积和区域长度

形状率

1∶25万遥感地质填图方法和技术

椭圆指数

1∶25万遥感地质填图方法和技术

以上所有式中:

A——物体的面积;

AC——最小外切圆面积;

P——地物周长;

L——长轴长度。

形状知识,可用于地物的定位或定性提取。在用于定位定性提取时,首先,增强地物之间的边界,提取出边界;然后,进行形状指数的测定,从而达到定性定位提取。在用于定性提取时,主要是对所提取的专题信息再进一步肯定其属性。

(三)GIS支持下的多源信息综合分析

在遥感地质专题信息提取中,除了利用遥感数据外,一般还要利用大量的相关数据,如地质图件,物、化探数据等等。在对这些数据的利用方面,有两个步骤:第一步,需要挖掘知识;第二步,将这些知识用来将图形数据与遥感影像联系起来,以支持专题信息的提取。这些知识是一些正相关知识和反相关知识。对这两种知识而言都还可以进一步分为确定性知识和概率性知识。

21世纪卫星遥感将以多光谱、多时相、多分辨率、多传感器以及全天候为地学研究提供对地观测数据,促进遥感应用更广泛、更深入。然而,纵观过去的二三十年,地学思维引导着遥感技术的发展方向;而同时遥感应用的水平却滞后于空间遥感技术的发展。突出表现在:卫星发回的遥感数据未能得到充分利用,而信息提取水平的滞后使遥感数据中隐藏着的丰富知识远远没有得到充分的发掘与利用,造成了遥感信息资源的巨大浪费及其应用价值的降低。因此,信息提取的能力与效率将成为未来遥感应用面临的突出问题之一。

出现于20世纪80年代末并在近年来得到迅速发展的数据开采(Data Mining——DM)与知识发现(Knowledge Discovery from Database——KDD)的技术理论是人工智能、机器学习与数据库技术相结合的产物。它区别于简单地从数据库管理系统检索和查询信息,而强调“从数据库中发现隐含的、先前不知道的潜在有用的信息”、“从数据中鉴别出高效模式的非平凡过程。该模式是新的、可能有用的和最终可理解的”,其目的是把大量的原始数据转换成有价值的知识。而这正是目前以及未来卫星遥感信息处理的瓶颈问题。借鉴数据开采与知识发现的理论和技术将有助于解决遥感数据急剧增长与人们对数据处理和理解困难之间的矛盾。

1.空间数据挖掘与知识发现

KDD和DM技术的产生与发展是基于这样一个事实:一方面,数据和数据库急剧膨胀;另一方面,现今数据库的应用仍然停留在查询、检索阶段,数据库中隐藏着的丰富知识远远没有得到充分的发掘和利用。数据库的海量增加与人们对数据库处理和理解困难之间形成了强烈的反差。KDD这个术语首先出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,1991年、1993年和1994年又接着继续举行KDD专题讨论会。随着参加会议人数的增多,从1995年开始,每年都要举办一次KDD国际会议。除了理论研究外,也出现了相当数量的KDD产品和应用系统,并在实际应用中获得了一定的成功。

按照 Fayyad等的定义,KDD 是“从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。KDD 的一般过程(图 3-10)包括数据准备(data preparation)、数据挖掘(data mining),以及结果的解释评估(interpretation and evaluation)。

图3-10 KDD过程示意图

数据准备包括数据选取(data selection)、数据预处理(data preprocessing)和数据变换(data transformation)。数据选取的目的是确定发现任务的操作对象,即目标数据(target data),它是根据用户的需要从原始数据库中抽取的一组数据。数据预处理的目的是去除噪声等。当数据挖掘的对象是数据仓库时,一般来说,数据选取和数据预处理已在生成数据仓库时完成。数据变换的主要目的是消减数据维数或降维(dimension reduction),即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

数据挖掘阶段首先要确定挖掘的任务或目的是什么,考虑决定使用什么样的挖掘算法。同样的任务可以用不同的算法来实现,选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,如准确性与可理解性之间的偏好等。

2.数据挖掘与知识发现的主要类型和方法

一般统计数据库的数据挖掘出现得最早,也最为成熟。一般而言,数据挖掘和知识发现可分为如下几种类型(Fayyad,1997):

(1)分类:将数据项映射到一个或若干已定义的类的学习函数。

(2)回归:将数据项映射到实值预报变量的学习函数。

(3)聚类:寻找有限的类别来描述数据集的方法。

(4)概括(或称泛化):寻找描述各数据子集共性的方法。

(5)依赖模式:寻找描述变量间显著依赖关系的模式。

(6)变化和偏离检测:从与以前数据对比中发现显著变化。

目前在数据挖掘和知识发现的研究中出现了大量的新方法及各种方法的结合,其中比较著名的方法有如下几种:

(1)基于决策树(decision tree)分类的ID3和C4.5方法。

(2)用于概括的AQ15和CN2方法。

(3)解决不精确、不确定知识的粗糙集(Rough Set)方法。

(4)大量人工神经网络方法,如经典的反向传播[BP]算法,自组织映射(SOM)和自适应谐振理论(ART)等。

(5)贝叶斯概率网络学习方法。

(6)用于产生关联规则的Apriori的方法。

作为目前国外的热门研究课题之一,数据开采和知识发现既是人工智能学者的研究热点,也是数据库专家的探索对象,其工作涵盖了医学、机器学习、人工智能、数学、市场营销等诸多领域。获得了许多有用的知识。迄今为止,国内从事这方面研究的单位还不多,把KDD和DM技术应用于卫星遥感的信息处理,更是一项崭新的课题。

3.遥感影像中的数据挖掘与知识发现

卫星遥感数据库作为数据库的一种,对于赋存其中的信息的处理与识别,自然可以借鉴一般意义上的DM和KDD技术;而作为一类特殊的数据库——图像数据库,有着区别于一般关系数据库和事务数据库的信息内容,隐含着丰富的时间、光谱和空间信息。因而,就这类库中的知识发现而言,数据开采也应具有特殊的过程和方法。

根据上述DM和 KDD 的技术流程示意图(图 3-11)并考虑到卫星遥感数据特殊性,中科院的何国金等人提出了针对地质应用的卫星遥感数据开采和知识发现的理论与技术框架。在此框架中,数据开采占了极为重要的地位。它包括遥感数据的时相选择、应用预处理、特征分析、信息识别与知识解释。现实生活中,许多遥感应用者忽略了该过程的特殊作用,直接把原始遥感图像的解释结果作为应用的基础(虽然在解译过程中也加入了人的知识),因而获得的知识往往是肤浅的、表面化的、不精确的。遥感数据开采过程只有充分考虑原始数据的波谱、空间和时间特征,才能更好地实现针对遥感应用的有价值的、较精确的、较高水平的知识发现。

图3-11 卫星数据遥感挖掘和知识发现

温馨提示:答案为网友推荐,仅供参考