要素的属性及位置是 GIS 数据的固有信息。此信息将用于创建视觉上可进行分析的地图。统计分析有助于从 GIS 数据中提取只靠查看地图无法直接获得的额外信息,例如各属性值如何分配,数据中是否存在空间趋势或者要素是否能够形成空间模式。与提供单个要素信息的查询功能不同(如识别或选择),统计分析可整体显示一组要素的特征。
本中介绍的一些统计分析方法最适合于可在特定的流动环境中选择和显示数据的交互式应用程序,例如 ArcMap。此处描述的一些方法均可在 ArcMap 的各个菜单和工具条中找到,但是却没有对应的地理处理工具。其他方法(如空间统计工具)只能使用地理处理工具来实施。
统计分析的使用:
统计分析常用来探索数据,例如,检查特定属性值的分布或者查找异常值(极高值或极低值)。此类信息非常适用于在地图上定义类和范围、对数据进行重分类或查找数据错误。 在下例中,该地区老年人分布情况的统计数据已按照人口普查区域进行计算(各区域中年龄在 65 岁及以上人口所占的百分比),其中包括平均值和标准差以及一个显示值分布情况的直方图。大部分普查区域的老年人所占百分比低于平均值,但少量普查区域的老年人百分比却相当高。 统计分析的另一个用途是汇总数据。通常按照类别进行汇总,如分别计算每种土地利用类别的总面积。也可以创建空间汇总,如计算每个分水岭的平均高程。汇总数据将有助于更好的了解某研究区域的情况。 在下例中将计算每种土地列用类别的汇总统计数据,以便显示该类中宗地的数量、最小和最大宗地的大小、平均宗地大小以及该类的总面积。 统计分析也可用于识别和确认空间模式,如一组要素的中心、方向趋势或者要素是否会聚集在一起。虽然在地图中,模式非常清晰,但试图通过地图得出结论仍然非常困难,因为对数据进行分类和符号化的方式将使模式变得模糊不清或过分夸大。统计功能可对基础数据进行分析然后给出用以确认模式的存在和强度的测量值。 下面一个有关分析的示例显示出一系列盗窃活动的平均中心以及一组驼鹿出现位置的标准差椭圆(显示出方向趋势)。 下面一个有关分析的示例显示出老年人口在统计数据上显著多(橙色)或少(蓝色)的人口普查区域聚类。统计分析的类型:
ARCGIS Desktop 中的统计分析功能不是属于非空间分析(图表)就是属于空间分析(含有位置)。
非空间统计数据用于分析与要素相关的属性值。这些值可从图层的要素属性表中直接访问。非空间统计的示例包括平均值和标准差。
在本例中,使用汇总统计数据工具为一组人口普查区域计算出各自闲置宗地的数量,包括这些数量的总值、平均值和标准差。
分析非空间数据的另外一种途径是利用图表,如直方图或 Q-Q 图。在任何情况下都只对值进行分析。不考虑与值关联的要素的位置以及这些要素之间的任何空间关系。
在本例中,直方图可显示出闲置宗地的分布(x 轴方向表示闲置宗地的数量,而 y 轴方向则表示各个范围内区域的数量)。
正态 Q-Q 图可评估一组值的分布与标准正态分布(在直方图中显示为典型的钟形曲线)之间的相似性。正态 Q-Q 图中的线可显示出形成正态分布的预期值:值与线越接近,则越接近正态分布。在本例中,一组土壤样本中磷元素的浓度接近于正态分布。
正态 QQ 图工具是 Geostatistical Analyst 扩展模块提供的数据探索工具之一。
另一方面,空间统计侧重于要素间的空间关系,即要素如何压缩或分散、它们是否朝向某一特定方向以及它们是否能够聚集在一起。空间关系通常定义为距离(要素相距多远),但也可定义为其他形式的要素间关系。
在下例中,标准距离工具(图中显示为一个圆圈)的输出通过每个野生动物踪迹距离这些踪迹计算中心的长度计算得出。
某些空间统计数据将同时考虑要素间的空间关系和要素相关属性的值。此类统计称为加权统计,即空间关系将受到加权值的影响。加权空间统计可确定值相似的要素是否同时出现,例如,测试分数同样高或低的的学校是否会聚集在一起。
在下例中,公园中心将按照每个公园的游客数量进行加权(以绿色圆圈的大小表示)。
统计功能也可按照描述统计和推论统计进行划分。描述统计可汇总正在分析的值或要素的某些特征,如平均值、值的频数分布或一组要素的方向趋势。描述统计通常非常适于比较同一区域的两组要素。
下方示例将对同一组人口普查区域中老年人的分布(上图)与 5 岁以下儿童的分布(下图)进行比较。
在下例中,美洲印第安人数量和非洲裔美国人数量各自的标准距离圆圈显示出该地区中非洲裔美国人的人口分布更加紧凑。
推论统计将根据概率理论预测各值出现的可能性(通过一组已知的值)或评估数据中非偶然性出现某种模式或趋势的可能性。该功能是一种对于模式或关系的度量。然后便可对该度量值执行统计测试,以便确定它在某置信度水平是否具有显著性。如果统计分析显示出盗窃行为发生的区域聚在一起,则可运行测试以便找出这种聚集偶然发生的概率。例如,可能会发现非偶然性发生此类聚集的可能性为 90%,这指示各盗窃活动在某种程度上可能存在一些联系。由于关键是要确定概率,因此测试将比较现存要素的测量值以及预期获得的同一区域中相同数量要素的测量值,但却发现分布呈现出随机性。
在下例中,左侧地图显示的是老年人众多(橙色)或稀少(蓝色)的人口普查区域聚集,概率水平为 90%;右侧地图显示的是概率水平为 99% 的区域聚集。
统计分析功能:
ARCGIS Desktop 中的统计功能位于 ArcMap、ArcCatalog 和地理处理中,同时也存在于两个扩展模块中:Spatial Analyst 和 Geostatistical Analyst。
表统计数据:
可汇总单个字段值的一组核心描述性统计位于 ARCGIS Desktop 中的多处位置:ArcMap 中的表窗口、ArcCatalog 中的表预览选项卡和统计数据工具集(位于“分析”工具箱中)。
功能 | 位置 | 统计数据 | 输出 |
---|---|---|---|
统计分析菜单选项 | ArcMap 表窗口或 ArcCatalog 表预览选项卡 | 计数、最小值、最大值、总和、平均值、标准差、频数直方图 | 结果将显示在窗口中 |
汇总统计数据工具 | 分析工具箱/统计分析工具集 | 最小值、最大值、总和、平均值、标准差、范围、第一个、最后一个 | 结果将写入新表 |
功能 | 位置 | 统计数据 | 输出 |
---|---|---|---|
汇总菜单选项 | ArcMap 表窗口(右键单击字段名) | 最小值、最大值、平均值、总和、标准差、方差 | 结果将写入新表 |
频数工具 | 分析工具箱/统计分析工具集 | 计数、总和 | 结果将写入新表 |
Spatial Statistics:空间统计工具箱中包含用于分析一组要素的分布、分析模式和识别聚类的一些统计例程。
功能领域 | 工具集 | 工具 |
---|---|---|
地理分布测量 | 度量地理分布 | 平均中心、中心要素、标准距离、方向分布(标准差椭圆)、线性方向平均值 |
地理模式分析 | 分析模式 | 平均最近邻、空间自相关 (Moran's I)、高/低聚类 (Getis-Ord General G) |
地理聚类分析 | 聚类分布制图 | 聚类和异常值分析 (Anselin Local Moran's I)、热点分析 (Getis-Ord Gi*) |
回归分析 | 空间关系建模 | 普通最小二乘法、探索性回归、地理加权回归 |
栅格统计:Spatial Analyst 包括可用于分析栅格的若干统计功能,主要用来汇总属性值然后将汇总后的统计数据分配给新栅格图层中的像元。这些功能位于 Spatial Analyst 工具箱的几个不同的工具集中。
工具 | 位置 | 输入 | 输出 | 用途 |
---|---|---|---|---|
像元统计数据 | 局部工具集 | 多个栅格 | 栅格 | 根据多个输入为各像元计算各项指定的统计数据 |
焦点统计 | 邻域分析工具集 | 栅格 | 栅格 | 汇总栅格中位于每个像元格附近指定邻域内的值,然后将汇总后的值分配给输出栅格中对应的像元 |
点统计 | 邻域分析工具集 | 点要素 | 栅格 | 汇总指定邻域内点要素属性的值,然后将这些值分配给输出栅格中的像元 |
线统计 | 邻域分析工具集 | 线要素 | 栅格 | 汇总指定邻域内线要素属性的值,然后将这些值分配给输出栅格中的像元 |
分区统计 | 区域分析工具集 | 栅格或面要素 | 栅格或汇总表 | 按照输入栅格或面数据集的种类或类别(区域)汇总某栅格表面的各个值 |