非监督分类查看源代码讨论查看历史

来自孔夫子旧书网的图片

非监督分类是中国的一个科技名词。

语言一发即逝，不留痕迹。当人类意识到需要把说出的话记下来时，就发明了文字^[1]。在世界范围内，曾经独立形成的古老文字除我们的汉字外，还有埃及的圣书字、两河流域的楔形文字、古印度的印章文字以及中美洲的玛雅文^[2]。后来，这些古老文字的命运各不相同，或因某种历史原因而消亡，如玛雅文；或因文字的根本变革而遭废弃，如楔形文、圣书字，只汉字沿用至今，而且古今传承的脉络清晰可见，成了中华民族文化的良好载体。

名词解释

非监督分类是指人们事先对分类过程不施加任何的先验知识，而仅凭数据（遥感影像地物的光谱特征的分布规律），即自然聚类的特性，进行“盲目”的分类；其分类的结果只是对不同类别达到了区分，但并不能确定类别的属性，亦即：非监督分类只能把样本区分为若干类别，而不能给出样本的描述；其类别的属性是通过分类结束后目视判读或实地调查确定的。非监督分类也称聚类分析。一般的聚类算法是先选择若干个模式点作为聚类的中心。每一中心代表一个类别，按照某种相似性度量方法（如最小距离方法）将各模式归于各聚类中心所代表的类别，形成初始分类。然后由聚类准则判断初始分类是否合理，如果不合理就修改分类，如此反复迭代运算，直到合理为止。与监督法的先学习后分类不同，非监督法是边学习边分类，通过学习找到相同的类别，然后将该类与其它类区分开，但是非监督法与监督法都是以图像的灰度为基础。通过统计计算一些特征参数，如均值，协方差等进行分类的。所以也有一些共性。

与监督分类的区别

有监督必须有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律；非监督没有训练集，只有一组数据，在该组数据集内寻找规律。

有监督方法的目的是识别事物，识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号样本组成；非监督方法只有分析数据集本身，无标号。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不以与某种预先的分类标号为目的。

分类方法

（一）波普图形识别分类

（二）聚类分析

动态聚类。聚类的方法主要有基于最邻近规则的试探法、K-means均值算法、迭代自组织的数据分析法（ISODATA）等。

模糊聚类法。模糊分类根据是否需要先验知识也可以分为监督分类和非监督分类.。

系统聚类。这种方法是将影像中每个像元各自看作一类，计算各类间均值的相关系数矩阵，从中选择最相关的两类进行合并形成新类，并重新计算各新类间的相关系数矩阵，再将最相关的两类合并，这样继续下去，按照逐步结合的方法进行类与类之间的合并，直到各个新类间的相关系数小于某个给定的阈值为止。

分裂法。又称等混合距离分类法，它与系统聚类的方法相反，在开始时将所有像元看成一类，求出各变量的均值和均方差，按照一定公式计算分裂后两类的中心，再算出各像元到这两类中心的聚类，将像元归并到距离最近的那一类去，形成两个新类. 然后再对各个新类进行分类，只要有一个波段的均方差大于规定的阈值，新类就要分裂。

聚类中心的选取

它首先要确定基准类别的参量,再由集群的参数来调整预制的参量,再聚类调整,直到有关参数达到允许的范围。其中,初始聚类中心的确定是一个重要的问题,对分类过程和分类结果均有重要影响,较好的初始聚类中心方法既能提高分类的效率又能提高分类的精度。现有的确定初始聚类中心的方法主要有以下几种:任意的选取K个样本作为初始聚类中心;凭经验选取有代表性的点作为初始聚类中心;用密度法选取代表点作为初始聚类中心;最大最小距离选心法;基于均值标准差定心法。

参考文献

↑ 汉语是什么语言，其本质是什么？，搜狐，2020-10-19
↑ 精美绝伦的艺术玛雅文字，搜狐，2021-12-26

[1] 汉语是什么语言，其本质是什么？，搜狐，2020-10-19

[2] 精美绝伦的艺术玛雅文字，搜狐，2021-12-26

[1]

[2]

非监督分类查看源代码讨论查看历史

目录

名词解释

参考文献