非監督分類檢視原始碼討論檢視歷史

來自孔夫子舊書網的圖片

非監督分類是中國的一個科技名詞。

語言一發即逝，不留痕跡。當人類意識到需要把說出的話記下來時，就發明了文字^[1]。在世界範圍內，曾經獨立形成的古老文字除我們的漢字外，還有埃及的聖書字、兩河流域的楔形文字、古印度的印章文字以及中美洲的瑪雅文^[2]。後來，這些古老文字的命運各不相同，或因某種歷史原因而消亡，如瑪雅文；或因文字的根本變革而遭廢棄，如楔形文、聖書字，只漢字沿用至今，而且古今傳承的脈絡清晰可見，成了中華民族文化的良好載體。

名詞解釋

非監督分類是指人們事先對分類過程不施加任何的先驗知識，而僅憑數據（遙感影像地物的光譜特徵的分布規律），即自然聚類的特性，進行「盲目」的分類；其分類的結果只是對不同類別達到了區分，但並不能確定類別的屬性，亦即：非監督分類只能把樣本區分為若干類別，而不能給出樣本的描述；其類別的屬性是通過分類結束後目視判讀或實地調查確定的。非監督分類也稱聚類分析。一般的聚類算法是先選擇若干個模式點作為聚類的中心。每一中心代表一個類別，按照某種相似性度量方法（如最小距離方法）將各模式歸於各聚類中心所代表的類別，形成初始分類。然後由聚類準則判斷初始分類是否合理，如果不合理就修改分類，如此反覆迭代運算，直到合理為止。與監督法的先學習後分類不同，非監督法是邊學習邊分類，通過學習找到相同的類別，然後將該類與其它類區分開，但是非監督法與監督法都是以圖像的灰度為基礎。通過統計計算一些特徵參數，如均值，協方差等進行分類的。所以也有一些共性。

與監督分類的區別

有監督必須有訓練集與測試樣本。在訓練集中找規律，而對測試樣本使用這種規律；非監督沒有訓練集，只有一組數據，在該組數據集內尋找規律。

有監督方法的目的是識別事物，識別的結果表現在給待識別數據加上了標號。因此訓練樣本集必須由帶標號樣本組成；非監督方法只有分析數據集本身，無標號。如果發現數據集呈現某種聚集性，則可按自然的聚集性分類，但不以與某種預先的分類標號為目的。

分類方法

（一）波普圖形識別分類

（二）聚類分析

動態聚類。聚類的方法主要有基於最鄰近規則的試探法、K-means均值算法、迭代自組織的數據分析法（ISODATA）等。

模糊聚類法。模糊分類根據是否需要先驗知識也可以分為監督分類和非監督分類.。

系統聚類。這種方法是將影像中每個像元各自看作一類，計算各類間均值的相關係數矩陣，從中選擇最相關的兩類進行合併形成新類，並重新計算各新類間的相關係數矩陣，再將最相關的兩類合併，這樣繼續下去，按照逐步結合的方法進行類與類之間的合併，直到各個新類間的相關係數小於某個給定的閾值為止。

分裂法。又稱等混合距離分類法，它與系統聚類的方法相反，在開始時將所有像元看成一類，求出各變量的均值和均方差，按照一定公式計算分裂後兩類的中心，再算出各像元到這兩類中心的聚類，將像元歸併到距離最近的那一類去，形成兩個新類. 然後再對各個新類進行分類，只要有一個波段的均方差大於規定的閾值，新類就要分裂。

聚類中心的選取

它首先要確定基準類別的參量,再由集群的參數來調整預製的參量,再聚類調整,直到有關參數達到允許的範圍。其中,初始聚類中心的確定是一個重要的問題,對分類過程和分類結果均有重要影響,較好的初始聚類中心方法既能提高分類的效率又能提高分類的精度。現有的確定初始聚類中心的方法主要有以下幾種:任意的選取K個樣本作為初始聚類中心;憑經驗選取有代表性的點作為初始聚類中心;用密度法選取代表點作為初始聚類中心;最大最小距離選心法;基於均值標準差定心法。

參考文獻

↑ 漢語是什麼語言，其本質是什麼？，搜狐，2020-10-19
↑ 精美絕倫的藝術瑪雅文字，搜狐，2021-12-26

[1] 漢語是什麼語言，其本質是什麼？，搜狐，2020-10-19

[2] 精美絕倫的藝術瑪雅文字，搜狐，2021-12-26

[1]

[2]

非監督分類檢視原始碼討論檢視歷史

目錄

名詞解釋

參考文獻