開啟主選單

求真百科

相似性( similarity ),指兩個圖形的形狀完全相似。若存在兩個,其中一個能透過放大縮小平移旋轉等方式變成另一個,就說它們具有相似性。

相似性

相似性所屬現代詞,指的是複雜系統總體部分,這部分與那部分之間的精細結構性質所具有的。

目錄

自相似性

分形(英語:Fractal),又稱碎形,通常被定義為"一個粗糙或零碎的幾何形狀,可以分成數個部分,且每一部分都(至少近似地)是整體縮小後的形狀",即具有自相似的性質。分形思想的根源可以追溯到公元17世紀,而對分形使用嚴格的數學處理則始於一個世紀後卡爾·魏爾施特拉斯、格奧爾格·康托爾和費利克斯·豪斯多夫對連續而不可微函數的研究。但是分形(fractal)一詞直到1975年才由本華·曼德博創造出,來自拉丁文frāctus,有"零碎"、"破裂"之意。一個數學意義上分形的生成是基於一個不斷迭代的方程式,即一種基於遞歸的反饋系統。分形有幾種類型,可以分別依據表現出的精確自相似性、半自相似性和統計自相似性來定義。雖然分形是一個數學構造,它們同樣可以在自然界中被找到,這使得它們被劃入藝術作品的範疇。分形在醫學、土力學、地震學和技術分析中都有應用。

分形也可以依據其自相似來分類,有如下三種:[1]

精確自相似:這是最強的一種自相似,分形在任一尺度下都顯得一樣。由迭代函數系統定義出的分形通常會展現出精確自相似來。

半自相似:這是一種較松的自相似,分形在不同尺度下會顯得大略(但非精確)相同。半自相似分形包含有整個分形扭曲及退化形式的縮小尺寸。由遞推關係式定義出的分形通常會是半自相似,但不會是精確自相似。

統計自相似:這是最弱的一種自相似,這種分形在不同尺度下都能保有固定的數值或統計測度。大多數對"分形"合理的定義自然會導致某一類型的統計自相似(分形維數本身即是個在不同尺度下都保持固定的數值測度)。隨機分形是統計自相似,但非精確及半自相似的分形的一個例子。[2]

結構相似性

結構相似性指標(英文:structural similarityindex,SSIMindex)是一種用以衡量兩張數位影像相似程度的指標。當兩張影像其中一張為無失真影像,另一張為失真後的影像,二者的結構相似性可以看成是失真影像的影像品質衡量指標。相較於傳統所使用的影像品質衡量指標,像是峰值信噪比(英文:PSNR),結構相似性在影像品質的衡量上更能符合人眼對影像品質的判斷。

化學相似性

化學相似性(或稱為分子相似性)是指二個元素、分子或化合物在結構上的相似程度,或是在參與化學反應時效果的相似程度。若是探討在生物上的效應及其相似程度,一般會使用化合物的生物活性(biological activity),否則會使用化合物的活性度來衡量參與化學反應時的效果。

化學相似性(或分子相似性)的概念是化學信息學中(chemoinformatics)最重要的主題之一。在化合物性質預測或設計特定性質化合物的現代研究中,化學相似性都有重要的作用。而有些藥物設計研究會利用大型化學品數據庫進行篩選,也和化學相似性有關。上述研究的基礎是Johnson和Maggiora的相似性質定律:"相似的化合物會有相似的性質"。

餘弦相似性

餘弦相似性通過測量兩個向量內積空間的夾角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1,而其他任何角度的餘弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的餘弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,餘弦相似度的值為1;兩個向量夾角為90°時,餘弦相似度的值為0;兩個向量指向完全相反的方向時,餘弦相似度的值為-1。在比較過程中,向量的規模大小不予考慮,僅僅考慮到向量的指向方向。餘弦相似度通常用於兩個向量的夾角小於90°之內,因此餘弦相似度的值為0到1之間。

值得注意的是餘弦相似度可以用在任何維度的向量比較中,它尤其在高維正空間中的利用尤為頻繁。例如在信息檢索中,每個詞條擁有不同的度,一個文檔是由一個由有權值的特徵向量表示的,權值的計算取決於詞條在該文檔中出現的頻率。餘弦相似度因此可以給出兩篇文檔其主題方面的相似度。

另外,它通常用於文本挖掘中的文件比較。此外,在數據挖掘領域中,用它來衡量集群內部的凝聚力。

遺傳相似性

學界常用某特定物種的DNA序列共享人類序列的百分比來表示相似性。該數字顯示了兩物種之間鹼基對相同的百分比。這裡所列的是相對於人類的遺傳相似性,並列出了數據來源。

這些數據來源於不同的二級數據源,並用不同的方法獲得(例如DNA-DNA雜交或序列比對),這可能導致相同物種間的比較得到不同的結果。因此,這些數據應該僅僅用作大致相似性。

物種 相似性 數據來源 人類 99.9% 引自2000年1月,美國總統克林頓國會演講; 同時參見人類基因組計劃 100% 同卵雙生 黑猩猩 98.4% 醫學發展美國人聯會(AMP); Jon Entine in the San Francisco Examiner 98.7% Celera基因組中心Richard Mural, quoted onMSNBC

大猩猩 98.38% 基於物種間非重複DNA的研究,發表在Am J Hum Genet. (2001) Feb;682:444-56上 小鼠 98% 醫學發展美國人聯會(AMP) 85% 比較所有的蛋白編碼序列,NHGRI 狗 95% 秀麗隱杆線蟲 74% 香蕉 50% 醫學發展美國人聯會(AMP) 水仙花 35%

參考來源