欧美性爱专区,美女性爱xx91,91久久综合精品国产丝袜蜜芽,18不禁激情视频

南京市雨花臺(tái)區(qū)鳳集大道15號(hào)

K-means聚類算法如何應(yīng)對(duì)數(shù)據(jù)的噪音和離散特征處理的問題?


不請(qǐng)自來:) 先回答你的問題,再順道談?wù)勔訩-means為原型的幾種針對(duì)不同數(shù)據(jù)類型的聚類算法。

問題一:該算法要求訓(xùn)練數(shù)據(jù)中都是正向數(shù)據(jù),如果訓(xùn)練數(shù)據(jù)中包含了異常數(shù)據(jù),會(huì)導(dǎo)致閾值的值過大,從而異常測(cè)試數(shù)據(jù)進(jìn)來時(shí)可能會(huì)漏報(bào)。

現(xiàn)實(shí)中我們很難保證訓(xùn)練數(shù)據(jù)中沒有異常數(shù)據(jù),那在訓(xùn)練過程中有沒有什么方法可以減少異常數(shù)據(jù)對(duì)訓(xùn)練結(jié)果的干擾?(例如可視化后肉眼識(shí)別一些離群的數(shù)據(jù)點(diǎn),并把它們從樣本中去除?或者按比例縮小閾值?)我的看法:聚類本身就是最常用的異常值檢測(cè)方法,大部分非監(jiān)督的異常值檢測(cè)都依靠聚類。

離群值(異常值)對(duì)非監(jiān)督聚類的影響很明顯,因?yàn)樾枰贿厡W(xué)習(xí)簇的特征,一邊防止異常值的干擾。

并不是每一種聚類都擅長(zhǎng)異常值檢測(cè):K-means和層次聚類(hierarchical clustering)對(duì)離群值非常敏感,因?yàn)槠湟髮⒚總€(gè)點(diǎn)都劃分到一個(gè)簇中(此處我們默認(rèn)的K-means是hard assignment)。

而且其相似度度量(Similarity Measure)默認(rèn)是sum of euclidean squares,優(yōu)化目標(biāo)是將簇內(nèi)差異最小化(minimize with-in clustering variation),因此即使單個(gè)噪音點(diǎn)也可以對(duì)整個(gè)簇造成很大的擾動(dòng)。

常見的解決方法有: