scikit-learn官網(wǎng):http://scikit-learn.org/stable/
通常情況下,一個學(xué)習(xí)問題會包含一組學(xué)習(xí)樣本數(shù)據(jù),計算機(jī)通過對樣本數(shù)據(jù)的學(xué)習(xí),嘗試對未知數(shù)據(jù)進(jìn)行預(yù)測。
學(xué)習(xí)問題一般可以分為:
監(jiān)督學(xué)習(xí)(supervised learning)
分類(classification)
回歸(regression)
非監(jiān)督學(xué)習(xí)(unsupervised learning)
聚類(clustering)
監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)的區(qū)別就是,監(jiān)督學(xué)習(xí)中,樣本數(shù)據(jù)會包含要預(yù)測的標(biāo)簽(label),例如給定一組貓和狗的圖片并對不同的照片給定對應(yīng)的標(biāo)簽(貓或狗),而非監(jiān)督學(xué)習(xí)只會給定一組圖片,并不會給出標(biāo)簽。
分類和回歸的區(qū)別是,分類的樣本數(shù)據(jù)中的標(biāo)簽有大于等于2種,對于預(yù)測數(shù)據(jù)只需要判斷屬于其中哪個類即可,而回歸則是期望輸出由一個或多個連續(xù)的變量組成,例如根據(jù)魚的年齡和重量推斷魚的長度。