當(dāng)我們?cè)谡務(wù)搆means(1)

引言

  當(dāng)希望快速了解或回顧某些算法的發(fā)展時(shí),一般而言,大家都會(huì)選擇閱讀綜述性文章,然后有選擇性的閱讀部分論文。而這種高效率的做法的負(fù)面,就是比較無趣的體驗(yàn),畢竟一直都行走在別人規(guī)劃好的思路中,總感覺少了點(diǎn)趣味性。 
  此系列文章一方面旨在回顧一些算法的歷史演變軌跡;同時(shí),看看能否挖掘出更多有趣或有意義的信息,讓算法之路走的歡脫一點(diǎn)。 
  作為練手,本次先從k-means這個(gè)最基本的機(jī)器學(xué)習(xí)算法之一開始。

數(shù)據(jù)準(zhǔn)備

  從IEEE上抓取“標(biāo)題或摘要中含有kmeans或相關(guān)關(guān)鍵詞的論文”的部分公開信息,對(duì)于現(xiàn)在已有的信息,我關(guān)注的主要是title、authors、keywords、abstract、publicationYear、isConference(是否是會(huì)議文章)。抓取到數(shù)據(jù)后,將數(shù)據(jù)存入mongodb,后續(xù)使用python+jupyter來分析。 
  受限于抓取難度,以及本人初步的爬蟲水平,并沒有抓reference,這對(duì)接下來的數(shù)據(jù)挖掘是一個(gè)遺憾。若有同學(xué)比較擅長爬蟲,歡迎私信或留言交流!(IEEE的網(wǎng)站說明里聲明禁止爬蟲,因此政治正確上最好是不要去爬的,此處也不討論具體的技術(shù)細(xì)節(jié))

數(shù)據(jù)總覽

論文數(shù)量

  1969-2016年,每年IEEE收錄關(guān)于kmeans的論文數(shù)量如下圖。其中藍(lán)色表示當(dāng)年總文章數(shù)量,綠色表示當(dāng)年期刊論文數(shù)量,紅色表示當(dāng)年會(huì)議文章數(shù)量。 
 
  從圖中可以得出以下幾點(diǎn)結(jié)論: 
  1.1990年以前,kmeans相關(guān)文章很少,多的時(shí)候每年出版的總文章數(shù)量是1,少的時(shí)候則沒有任何相關(guān)文章出版;90年代作為明顯的過渡期,其之前與之后論文數(shù)量與趨勢的變化是翻天覆地的; 
  2.會(huì)議文章占了總文章數(shù)量的絕大多數(shù):在抓取的6000多篇文章中,會(huì)議文章總5476篇,而期刊數(shù)量540篇,只有會(huì)議文章的1/10;而每年的會(huì)議文章跟期刊文章的比值也差不多這個(gè)數(shù); 
  3.kmeans相關(guān)會(huì)議文章數(shù)量在2005-2010和2013-2015幾年間出現(xiàn)了爆炸性

網(wǎng)友評(píng)論