AS WE ALL KNOW,學機器學習的一般都是從python+sklearn開始學,適用于數(shù)據(jù)量不大的場景(這里就別計較“不大”具體指標是啥了,哈哈)
數(shù)據(jù)量大了,就需要用到其他技術了,如:spark, tensorflow,當然也有其他技術,此處略過一坨字...
先來看看如何讓這3個集成起來吧(WINDOWS環(huán)境):pycharm(python開發(fā)環(huán)境), pyspark.cmd(REPL命令行接口), spark(spark驅動、MASTER等)
download Anaconda, latest version, which 64bit support for windows, 這里必須安裝64位版本的Anaconda,因為后面tensorflow只支持64位的
https://www.continuum.io/downloads/
安裝Anaconda,都是默認選項就行