從2014年8月開始在博客園寫博客,至今已經(jīng)積累了82篇,集中在機器學習、NLP、數(shù)據(jù)結(jié)構(gòu)與算法、大數(shù)據(jù)、編程語言等方面。在此做個總結(jié),以后還會陸續(xù)更新……

1. 機器學習

【十大經(jīng)典數(shù)據(jù)挖掘算法】系列:

  1. C4.5

  2. K-Means

  3. SVM

  4. Apriori

  5. EM

  6. PageRank

  7. AdaBoost

  8. kNN

  9. Na?ve Bayes

  10. CART

2. NLP

中文分詞

中文分詞工具thulac4j重磅發(fā)布.

【中文分詞】理論篇:

  1. 【中文分詞】簡單高效的MMSeg.

  2. 【中文分詞】隱馬爾可夫模型HMM.

  3. 【中文分詞】二階隱馬爾可夫模型2-HMM.

  4. 【中文分詞】最大熵馬爾可夫模型MEMM.

  5. 【中文分詞】條件隨機場CRF.

  6. 【中文分詞】結(jié)構(gòu)化感知器SP.

【中文分詞】實踐篇:

  1. 中文分詞工具探析(一):ICTCLAS (NLPIR)

  2. 中文分詞工具探析(二):Jieba

  3. 中文分詞工具探析(三):Ansj

  4. 開源中文分詞工具探析(四):THULAC

  5. 開源中文分詞工具探析(五):FNLP

3. 數(shù)據(jù)結(jié)構(gòu)與算法

數(shù)據(jù)結(jié)構(gòu)篇:

  1. Trie樹的應用:查詢IP地址的ISP.

  2. 多叉樹實現(xiàn)類目體系.

  3. Bloom Filter:海量數(shù)據(jù)的HashSet.

  4. 雙數(shù)組Trie樹 (Double-array Trie) 及其應用.

算法篇:

  1. 【模式匹配】KMP算法的來龍去脈.

  2. 【模式匹配】更快的Boyer-Moore算法.

  3. 【模式匹配】Aho-Corasick自動機.

  4. 【圖論】深入理解Dijsktra算法.

  5. 【圖論】求無向連通圖的割點.

  6. 【圖論】有向無環(huán)圖的拓撲排序.

  7. 【動態(tài)規(guī)劃】最長公共子序列與最長公共子串.

  8. 連續(xù)子數(shù)組最大和.

  9. 最長回文子串.

  10. Top K問題的兩種解決思路.

信息論與編碼篇:

  1. 【數(shù)據(jù)壓縮】Huffman編碼.

  2. 【數(shù)據(jù)壓縮】LZ77算法原理及實現(xiàn).

  3. 【數(shù)據(jù)壓縮】LZ78算法原理及實現(xiàn).

  4. 整數(shù)壓縮編碼 ZigZag.

【LeetCode題解】系列:

  1. 【LeetCode題解】二叉樹的遍歷.

  2. 【LeetCode題解】數(shù)組Array.

  3. 【LeetCode題解】鏈表Linked List.

  4. 【LeetCode題解】排序.

4. 大數(shù)據(jù)

SQL on Hadoop (Hive、Pig)系列:

  1. 常用HiveQL總結(jié).

  2. Hive UDF初探.

  3. 【Pig源碼分析】談談Pig的數(shù)據(jù)模型.

  4. Pig 實現(xiàn)關(guān)鍵詞匹配.

  5. Pig + Ansj 統(tǒng)計中文文本詞頻.

OLAP (Kylin)系列:

  1. Kylin的cube模型.

  2. Apache Kylin 部署之不完全指南.

  3. 【Kylin實戰(zhàn)】Hive復雜數(shù)據(jù)類型與視圖.

  4. 【Kylin實戰(zhàn)】郵件報表生成.

  5. 輕量級OLAP(一):Cube計算.

  6. 輕量級OLAP(二):Hive + Elasticsearch.

工作流調(diào)度系列:

  1. 工作流引擎Oozie(一):workflow.

  2. 工作流引擎Oozie(二):coordinator.

  3. 靈活可擴展的工作流管理平臺Airflow.

5. 編程語言

Java

探究篇:

  1. Java中的逆變與協(xié)變.

  2. 【JDK源碼分析】淺談HashMap的原理.

  3. 【JDK源碼分析】String的存儲區(qū)與不可變性.

實戰(zhàn)篇:

  1. Java實時讀取日志文件.

  2. Java實現(xiàn)過濾中文亂碼.

Python

實戰(zhàn)篇:

  1. 【Python實戰(zhàn)】機型自動化標注(搜狗爬蟲實現(xiàn)).

  2. 【Python實戰(zhàn)】Pandas:讓你像寫SQL一樣做數(shù)據(jù)分析(一).

  3. 【Python實戰(zhàn)】Pandas:讓你像寫SQL一樣做數(shù)據(jù)分析(二).

  4. 【Python實戰(zhàn)】Scrapy豌豆莢應用市場爬蟲.

  5. 【Python實戰(zhàn)】Django建站筆記.

如需轉(zhuǎn)載,請注明作者及出處.

作者:Treant

出處:http://www.cnblogs.com/en-heng/

http://www.cnblogs.com/en-heng/p/6597986.html