從2014年8月開始在博客園寫博客,至今已經(jīng)積累了82篇,集中在機(jī)器學(xué)習(xí)、NLP、數(shù)據(jù)結(jié)構(gòu)與算法、大數(shù)據(jù)、編程語言等方面。在此做個(gè)總結(jié),以后還會(huì)陸續(xù)更新……

1. 機(jī)器學(xué)習(xí)

【十大經(jīng)典數(shù)據(jù)挖掘算法】系列:

  1. C4.5

  2. K-Means

  3. SVM

  4. Apriori

  5. EM

  6. PageRank

  7. AdaBoost

  8. kNN

  9. Na?ve Bayes

  10. CART

2. NLP

中文分詞

中文分詞工具thulac4j重磅發(fā)布.

【中文分詞】理論篇:

  1. 【中文分詞】簡(jiǎn)單高效的MMSeg.

  2. 【中文分詞】隱馬爾可夫模型HMM.

  3. 【中文分詞】二階隱馬爾可夫模型2-HMM.

  4. 【中文分詞】最大熵馬爾可夫模型MEMM.

  5. 【中文分詞】條件隨機(jī)場(chǎng)CRF.

  6. 【中文分詞】結(jié)構(gòu)化感知器SP.

【中文分詞】實(shí)踐篇:

  1. 中文分詞工具探析(一):ICTCLAS (NLPIR)

  2. 中文分詞工具探析(二):Jieba

  3. 中文分詞工具探析(三):Ansj

  4. 開源中文分詞工具探析(四):THULAC

  5. 開源中文分詞工具探析(五):FNLP

3. 數(shù)據(jù)結(jié)構(gòu)與算法

數(shù)據(jù)結(jié)構(gòu)篇:

  1. Trie樹的應(yīng)用:查詢IP地址的ISP.

  2. 多叉樹實(shí)現(xiàn)類目體系.

  3. Bloom Filter:海量數(shù)據(jù)的HashSet.

  4. 雙數(shù)組Trie樹 (Double-array Trie) 及其應(yīng)用.

算法篇:

  1. 【模式匹配】KMP算法的來龍去脈.

  2. 【模式匹配】更快的Boyer-Moore算法.

  3. 【模式匹配】Aho-Corasick自動(dòng)機(jī).

  4. 【圖論】深入理解Dijsktra算法.

  5. 【圖論】求無向連通圖的割點(diǎn).

  6. 【圖論】有向無環(huán)圖的拓?fù)渑判?/a>.

  7. 【動(dòng)態(tài)規(guī)劃】最長(zhǎng)公共子序列與最長(zhǎng)公共子串.

  8. 連續(xù)子數(shù)組最大和.

  9. 最長(zhǎng)回文子串.

  10. Top K問題的兩種解決思路.

信息論與編碼篇:

  1. 【數(shù)據(jù)壓縮】Huffman編碼.

  2. 【數(shù)據(jù)壓縮】LZ77算法原理及實(shí)現(xiàn).

  3. 【數(shù)據(jù)壓縮】LZ78算法原理及實(shí)現(xiàn).

  4. 整數(shù)壓縮編碼 ZigZag.

【LeetCode題解】系列:

  1. 【LeetCode題解】二叉樹的遍歷.

  2. 【LeetCode題解】數(shù)組Array.

  3. 【LeetCode題解】鏈表Linked List.

4. 大數(shù)據(jù)

SQL on Hadoop (Hive、Pig)系列:

  1. 常用HiveQL總結(jié).

  2. Hive UDF初探.

  3. 【Pig源碼分析】談?wù)凱ig的數(shù)據(jù)模型.

  4. Pig 實(shí)現(xiàn)關(guān)鍵詞匹配.

  5. Pig + Ansj 統(tǒng)計(jì)中文文本詞頻.

OLAP (Kylin)系列:

  1. Kylin的cube模型.

  2. Apache Kylin 部署之不完全指南.

  3. 【Kylin實(shí)戰(zhàn)】Hive復(fù)雜數(shù)據(jù)類型與視圖.

  4. 【Kylin實(shí)戰(zhàn)】郵件報(bào)表生成.

  5. 輕量級(jí)OLAP(一):Cube計(jì)算.

  6. 輕量級(jí)OLAP(二):Hive + Elasticsearch.

工作流調(diào)度系列:

  1. 工作流引擎Oozie(一):workflow.

  2. 工作流引擎Oozie(二):coordinator.

  3. 靈活可擴(kuò)展的工作流管理平臺(tái)Airflow.

5. 編程語言

Java

探究篇:

  1. Java中的逆變與協(xié)變.

  2. 【JDK源碼分析】淺談HashMap的原理.

  3. 【JDK源碼分析】String的存儲(chǔ)區(qū)與不可變性.

實(shí)戰(zhàn)篇:

  1. Java實(shí)時(shí)讀取日志文件.

  2. Java實(shí)現(xiàn)過濾中文亂碼.

Python

實(shí)戰(zhàn)篇:

  1. 【Python實(shí)戰(zhàn)】機(jī)型自動(dòng)化標(biāo)注(搜狗爬蟲實(shí)現(xiàn)).

  2. 【Python實(shí)戰(zhàn)】Pandas:讓你像寫SQL一樣做數(shù)據(jù)分析(一).

  3. 【Python實(shí)戰(zhàn)】Pandas:讓你像寫SQL一樣做數(shù)據(jù)分析(二).

  4. 【Python實(shí)戰(zhàn)】Scrapy豌豆莢應(yīng)用市場(chǎng)爬蟲.

  5. 【Python實(shí)戰(zhàn)】Django建站筆記.