此項目是自己學(xué)習(xí)搜索引擎過程中的一些心得,在使用go語言的時候,發(fā)現(xiàn)了悟空這個搜索引擎項目,結(jié)合此項目代碼以及《信息檢索導(dǎo)論》,自己對搜索引擎的原理是實現(xiàn)都有了一個初步的認識,然后結(jié)合工作中可能遇到的場景,做了一個簡單的demo。寫下這篇文章,可能比較啰嗦,希望幫助到需要的人。項目代碼地址: https://github.com/LiuRoy/sakura
基礎(chǔ)知識
一個簡單例子
假如有四個文檔,分別代表四部電影的名字:
The Shawshank Redemption
Forrest Gump
The Godfather
The Dark Knight
如果我們想根據(jù)這四個文檔建立信息檢索,即輸入查找詞就可以找到包含此詞的所有電影,最直觀的實現(xiàn)方式是建立一個矩陣,每一行代表一個詞,每一列代表一個文檔,取值1/0代表該此是否在該文檔中。如下: