Begin
上次用C#把《全唐詩(shī)》和《唐詩(shī)三百首》整理成為QData格式之后,就開(kāi)始進(jìn)行各種分析…
詳細(xì)內(nèi)容可以看看上次這篇文章,《用C#來(lái)學(xué)習(xí)唐詩(shī)三百首和全唐詩(shī)》
接下來(lái)講一下分析的內(nèi)容,由于筆者不是很懂文學(xué)和大數(shù)據(jù)統(tǒng)計(jì)什么的,所以只好隨便分析一通,首先分析的有:標(biāo)題、作者、單字分析、還有詩(shī)句字?jǐn)?shù)(也就是“五言”、“七言”)
標(biāo)題分析
標(biāo)題分析就是分析有多少首詩(shī)采用了某一個(gè)標(biāo)題啦~
首先是《唐詩(shī)三百首》
從統(tǒng)計(jì)可以看到《子夜四時(shí)歌》出現(xiàn)的次數(shù)是最多的= =.. 雖然不懂是什么,但覺(jué)得蠻厲害的
接下來(lái)看看《全唐詩(shī)》的分析結(jié)果
哇,這下可就厲害了,我的《全唐詩(shī)》數(shù)據(jù)文件中共有42904首詩(shī),雖然不全,不足以稱之為“全”唐詩(shī),但是也勝在基數(shù)之大。
從分析結(jié)果看到,排名第一的標(biāo)題是《句》,共有437首詩(shī)采用這個(gè)標(biāo)題,看起來(lái)就很非主流的一個(gè)標(biāo)題居然深受唐朝文人騷客的喜愛(ài);排名第二的是《古意》,不過(guò)這個(gè)和第一名的差距可就大了,總共只有39首,可不知道這個(gè)”古意“是懷古之意還是古人之意。
作者分析
作者分析就是統(tǒng)計(jì)每個(gè)詩(shī)人總共寫(xiě)了多少首詩(shī),以及總字?jǐn)?shù)。
先來(lái)看看《唐詩(shī)三百首》的結(jié)果
嗯,不錯(cuò),杜甫摘取桂冠。不過(guò)《三百首》畢竟是小樣本,真正的還得看大塊頭的。
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動(dòng)安全 [無(wú)線安全]玩轉(zhuǎn)無(wú)線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識(shí)別反義詞同義詞 2017-07-26
- 從棧不平衡問(wèn)題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來(lái)看看(二) 2017-07-26