韋小寶到底有什么厲害之處?今天,讓我們從數(shù)據(jù)分析“韋小寶最愛誰”的角度來做一些揭秘吧!
分析方法綜述
本文基于文本的描述來分析。根據(jù)分析目標(biāo),將描述性分析定位在人物分析的層面,從出場頻次、出場時(shí)間、親密程度、稱謂變化來解析作者對人物的刻畫。
文本數(shù)據(jù)結(jié)構(gòu)化
非結(jié)構(gòu)化,直接進(jìn)行統(tǒng)計(jì)分析是沒法進(jìn)行的。所以,要預(yù)處理,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)成結(jié)構(gòu)化的信息以供分析。這里面所用的方法就是確定分析的目標(biāo)和對象,從《鹿鼎記》中提取信息。
目標(biāo):小說主要人物及主要稱謂
1、韋小寶:小桂子,韋香主,小寶,韋大人,韋爵爺,相公
2、康熙帝:小玄子,皇帝,皇上
3、雙兒:好雙兒、雙雙
4、阿珂:陳珂,美貌小姑娘,師姊
5、蘇荃:洪夫人,教主夫人
6、建寧公主:公主
7、沐劍屏:小郡主,小老婆
8、方怡:方師姐、方姑娘、怡姐姐
9、曾柔
10、韋春花
11、陳近南
12、鄭克塽
13、吳應(yīng)熊
14、茅十八
從稱謂的內(nèi)容和數(shù)量上看,小寶會(huì)給喜歡的人起昵稱哦,這一點(diǎn),我們在和異性相處的時(shí)候可以借鑒。
七位夫人(圖片來源于網(wǎng)絡(luò)
分析單位:可以以句子為分析單位,也可以以段落為單位,本文涉及的段落450字——480字為一個(gè)分析單位,(以WORD文檔統(tǒng)計(jì),全文1227969字,每頁固定40行,每行固定30字統(tǒng)計(jì),共有2727頁,也就是有2727個(gè)分析單位。)
小貼士:
事實(shí)上,我們都對文本非常熟悉,工作和生活中都存在著大量的文本數(shù)據(jù)比如:網(wǎng)頁、新聞、論壇、社交媒體(微博、微信)、評論(新聞評論、購物評論等)這些都是典型的文本數(shù)據(jù),在海量的文本數(shù)據(jù)中蘊(yùn)含著豐富的價(jià)值,對文本大數(shù)據(jù)的分析和挖掘具有重要意義,而它的典型應(yīng)用又有輿情監(jiān)控、商業(yè)智能、趨勢預(yù)測、精準(zhǔn)營銷等等。
出場頻次
小說對各個(gè)人物的著墨如何?這反映了不同人物的分量輕重。總體來說,采用了計(jì)數(shù)詞頻的方式,具體來說,圍繞這兩個(gè)問題展開。
1、如何定義一個(gè)人物?
2、怎樣出場可以記一次?
以主人公韋小寶為例,定義這個(gè)人物最簡單的方式就是書中出現(xiàn)“韋小寶”這個(gè)名詞,但是這樣做還是會(huì)有漏洞。小說中稱呼他的方式還有很多,比如韋爵爺、小桂子等。因此,需要按照之前的數(shù)據(jù)準(zhǔn)備,將同一個(gè)人的不同稱呼都對應(yīng)到“韋小寶”這個(gè)人物上來。
數(shù)據(jù)結(jié)果可以看出來,小說中男主角韋小寶的出現(xiàn)次數(shù)是最多的,其次是雙兒和阿珂,她倆不分伯仲,小郡主和方怡緊隨其后。我們在閱讀小說時(shí)也能感覺到,小寶對雙兒和阿珂是最特別的了。也許,雙兒和阿珂中間,就能產(chǎn)生韋小寶的最愛。
從這個(gè)角度,我們也能看出來,多和異性接觸,一定是會(huì)增進(jìn)感情的,有想法要行動(dòng)起來才有結(jié)果。
出場時(shí)間
人物的出場時(shí)間同樣重要,這個(gè)愛情中,講究情敵的出場順序一樣。這里可以將每個(gè)分析單位按照順序編號(hào):1,2,3……,T。時(shí)間點(diǎn)就可以理解為這些編號(hào)。然后對于每一個(gè)人物而言,可以統(tǒng)計(jì)其出場的時(shí)間點(diǎn)。
1、 韋小寶:68 69 70……
2、 雙兒:856 857 858……
3、 阿珂:1321 1322 1323……
4、 蘇荃:1004 1005 1006……
5、 建寧公主:1067 1068 1069……
6、 沐劍屏:472 473 474……
7、 方怡:574 575 576……
8、 曾柔:1127 1128 1129……
可以看出,出場最早的是小郡主,其次是小郡主的師姐方怡,再然后是和小寶最親厚的雙兒,其他人也都陸續(xù)在1000到1150,也就是小說的中間悉數(shù)登場。被很多人公認(rèn)為小寶最愛的女人阿珂是出場最晚的。
而從親密值的角度,也可以再深入分析一下小寶與女人們的關(guān)系。為了說明更簡便,只針對雙兒、阿珂和沐劍屏來分析。
親密值公式:親密密度=出場次數(shù)÷出場單元數(shù)量
可以比較明顯的看出來,從親密程度來說,小寶與雙兒更親厚。雙兒可能是小寶的最愛。
可見,與異性相處,想獲得親厚的關(guān)系,需要努力增加存在感,并且要?jiǎng)?chuàng)造更多與對方一起完成的任務(wù)哦。
人以群分
前文的描述性分析已經(jīng)基本反映了本書主角之間的關(guān)系。還可以通過人物進(jìn)行聚類分析,理清人物關(guān)系。
詞向量工具:就是講詞映射到歐氏空間的一種表示,其中,兩個(gè)詞語的寓意越詳細(xì),距離越近。
如何得到詞向量?
這個(gè)模型通過對文本進(jìn)行神經(jīng)網(wǎng)絡(luò)的分析,該模型通過學(xué)習(xí)訓(xùn)練語料獲取詞向量和概率密度函數(shù),把詞映射到低維向量空間,詞向量之間cos距離的大小代表了詞語之間關(guān)系的遠(yuǎn)近。詞向量利用開源工具word2vec而得。
為了簡單表達(dá),用下面的圖片來說明一下分析過程。
由于中文特殊性,訓(xùn)練詞向量需要先對文本進(jìn)行分詞,去除停用詞(比如了、的這樣的表意特征不明顯的詞)
事實(shí)上,在金庸的武俠世界中,已經(jīng)給各個(gè)人物分好類,這就是他們的背后的幫派。比如天地會(huì)、皇宮、沐王府、青木堂、神龍教等等。主要的區(qū)別,在于他們武功路數(shù)和立場不同。比如天地會(huì)經(jīng)常說反清復(fù)明,而皇宮常說捉拿叛徒。
詞向量的分析維度可以按照這些說法展開,本文不過多贅述,如想了解詳細(xì)方法,可以在公眾平臺(tái)提問。
雖然,小寶的幾位夫人最初與他的立場多有不和,比如阿珂最是反抗小寶,她自己刺殺吳三桂失手后,本來一心希望和鄭克塽遠(yuǎn)走高飛,在揚(yáng)州麗春院,懷了韋小寶的骨肉,后又發(fā)現(xiàn)鄭克塽的本性,且逐漸意識(shí)到韋小寶對自己的好,轉(zhuǎn)愛上他,終隨歸隱。
如果耐心等待,女神也會(huì)是你的。