online gambling singapore online gambling singapore online slot malaysia online slot malaysia mega888 malaysia slot gacor live casino malaysia online betting malaysia mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 mega888 分析了六百萬字的歌詞數據,告訴你中國的Rapper都在唱些啥?

摘要: 本篇用一個比較輕鬆的方式分析rapper的歌詞,將文字探勘運用在新興流行上,這其中有許多議題可以探討,我們或許可以利用這種技術找出流行與文化、 經濟環境等等之間的關係


作者:貓弟Azz

當“你有freestyle嗎”火遍全網之後,一個個你從來沒聽過的rapper 像加拿大土撥鼠播報春天一樣冒出洞口——你突然感覺到,媽的,HipHop還真要成主流了?我努力努力改天還靠這個吃飯嗎?

然後,你作為一個對HipHop,尤其是中國HipHop毫無了解的吃瓜群眾,你自然會好奇以下三個問題:

HipHop到底在唱些什麼?
各個國家和地區的Rapper們想要說的聊的唱的都有哪些特色?
如果想當一個Rapper,我應該怎樣寫詞才能緊跟潮流又不會離題太遠?

所以我用Python 抓取了美國、英國、台灣、香港、中國大陸四個地區,總共六千萬的歌詞,其中包括大陸600萬的歌詞,做了一些數據分析的工作,目的就是給你想要的答案。

我的數據源選了蝦米音樂,因為蝦米有詳細的嘻哈音樂分類,其它的如網易云音樂、QQ、Spotify、iTunes、StreetVoice,要么欠缺對歌手音樂風格的分類,要么分類粗糙,沒法當做數據源。

選定蝦米音樂之後,寫了好一會代碼,抓取歌詞的爬蟲開始蹭蹭工作了 ⇣

大數據

爬蟲一般會面對兩個問題——

1.代理問題

頻繁地抓取網站的頁面,IP 很容易被封。於是寫了個抓免費代理的爬蟲,抓了八百多個代理 IP,夠用了。

2.效率問題

10萬首歌,即使是1秒一個請求,那得27個小時,我可等不了27個小時。

於是我決定開10個線程,三小時程序就能跑完。

……

然後在三小時之後,我收穫一個約100M,49419首歌的數據庫。

看著這滿滿的記錄,感受到蜜蜂辛勤搬運後看著蜂蜜的喜悅,我相信,關於HipHop歌詞的秘密全部都包含在裡邊了。

大數據

接下來,就是一些數據清洗、處理、分析的工作。

蝦米的歌詞都是用戶編輯上傳的,格式不適用數據分析,所以我得把無用的符號、編曲、作詞之類的信息除去(格式統一有多麼重要啊朋友們),然後中英文各自分詞。英文需要去停詞(對數據分析無用的詞,一般沒有實際含義,如 is、on、at、which),大小寫變換,以及詞形變換。英語中詞彙有單複數、各種時態,為了易於分析,需要還原為詞幹。另外不管是中文還是英文都需要詞性標註,一般來說分析也就分析名詞和形容詞,這些現成的開源庫使用(此處省去1000萬字)。

總之,我都搞定了,以下就是分析結果。我們先看看大陸地區的 rapper 歌詞裡有都寫啥關鍵詞 ⇣

分析了六百萬字的歌詞數據,告訴你中國的Rapper都在唱些啥?

“世界”和“時間”佔據首位,“老子”、“兄弟”、“baby”、“money”、“bitch”、“real” 等詞倒是讓 rapper 的形象呼之欲出。rapper 的詞裡頻繁提到“音樂”、“歌詞”、“旋律”、“歌曲”,可見他們對自己的音樂非常在乎。嘻哈音樂由於有 freestyle 的文化,對親自寫詞有要求,否則就不 “ real ” ,從節目中他們對偶像 rapper 的 diss 也能看出來。

接著,我們來看看與其他幾個地區的關鍵詞對比↓

大數據

看起來rapper 的生活差不多,無論大陸還是台灣,都喜歡喊“baby”,身邊都有一群“兄弟”和“朋友”,有“夢想”,平時都在唱“hip hop” ,有“煩惱”了就罵罵街。

亮點是美國的關鍵字 top1 是 “nigga”,這個和帶有種族歧視意味的 “nigger” 還不是一個詞。關於這個Tupac 有過一個有意思的定義。

nigger : a black man with a slavery chain around his neck.  
nigga : a black man with a gold chain on his neck.

接下來,為了了解 rapper 的生活狀況,我開始分析一些常見詞彙在歌詞中出現的頻率。饒舌歌手們的生活想必少不了豪車,出門騎摩拜可能有被開除 rap 籍的風險。

感謝維基提供汽車品牌頁面,並且很貼心的分了英語名稱、中國大陸譯名,於是我又寫了個爬蟲把品牌名稱抓下來,然後統計數據庫中每個品牌出現的頻率。

大數據

這是各汽車品牌在國內16284首嘻哈歌曲中出現的情況,在一首歌的歌詞中出現算一次,總共約有400多首歌中出現至少一次汽車的品牌名字。可以看出,饒舌歌手喜歡寶馬和奔馳的很多,特點只有一個,就是貴!其實夏利、桑塔納等車也有不少歌提到,但一般表達的是消極情緒。

然後我又統計了一下 rapper 們都喝什麼 ⇣

大數據*紅色是國內饒舌歌手的數據,黃色是總數據

看來饒舌歌手不那麼喜歡喝威士忌,排在威士忌前面的還分別有龍舌蘭、白蘭地、朗姆酒,限於圖表大小我沒將這幾個列入圖表。香檳作為富有的象徵,遙遙領先,不過國內的饒舌歌手似乎處於消費尚未升級的水平,啤酒排在首位。外國人比較喜歡金酒,國內的饒舌歌手幾乎沒提到,雖然金酒一般用來調雞尾酒,但是雞尾酒提到的次數也是少得可憐。

絕對伏特加在《中國有嘻哈》做廣告確實是找對地方了,rapper 們對伏特加有高於常人的偏好。

所以 rapper 們都怎麼喝金酒?我看了看歌詞。

“Sippin' gin and juice Layin' underneath the palm trees”,gin&juice 是最常見的組合,由於著名 rapper Snoop Dogg 發過同名單曲,rapper 們特別喜歡。

“Think we a joke? I'll put three in your throat 
Drunk off gin and C&C; coke then we flee in a boat”,金酒兌可樂,聽起來不錯。

“Rolling weed in raw papers, taking shots, gin got me faded 
If I get back to your spot, won't know how I made it”,一邊飛葉子一邊喝金酒!

“Havin' fun with some bitches smokin' weed in the ride 
On the corner with my dogs drinkin' gin to survive”,這個rapper跟一個狗喝gin,看來故事很多。

“Swimmin' under water like I'm aquaman 
I used to drink gin now it's vodka man”,這個rapper喝膩了,從金酒轉到伏特加陣營……

然後,我們來看一下管製藥物的情況 ⇣

大數據

果然大家還是喜歡葉子,不只是饒舌歌手啦。

饒舌歌手喜歡互相 diss,所以他們 diss 時會罵些啥?讓我們來看看他們都罵了什麼髒話。

這個統計有個小插曲,第一次統計發現一個中文髒話都沒有,還以為淨網運動成功了,結果發現分詞的詞庫裡壓根就沒髒話的詞彙,重新手動加入詞庫後就好了。

大數據

(左邊是所有數據的出現次數,右邊是大陸說唱的出現次數)

大陸16284首歌有2496首出現髒話,髒話率約為15%,而非大陸的數據中,33134首歌有13217首出現髒話,髒話率約為40%。

總的來看,我國歌手比較符合社會主義核心價值觀。我試著把 “damn” 和 “shit” 這兩個不那麼“臟”並且口語常見的詞在國外的統計中去掉,最後髒話率還有33%,比例遠遠高於大陸。一個推測是,英文髒話詞彙在歌詞中更容易押韻,或者唱起來 flow 更好把握。另一個可能是審查原因,早有 “in3” 這樣的樂隊英文歌詞原因被禁,國內的 rapper 創作起來可不能太奔放。

最後我們來探討一下 rap 裡的押韻。

在《中國有嘻哈》中我們看到有單押、雙押、三押,各種層出不窮的押韻。旋律、押韻、節奏是說唱歌曲三個很重要的評判標準,一個好的押韻,能讓歌曲的 flow 更加流暢。

大數據

那麼我們怎麼才能唱出酷酷的押韻呢?我從歌詞庫中取出所有歌詞,分詞,然後根據韻母、聲調分類,然後得到了一個押韻詞彙文件。

韻腳的分佈挺有趣的,我統計了一下出現前十的兩字詞語韻腳大數據

可以看出,ii 這個韻腳是最容易押韻的。下圖的這個韻腳的部分詞彙。“勢利”,“世紀”,“日誌”,“秘密”……

看著這些詞彙,我就情不自禁 rap 起來了,drop the beat!

大數據

雙押x9 達成!

以上應該能告訴你中國到底有什麼樣的嘻哈了。

轉貼自: 36大數據


留下你的回應

以訪客張貼回應

0

在此對話中的人們

YOU MAY BE INTERESTED