Python 爬取 3000 部電影, 最具人氣爛片排行榜出爐!

電影快訊 1488℃
Python 爬取 3000 部電影, 最具人氣爛片排行榜出爐! - 陸劇吧Python 爬取 3000 部電影, 最具人氣爛片排行榜出爐! - 陸劇吧

前言

隨着電影行業的蓬勃發展,越來越多的電影出現在了觀眾的視野中,豐富了大家的生活,好的電影也能讓大家在放鬆自我的同時收穫一些對人生的思考。 然而,也有那麼一些“爛片”,讓大家在看過之後“添堵”,後悔為這種“爛片”貢獻票房,白白被收割了“智商稅”,今天,我們就用Python來幾年那些被爛片收割走的智商稅。

Python 爬取 3000 部電影, 最具人氣爛片排行榜出爐! - 陸劇吧

數據獲取

這次的數據源也是大家的老朋友,被親切地稱之為“馬蜂窩”的豆瓣網,現在有很多平台會對電影進行打分,包括了貓眼和淘票票,但是相較之下,豆瓣的評分更加全面,一些冷門的“爛片”只能在豆瓣中被大家挖掘出來。 誠然,豆瓣的評分會存在一些“文藝濾鏡”,對文藝片比較寬容,對此我們認為,“豆瓣評分高的不一定是真的高,但是被豆瓣打了低分的是真的低”。此次選擇的影片範圍是2010年至今的國產影片:

最終獲取到了3000多部電影的數據,代碼如下: ##爬取劇集列表,並輸出成為excel表格 driver=webdriver.Chrome driver.maximize_window driver.close driver.switch_to_window(driver.window_handles[ 0 ]) url= js= 'window.open("' +url+ '")' driver.execute_script(js) driver.close driver.switch_to_window(driver.window_handles[ 0 ]) while True : try : js= "varq=document.documentElement.scrollTop=10000000" driver.execute_script(js) driver.find_element_by_class_name( 'more' ).click time.sleep( 2 ) except : break name=[k.text for k in driver.find_elements_by_class_name( 'title' )] score=[k.text for k in driver.find_elements_by_class_name( 'rate' )] url=[k.get_attribute( 'href' ) for k in driver.find_elements_by_class_name( 'item' )] pd.DataFrame({ 'name' :name, 'score' :score, 'url' :url}).to_excel( '電影名稱.xlsx' )

整體數據

首先要做的事情就是看一下豆瓣對國產電影的整體打分情況,以此確定之後對“爛片”的劃分依據,首先看一下整體評分的柱形圖:

可以看到豆瓣用戶對國產片還是比較嚴格,大多數電影都是在6分一下,8分以上的電影可以說是“鳳毛麟角”,因此後續對爛片的標準也要相應放低,下面看一下各個將分數向下取整後的統計數量:

2010年之後獲得9分的國產電影只有一部,可以說是非常的不易,大家可以猜一下是哪部電影,看看是不是你心中的9分電影 下面為大家揭開謎底:

唯一一部獲得9分的就是18年上映的《我不是葯神》,未來也希望能有更多這樣的優秀影片,而且這種期望也是有依據的,我們看一下每一年爛片和非爛片的佔比:

可以看到從爛片和超級爛片佔比在16年達到頂峰之後,從17年開始爛片佔比在逐漸下降,相信未來爛片的佔比也會逐漸下降

人氣榜

有了整體的綜述後,我們確定了爛片和超級爛片的劃分依據,將4分之下的影片劃分為爛片,3分以下的影片劃分為超級爛片,下面就分別來看看各自的人氣榜:

可以看到在所有的影片中,人氣TOP10的影片評分都還是不錯,流浪地球,葯神和哪吒也都在票房中有非常不錯的表現,顯然,這不是我們需要,我們下面就來看下爛片和超級爛片中的人氣榜:

熱烈恭喜《上海堡壘》憑藉2.9分的評分和217110的評價數喜提兩項人氣榜的冠軍,《愛情公寓》因為“大忽悠”式的營銷也躋身榜單,不知道即將上映的《愛情公寓5》能否為這一系列挽回一些口碑

票房榜

同樣,我們來分別看下所有影片、爛片和超級爛片的票房排行,看看究竟是哪些“爛片”在瘋狂收割着大家的智商稅,首先看一下左右影片的票房榜:

排名第10的西虹市首富票房都已經到了25億,可見票房市場發展之迅速,今年國慶檔的兩部影片《我和我的祖國》以及《中國機長》分列八九名,相信未來這份榜單會不斷的發生變化。 《西虹市首富》同樣以6.5分的評分在榜單中評分最低,看來《西虹市首富》已經成為了一個標杆,6.5分也是一部票房賣座影片的底線,下面進入重點了,看一下那些瘋狂收割大家智商稅的爛片和超級爛片:

爛片票房榜中的TOP10都超過了2.6億,大鬧天竺和愛情公寓更是分別收穫了7.5億和5.5億的票房,瘋狂收割着大家的智商稅,相信未來隨着大家對影片要求的提高,瘋狂收割智商稅的現象會逐漸減少

令人意想不到的是,就連超級爛片的TOP10都可以收割5000萬以上的票房,更是有四部票房過億,在此提醒大家“觀影有風險,選片需謹慎”

演員榜 一部爛片的誕生想必也離不開“演員”的努力,下面就來分別看看所出演電影平均分最高和最低的演員:

評分高的演員就無須贅述了,都是經過了市場和觀眾的挑戰,但是目前還沒有一位演員在主演影片數量超過5部之後,分數可以上7,誠然有一部分是因為豆瓣對國產的嚴格要求,但另一方面也在敦促電影人不斷進步 下面看一下評分排在倒數的演員,首先看下BOTTOM10:

看到這份榜單,有種恍惚的感覺,確認這不是主持人或者相聲、小品演員的榜單,我們不禁要問:大家有事嗎?快樂家族更是“霸榜”,杜海濤憑藉精湛的演技和出眾的外形在榜單中獨佔鰲頭,相信他未來會給大家帶來更為“驚艷”的作品,吳亦凡也代表說唱歌手在榜單中出現,填補了榜單中歌手的空白。

由於過多的“跨界”演員出現在了榜單BOTTOM10中,導致很多大家心目中的演員沒有上榜,於是我們繼續看BOTTOM11-20,這份榜單似乎正常了一點,但是好多更加應該在電視劇中出現的名字也位列其中。 看來電影和電視劇還是有所區別,在電視劇中能夠大放異彩的演員未必能在電影中有同樣精彩的表現,考慮到電視劇演員們的加入,繼續把榜單範圍放大到BOTTOM21-30:

這份榜單終於正常了很多,很多大家心目中的“種子選手”都不負眾望地出現在了榜單中,特別是黃曉明和Angelababy這對模範夫妻的上榜,進一步提高了榜單的公信力,未來也希望他們能夠繼續聯袂為大家帶來精彩作品,很多人可能會表示懷疑,對此我們的回復很簡單:我不要你相信,我要我相信! 聲明:本文為作者投稿,版權歸作者個人所有。

【End】

熱 文 推 薦

☞ 清華博士解讀 AlphaGo 戰勝李世石背後的黑科技 | 人物誌

☞ 5G 正式商用,開啟互聯網的下半場?

☞ 微信支付崩潰,卻開啟區塊鏈數字貨幣大門?

☞ 被曝自研 5G 關鍵芯片 PA? 華為未回應

☞ 最近程序員頻繁被抓,如何避免面向監獄編程?!

☞ Wi-Fi 6到底有什麼特別?

☞ 20 行 Python 代碼說清量子霸權!

標籤: 電影快訊