中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

Python如何爬取豆瓣電影和演員評分以及做出可視化圖,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。

目前創(chuàng)新互聯(lián)建站已為數(shù)千家的企業(yè)提供了網站建設、域名、虛擬主機、網站托管運營、企業(yè)網站設計、廈門網站維護等服務,公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。

隨著電影行業(yè)的蓬勃發(fā)展,越來越多的電影出現(xiàn)在了觀眾的視野中,豐富了大家的生活,好的電影也能讓大家在放松自我的同時收獲一些對人生的思考。

然而,也有那么一些“爛片”,讓大家在看過之后“添堵”,后悔為這種“爛片”貢獻票房,白白被收割了“智商稅”,今天,我們就用Python來幾年那些被爛片收割走的智商稅。

數(shù)據(jù)獲取

這次的數(shù)據(jù)源也是大家的老朋友,被親切地稱之為“馬蜂窩”的豆瓣網,現(xiàn)在有很多平臺會對電影進行打分,包括了貓眼和淘票票,但是相較之下,豆瓣的評分更加全面,一些冷門的“爛片”只能在豆瓣中被大家挖掘出來。

誠然,豆瓣的評分會存在一些“文藝濾鏡”,對文藝片比較寬容,對此我們認為,“豆瓣評分高的不一定是真的高,但是被豆瓣打了低分的是真的低”。此次選擇的影片范圍是2010年至今的國產影片:

最終獲取到了3000多部電影的數(shù)據(jù),代碼如下:

## 爬取劇集列表,并輸出成為excel表格
driver = webdriver.Chrome()
driver.maximize_window()
driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E5%BD%B1,2010%E5%B9%B4%E4%BB%A3,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
while True:
   try:
     js="var q=document.documentElement.scrollTop=10000000"  
     driver.execute_script(js)
     driver.find_element_by_class_name('more').click()
     time.sleep(2)
   except:
     break 

name = [k.text for k in driver.find_elements_by_class_name('title')]
score = [k.text for k in driver.find_elements_by_class_name('rate')]
url = [k.get_attribute('href') for k in driver.find_elements_by_class_name('item')]
pd.DataFrame({'name':name,'score':score,'url':url}).to_excel('電影名稱.xlsx')

整體數(shù)據(jù)

首先要做的事情就是看一下豆瓣對國產電影的整體打分情況,以此確定之后對“爛片”的劃分依據(jù),首先看一下整體評分的柱形圖:

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

可以看到豆瓣用戶對國產片還是比較嚴格,大多數(shù)電影都是在6分一下,8分以上的電影可以說是“鳳毛麟角”,因此后續(xù)對爛片的標準也要相應放低,下面看一下各個將分數(shù)向下取整后的統(tǒng)計數(shù)量:

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

唯一一部獲得9分的就是18年上映的《我不是藥神》,未來也希望能有更多這樣的優(yōu)秀影片,而且這種期望也是有依據(jù)的,我們看一下每一年爛片和非爛片的占比:

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

可以看到在所有的影片中,人氣TOP10的影片評分都還是不錯,流浪地球,藥神和哪吒也都在票房中有非常不錯的表現(xiàn),顯然,這不是我們需要,我們下面就來看下爛片和超級爛片中的人氣榜:

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

熱烈恭喜《上海堡壘》憑借2.9分的評分和217110的評價數(shù)喜提兩項人氣榜的冠軍,《愛情公寓》因為“大忽悠”式的營銷也躋身榜單,不知道即將上映的《愛情公寓5》能否為這一系列挽回一些口碑

票房榜

同樣,我們來分別看下所有影片、爛片和超級爛片的票房排行,看看究竟是哪些“爛片”在瘋狂收割著大家的智商稅,首先看一下左右影片的票房榜:

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

爛片票房榜中的TOP10都超過了2.6億,大鬧天竺和愛情公寓更是分別收獲了7.5億和5.5億的票房,瘋狂收割著大家的智商稅,相信未來隨著大家對影片要求的提高,瘋狂收割智商稅的現(xiàn)象會逐漸減少。

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

評分高的演員就無須贅述了,都是經過了市場和觀眾的挑戰(zhàn),但是目前還沒有一位演員在主演影片數(shù)量超過5部之后,分數(shù)可以上7,誠然有一部分是因為豆瓣對國產的嚴格要求,但另一方面也在敦促電影人不斷進步

下面看一下評分排在倒數(shù)的演員,首先看下BOTTOM10:

Python如何爬取豆瓣電影和演員評分以及做出可視化圖

由于過多的“跨界”演員出現(xiàn)在了榜單BOTTOM10中,導致很多大家心目中的演員沒有上榜,于是我們繼續(xù)看BOTTOM11-20,這份榜單似乎正常了一點,但是好多更加應該在電視劇中出現(xiàn)的名字也位列其中。

看來電影和電視劇還是有所區(qū)別,在電視劇中能夠大放異彩的演員未必能在電影中有同樣精彩的表現(xiàn),考慮到電視劇演員們的加入,繼續(xù)把榜單范圍放大到BOTTOM21-30:

看完上述內容,你們掌握Python如何爬取豆瓣電影和演員評分以及做出可視化圖的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!

網頁標題:Python如何爬取豆瓣電影和演員評分以及做出可視化圖
文章來源:http://www.rwnh.cn/article22/jeeccc.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供域名注冊、外貿網站建設微信小程序、網站內鏈、建站公司網站收錄

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

搜索引擎優(yōu)化
武功县| 白朗县| 枞阳县| 长岛县| 陇南市| 剑川县| 沂水县| 惠来县| 昔阳县| 璧山县| 洮南市| 长沙县| 静宁县| 噶尔县| 陈巴尔虎旗| 南投县| 石嘴山市| 息烽县| 兴国县| 鄂托克前旗| 潜江市| 江都市| 玉龙| 甘泉县| 武乡县| 东港市| 即墨市| 呼伦贝尔市| 合川市| 怀远县| 平乡县| 承德县| 井陉县| 禄丰县| 江山市| 麻城市| 深州市| 揭阳市| 策勒县| 中方县| 出国|