最近的电影《哪吒》绝对是风靡全国,各种“我命由我不由天”,激励着平民大众。而《上海堡垒》则彻底扑街,鹿晗也跌落神坛,流量不再。而老大哥成龙的新片《龙牌之谜》也在日前悄悄上映了,之所用悄悄是因为电影并没有做过多的宣传,低调上映。但是上映之后的口碑却不敢恭维,好多影迷都说,大哥老了,也开始持续拍烂片了。今天,我们就来分析下历年成龙的电影得分数据,用数据来告诉你,真的是大哥老了,打不动了吗?
豆瓣数据获取
数据来源,还是爬取豆瓣。
爬取的过程还是蛮简单的,直接给出代码
def get_data():
data = []
for i in range(0, 150, 25):
url = 'https://movie.douban.com/celebrity/1054531/movies?start=%s&format=text&sortby=time&role=A1' % i
res = requests.get(url).text
content = BeautifulSoup(res, "html.parser")
tbody_tag = content.find_all('tbody')
tr_tag = tbody_tag[1].find_all('tr')
for tr in tr_tag:
tmp = []
name = tr.find('a').text
year = tr.find('td', attrs={'headers': 'mc_date'}).text
rate = tr.find('td', attrs={'headers': 'mc_rating'}).text
tmp.append(name)
tmp.append(year)
tmp.append(rate.replace('\n', '').strip().replace('-', ''))
data.append(tmp)
return data
if __name__ == '__main__':
data = get_data()
print(data)
with open('jack_data.csv', 'w', encoding='utf-8') as f:
f.write('name,year,rate\n')
for d in data:
try:
rowcsv = '{},{},{}'.format(d[0], d[1], d[2])
f.write(rowcsv)
f.write('\n')
except:
continue
数据拿到之后,我们再做些简单的数据处理,去除掉 rate 为空的数据,和一些异常数据
df = pd.read_csv('jack_data.csv')
df.isnull().sum() # 查看缺失值情况
df_copy = df.copy()
df_copy.dropna(how='any', inplace=True) # 去掉缺失值
# 去掉异常值
except_data = df_copy[df_copy['name'].apply(lambda x: x == '喜剧之王')].index
df_copy.drop(except_data, inplace=True)
一、成龙电影总体得分分布
成龙大哥的高分电影,多集中在早年。大多数电影的评分,都几种在6-7分上下浮动。而近些年的几部电影,口碑都不是很好,有持续下滑的趋势。
二、评分最高与最低影片
成龙大哥的电影,最高得分为《龙争虎斗》,8.2 分。
评分最低的是《神探蒲松龄》,只有 3.8 分。
而《龙争虎斗》是 1973 年上映的,《神探蒲松龄》 则是 2019 年上映的,也从侧面反映出近些年龙大哥在电影市场的不给力情况。
三、出产电影年份
我们再来看看哪些年份,成龙大哥出产的电影比较多呢
1978 年,成龙出产的电影占比是最多的,总共是 6 部,接下来就是 1973、1985 和 1976 年,都是 5部电影。
我们来看下这几年电影的评分情况
1978 年
1973 年
1985 年
1976 年
可以看出来,早些年,大哥年轻的时候,无论是数量还是质量,都是比较有保证的。
虽然说,成龙电影总体评分并不是太高,最高也才 8 点几分,但是作为华语影坛的大哥级人物,大家对他的期待还是非常高的。
不管怎么说,还是希望成龙大哥能够好好保养身体,在以后的时光中,给大家带来更多好的作品。