博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
扒一扒爱情公寓电影为什么那么渣
阅读量:5943 次
发布时间:2019-06-19

本文共 1918 字,大约阅读时间需要 6 分钟。

0.前言

最近爱情公寓上线了大电影,卖的就是情怀,但是据说豆瓣上已经给出了2.7的评分,也就比第一烂片逐梦演艺圈高那么一点点,于是今天写了一个爬虫,爬了豆瓣一千多条短评,看一看这个电影为什么这么渣。

1.代码

废话不说,直接代码,因为还是挺简单的

from lxml import etreefrom urllib import requestimport sslfrom jieba import analyseimport jiebafrom wordcloud import WordCloud, STOPWORDSfrom matplotlib import pyplot as plt//得到所有短评def get_comments(comments):    print(comments)    root = etree.HTML(comments)    comment_content = ''    comment_list = root.xpath('//*[@class="short-content"]/text()')    print('comment size is %d' % len(comment_list))    for comment in comment_list:        comment_content += comment    comment_content = comment_content.replace('()', '')    print("comment_content is %s" % comment_content)    return comment_content//生成词云def generate_wordcloud(comments):    stopwords = set(STOPWORDS)    stopwords.add('爱情')    stopwords.add('公寓')    stopwords.add('电影')    stopwords.add('评分')    stopwords.add('...')    comments = jieba.cut(comments)    comments = [comment for comment in comments if comment not in stopwords]    comments = ' '.join(comments)    comments = str(analyse.extract_tags(comments, topK=300))    background = plt.imread('pic.jpg')    wc = WordCloud(font_path='msyh.ttf', random_state=30, width=800, height=800,                   mask=background, background_color='white',                   max_font_size=80, max_words=2000)    wc = wc.generate_from_text(comments)    plt.imshow(wc)    plt.axis('off')    plt.show()//调用上面的方法生成词云url = 'https://movie.douban.com/subject/24852545/reviews?start=%d'ssl._create_default_https_context = ssl._create_unverified_contextcomments = ''for i in range(0, 20):    offset_url = url % (20 * i)    print("url is %s" % offset_url)    with request.urlopen(offset_url) as f:        content = f.read()        comment = get_comments(content)        comments += commentgenerate_wordcloud(comments)复制代码

2.结果

通过词云图可以看出基本上就是将爱情公寓这个电影拍成了盗墓片,还有就是自身存在的抄袭问题。 感觉电视剧和综艺拿出来拍定影,就是圈钱。。。

转载地址:http://zzzxx.baihongyu.com/

你可能感兴趣的文章
asterisk配置
查看>>
GA操作步骤和技巧(二)——用户行为分析
查看>>
shell中while循环里使用ssh的注意事项
查看>>
SHELL获取计算机外网ip的几种写法
查看>>
博客正在搬迁中
查看>>
触发器与存储过程的区别
查看>>
我的友情链接
查看>>
centos搭建supervisor
查看>>
linux日志分割
查看>>
我的友情链接
查看>>
Spring学习资料之 依赖注入(一)
查看>>
安装win7提示安装程序无法创建新的系统分区和定位现有系统分区
查看>>
快递查询接口的调用与解析案例
查看>>
服务器性能优化配置建议
查看>>
oracle sql语句实现累加、累减、累乘、累除
查看>>
3D地图的定时高亮和点击事件(基于echarts)
查看>>
接口由40秒到200ms优化记录
查看>>
java 视频播放 多人及时弹幕技术 代码生成器 websocket springmvc mybatis SSM
查看>>
Activiti6.0,spring5,SSM,工作流引擎,OA
查看>>
第十三章:SpringCloud Config Client的配置
查看>>