python

Python 爬取豆瓣电影TOP250并做数据分析

主要内容 爬取豆瓣电影TOP页面的电影数据 根据电影的分类进行数据统计 实现可以通过分类标签查找标签下的所有电影 前提准备 本爬虫中使用了requests库来获取页面信息,然后使用lxml的etree进行文档结构解析并抓取有用信息。获取的数据存储在MySQL中,这里使用了我的mysql类库Esql,数据库的配置信息放在了config.py中。最后使用了numpy以及matplotlib做数据分析。 Esql(https://github.com/Sidfate/Py-MySQL) 脚本头部: #!/usr/bin/env python #encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') import

  • sidfate
    sidfate
3 min read
spider

Python redis储存爬虫信息

起因 有同学说我的个人网站首页背景图会自动切换想法不错,但是背景图好像太过单一和模糊了。于是乎想到去网上爬一些壁纸来用,最好还能每天不带重样的,感觉diaodiao的。爬虫还是用python做,那么问题来了,python爬取的图片怎么传给页面显示呢,这次我们就用redis去储存爬虫爬取的程序,然后让node去获取redis,在通过服务端渲染到页面。 这里顺便安利下这次动手的网站泼辣有图,它的图片都是可以免费让人用的,而且图片质量当壁纸还是不错的。 经过 ok,打开页面,几番尝试,一顿操作,发现图片的信息可以通过接口调用,有2个关键接口。 获取版本号的接口 调用地址是 http://www.polaxiong.com/collections/get_edition_num,这个版本号主要是用来获取图片集的,

  • sidfate
    sidfate
3 min read