博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫实战案例-爬取币世界标红快讯
阅读量:6689 次
发布时间:2019-06-25

本文共 2334 字,大约阅读时间需要 7 分钟。

爬取币世界标红快讯内容(移动版)

# 引入依赖from lxml import etreeimport requestsimport pymongoimport timeclient = pymongo.MongoClient('写你自己的数据库地址', 27017) # 需要自己安装mongodb客户端mydb = client['mydb']information = mydb['information'] # 数据库表名currentTime = time.strftime("%m%d%H", time.localtime())saveTime = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())# 伪造成手机header = {    'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'}def get_url(url):    html = requests.get(url, headers=header)    selector = etree.HTML(html.text)    infos = selector.xpath('//div[@id="kuaixun_list"]/div/article/section[@class="focus"]')    onlyOne = selector.xpath('//div[@id="kuaixun_list"]/div/article/section[@class="focus"]')[0]    saveId = onlyOne.xpath('../@id')[0]    file = open(r'C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest', 'w') # 写你自己的文件地址    file.write(currentTime +' '+saveId)    file.close()    for info in infos:        try:            title = (info.xpath('h3[@class="text_title"]/text()')[0]).strip()            content = (info.xpath('p[@class="text_show"]/text()')[0]).strip()            date = info.xpath('../h3[@class="timenode"]/text()')[0]            infoId = info.xpath('../@id')[0]            data = {                'title': title,                'id': infoId,                'date': saveTime,                'content': content,                'source': 'bishijie'            }            print(data)            if (int(infoId) > int(saveId) - 20):                print('插入了一条新数据!')                information.insert_one(data)            else:                print('无新数据产生!')        except IndexError:            passif __name__ == '__main__':    fs = open('C:/Users/SCZ/PycharmProjects/CommunityCrawl/newest', 'r+') # 写你自己的文件地址    line = fs.read()    fileDate = line[0:6]    if (fileDate != currentTime):        print('时间不一致,宕机使用当前系统时间进行爬取!')        urls = ['http://m.bishijie.com/kuaixun?fm=' + currentTime]        for url in urls:            get_url(url)            time.sleep(2)    else:        print('时间一致, 正常运行!')        urls = ['http://m.bishijie.com/kuaixun?fm=' + currentTime]        for url in urls:            get_url(url)            time.sleep(2)

主要要求掌握内容: xpath语法,python操作文件,python的基础语法

本文内容比较基础,写的不好,多多指教!大家一起进步!!!

我的其他关于python的文章

转载地址:http://owuoo.baihongyu.com/

你可能感兴趣的文章
Linux学习笔记4-软件安装
查看>>
8.python之面相对象part.8(类装饰器)
查看>>
Spring的两个特性
查看>>
进程管理工具top、htop、glances、dstat
查看>>
使用Jenkins发布腾讯云项目
查看>>
sqlserver 2005数据库,提示属性Owner不可用于数据库“[test]”。该对象可能没有此属性...
查看>>
Spark通过Java Web提交任务
查看>>
appium实现的一个简单的测试用例
查看>>
IOS手机截屏
查看>>
Quidway AR 28-12 做自反ACL+NAT
查看>>
Spring的beanFacotry模拟
查看>>
监狱兔-我最喜欢的卡通片
查看>>
linux文件权限位详解
查看>>
Javascript动态加载脚本与样式
查看>>
LINUX用户和组小练习
查看>>
IPV6与VOIP
查看>>
Google搜索引擎特殊结果展示介绍
查看>>
集合框架-可变参数
查看>>
Nginx代理显实真实IP的解决
查看>>
开源的企业虚拟化平台:CecOS
查看>>