博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python网络爬虫(1)静态网页抓取
阅读量:5320 次
发布时间:2019-06-14

本文共 1877 字,大约阅读时间需要 6 分钟。

获取响应内容:

import requestsr=requests.get('http://www.santostang.com/')print(r.encoding)print(r.status_code)print(r.text)

获取编码,状态(200成功,4xx客户端错误,5xx服务器相应错误),文本,等。

 

定制Request请求

传递URL参数

key_dict = {'key1':'value1','key2':'value2'}r=requests.get('http://httpbin.org/get',params=key_dict)print(r.url)print(r.text)

定制请求头

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0','Host':'www.santostang.com'}r=requests.get('http://www.santostang.com',headers=headers)print(r.status_code)

发送POST请求

POST请求发送表单信息,密码不显示在URL中,数据字典发送时自动编码为表单形式。

key_dict = {'key1':'value1','key2':'value2'}r=requests.post('http://httpbin.org/post',data=key_dict)print(r.url)print(r.text)

超时并抛出异常

r=requests.get('http://www.santostang.com/',timeout=0.11)

  

获取top250电影数据

 

import requestsimport myToolFunctionfrom bs4 import BeautifulSoupdef get_movies():    headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0','Host':'movie.douban.com'}    movie_list=[]    for i in range(10):        link='https://movie.douban.com/top250'        key_dict = {'start':i*25,'filter':''}        r=requests.get(link,params=key_dict)        #print(r.text)        print(r.status_code)        print(r.url)                soup=BeautifulSoup(r.text,'lxml')        div_list=soup.find_all('div', class_='hd')        for each in div_list:            movie=each.a.span.text.strip()+'\n'            movie_list.append(movie)        pass    return movie_listdef storFile(data,fileName,method='a'):    with open(fileName,method,newline ='') as f:        f.write(data)        pass    passmovie_list=get_movies()for str in movie_list:    myToolFunction.storFile(str, 'movie top250.txt','a')    pass

  

转载于:https://www.cnblogs.com/bai2018/p/10957787.html

你可能感兴趣的文章
一些有意思的算法代码[转载]
查看>>
poj 题目分类
查看>>
windows 安装yaml支持和pytest支持等
查看>>
读书笔记:季羡林关于如何做研究学问的心得
查看>>
面向对象的优点
查看>>
套接口和I/O通信
查看>>
阿里巴巴面试之利用两个int值实现读写锁
查看>>
@bzoj - 3750@ [POI2015] Pieczęć
查看>>
PHP定时任务
查看>>
浅谈性能测试
查看>>
Winform 菜单和工具栏控件
查看>>
jequery动态创建form
查看>>
CDH版本大数据集群下搭建的Hue详细启动步骤(图文详解)
查看>>
第六次java作业
查看>>
巧用Win+R
查看>>
浅析原生js模仿addclass和removeclass
查看>>
Python中的greenlet包实现并发编程的入门教程
查看>>
tweenlite使用说明
查看>>
java中遍历属性字段及值(常见方法)
查看>>
在AD的环境下,更改计算机名导致TFS,无法连接解决办法
查看>>