存储库的安装上节中,我们介绍了几个数据库的安装方式,但这仅仅是用来存储数据的数据库,它们提供了存储服务,但如果想要和 Python 交互的话,还需要安装一些 Python 存储库,如 MySQL 需要安装 PyMySQL,MongoDB 需要安装 PyMongo 等。本节中,我们来说明一下这些存储库的安装方式。PyMySQL 的安装在 Python 3 中, ......
104
0
0
2024-05-28
解析库的安装抓取网页代码之后,下一步就是从网页中提取信息。提取信息的方式有多种多样,可以使用正则来提取,但是写起来相对比较烦琐。这里还有许多强大的解析库,如 lxml、Beautiful Soup、pyquery 等。此外,还提供了非常强大的解析方法,如 XPath 解析和 CSS 选择器解析等,利用它们,我们可以高效便捷地从网页中提取有效信息。本节中,我们 ......
123
0
0
2024-05-27
简单的网站写爬虫就跟流水线加工一样,抄抄改改,没有问题就直接上了,直接了当省事,又是一篇没有营养的水文。一个比较简单的爬虫,适合练手学习使用,主要是爬取和采集网站的作品信息,包括标题、内容及图片,其中图片采用了多线程爬取。考虑到外网爬取,所以采用了三次访问超时重试的机制,同时对于详情页的爬取采用了报错机制跳过处理,适合新人学习爬取使用。小日子的网站随便爬,加 ......
143
0
0
2024-03-13
概述在Scrapy爬虫中,我们需要深入分析time.sleep和Request对象对并发请求的影响。time.sleep函数用于在发起请求之前等待一段时间,而Request对象用于发送HTTP请求。我们必须仔细考虑这些操作对其他并发请求的潜在影响,以及在异步情况下可能会导致所有并发请求被阻塞。这种分析需要Python的协程机制、异步IO操作以及Scrapy框 ......
99
0
0
2024-03-03
在网络时代,数据是最宝贵的资源之一。而爬虫技术就是一种获取数据的重要手段。Python 作为一门高效、易学、易用的编程语言,自然成为了爬虫技术的首选语言之一。而 BeautifulSoup 则是 Python 中最常用的爬虫库之一,它能够帮助我们快速、简单地解析 HTML 和 XML 文档,从而提取出我们需要的数据。本文将介绍如何使用 BeautifulSo ......
148
0
0
2024-02-21
前面有分享过requests采集Behance 作品信息的爬虫,这篇带来另一个版本供参考,使用的是无头浏览器 selenium 采集,主要的不同方式是使用 selenium 驱动浏览器获取到页面源码,后面获取信息的话与前篇一致。理论上,几乎所有的页面内容都可以采用无头浏览器来获取,不过考虑到采集页面的效率问题,还是不怎么推荐和建议,不过自动化测试或者是其他方 ......
328
0
0
2024-02-12
Behance 网站是设计师灵感必备网站,想要设计作品必先学会借鉴/抄袭/白嫖,可惜这个网站需要访问国外网站才能访问,对于国人不甚友好,甚至还出现了删号,渣渣狗得很!这个网站跟国内的网站,花瓣网很像,甚至可以说花瓣学习了它不少,在瀑布流网页的展示上也有很多相似之处。前面本渣渣就分享过花瓣网图片采集爬虫,感兴趣可以移步查看,现在还能用!注:Behance 作品 ......
363
0
0
2024-02-12
一、什么是爬虫? 它是指向网站发起请求,获取资源后分析并提取有用数据的程序; 爬虫的步骤:1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等2、获取响应内容 如果服务器能正常响应,则会得到一个Response Response包含:html,json,图片,视频等3、解析内容 解析html数据:正则 ......
141
0
0
2024-02-10
前面初步学习requests库、了解基本HTML的内容和解析页面常用的lxml、Beautiful Soup模块的内容,下面我们就可以使用这些内容在互联网上爬取一些数据,为下一步的数据分析提供原材料。写好一个爬虫最基本的是做好页面分析,找到链接和规律,这样在写爬虫的时候就可以有方向和目的性。接下来,我们就以爬虫最常用的豆瓣评分TOP250的内容作为爬虫的de ......
127
0
0
2024-01-05
目录使用各种请求方式基本get请求基本写法带参数get解析json获取二进制数据添加headers基本POST请求响应response属性状态码判断高级操作文件上传获取cookie会话维持证书验证代理设置超时设置认证设置异常处理Requests是用Python编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比urllib更 ......
191
0
0
2023-06-19
目录解决步骤获取到真正的源码注意的点直接点 某8网 https://*****.b*b.h*****y*8*.com/具体网址格式就是这样的但是为了安全起见,我就这样打码了.抛出问题我们看到这个号码是在页面上正常显示的F12 又是这样就比较麻烦,不能直接获取.用requests库也是获取不到正常想要的 源码的,因为字体加密了.查看页面源代码又是这样的.所以就 ......
259
0
0
2023-04-07
Python爬虫学习前言爬虫学习暂时咕咕了。。。,等有空再继续更新一、基础知识准备Python基础语法还是很简单的,我通过一个个简单的小段代码来进行学习,所需掌握的知识点都包含在这段段代码中,每段代码都有相应详细注释,如果你有其他语言的基础那么Python基础就是轻轻松松的事。1 条件判断语句score = 60 if score >=90 and ......
236
0
0
2023-02-20
目录引言aiohttp是什么requests和aiohttp区别安装aiohttpaiohttp使用介绍基本实例URL参数设置请求类型响应的几个方法超时设置并发限制aiohttp异步爬取实战总结引言钢铁知识库,一个学习python爬虫、数据分析的知识库。人生苦短,快用python。之前我们使用requests库爬取某个站点的时候,每发出一个请求,程序必须等待 ......
368
0
0
2023-02-13
爬虫基础简介http协议概念: 服务器和客户端进行数据交互的一种形式user-Agent: 请求载体的身份表示Connection : 请求完毕后,是断开连接还是保持连接Content-Type : 服务器相应客户端的数据类型# user-Agent ( NetWork-All-Headers ) Mozilla/5.0 (Windows NT 10.0; ......
335
0
0
2023-01-24
模拟登陆使用超级鹰平台识别验证码的编码流程:将验证码图片进行本地下载调用平台提供的示例代码进行图片数据识别有验证码,验证码可以读取到但测试未成功# 验证码 import requests from lxml import html import chaojiying # 封装识别验证码函数 if __name__ == "__mai ......
245
0
0
2023-01-24