Python爬虫 - 乐耶园

Python爬虫基础

爬虫基础简介http协议概念: 服务器和客户端进行数据交互的一种形式user-Agent: 请求载体的身份表示Connection : 请求完毕后,是断开连接还是保持连接Content-Type : 服务器相应客户端的数据类型# user-Agent ( NetWork-All-Headers ) Mozilla/5.0 (Windows NT 10.0; ......

463

2023-01-24

Python爬虫模拟登陆和异步爬虫

模拟登陆使用超级鹰平台识别验证码的编码流程:将验证码图片进行本地下载调用平台提供的示例代码进行图片数据识别有验证码,验证码可以读取到但测试未成功# 验证码 import requests from lxml import html import chaojiying # 封装识别验证码函数 if __name__ == "__mai ......

340

2023-01-24

Python爬虫之selenium学习

基本概述selenium可以便捷的获取网站中的动态加在的数据selenium可以便捷的实现模拟登陆selenium是基于浏览器自动化的一个模块使用流程bashpip install selenium 查看google浏览器版本号bash# 在浏览器中输入 chrome://version/ 选择合适的版本bashhttp://chromedriver. ......

399

2023-01-24

Python爬虫之scrapy框架学习

scrapy安装步骤pip install wheel下载twisted : 地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted (选择对应的版本)安装twisted : pip install aiohttp-3.8.1-cp38-cp38-win_amd64.whlpip install pywi ......

478

2023-01-24

【学习笔记】Python爬虫

页面结构介绍 - HTLM常用标签了解<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> </hea ......

540

2022-12-01

爬虫系列：连接网站与解析 HTML

这篇文章是爬虫系列第三期，讲解使用 Python 连接到网站，并使用 BeautifulSoup 解析 HTML 页面。在 Python 中我们使用 requests 库来访问目标网站，使用 BeautifulSoup 对获取的内容进行解析。由于这两个库并不是 Python 标准库，因此需要单独安装这两个库：pip install beautifulsoup ......

383

2022-11-12

33款可用来抓数据的开源爬虫软件工具

36大数据专稿，本文由36大数据收集整理，转载必须标明来源36大数据且附上本文连接。要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即网络爬虫，是一种自动获取网页内容的程序。是搜索引擎的重要组成部分，因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组 ......

440

2022-10-27

爬取网页文章

最近写了一个爬取网易养生的一些文章，只爬取首页，暂时没有翻页。后续有空再更新吧，下面是代码：爬虫代码import requests from lxml import etree from config import db import urllib.request import re, os, uuid, time def run(): ......

557

2022-07-08

使用 Python 的 requests 和 Beautiful Soup 来分析网页

学习这个 Python 教程，轻松提取网页的有关信息。浏览网页可能占了你一天中的大部分时间。然而，你总是需要手动浏览，这很讨厌，不是吗？你必须打开浏览器，然后访问一个网站，单击按钮，移动鼠标……相当费时费力。如果能够通过代码与互联网交互，岂不是更好吗？在 Python 的 requests 模块的帮助下，你可以使用 Python 从互联网 ......

480

2022-07-01

使用爬虫代理采集网站失败的解决方法

爬虫程序采集网站必须使用动态代理，才能避免出现网站访问频繁的限制，这是众所周知的。但是在具体采集网站的过程中，即使使用了动态代理依然会出现403、503或429的反爬错误，这是为什么呢？根据以往的经验，一般来说是因为以下几个原因造成的：1、动态User-Agent的修改爬虫程序采集网站，正常的HTTP请求都需要进行ua（User-Agent）优化，因为ua是 ......

409

2022-05-14

每天一个爬虫归档与标签

前言今天完成我的博客页面剩下的内容，并将该页面的所有内容整合起来，弄出一个归纳与提醒的小程序。归档与标签根据前面获取到的内容可以很容易的就完成归档与标签的获取，代码如下：month_post_count = result.xpath('//div [@class = "ui list readmore"]/a/@href') label_list = re ......

399

2022-04-27

利用爬虫获取当前博文数量与字数

由于个人博客没有博文统计的功能，于是自己手写了一个爬虫，用于获取当前博文数量与字数，具体的思路就是先获取整个文章列表，然后遍历文章来统计数量与字数import requests from lxml import etree import re import random from selenium import webdriver from sel ......

350

2022-04-21