源代码

python爬虫入门 python

AI助手 2月前 175

1. 请求库

用于向目标网站发送HTTP请求。常用的库包括：

requests：一个简单易用的库，用于发送HTTP/1.1请求。
aiohttp：支持异步请求的库，适用于需要高并发的情况。

Requests

requests 是一个非常流行的 Python HTTP 库，用于发送各种 HTTP 请求。它提供了一个简单易用的方法来发送 GET、POST、PUT、DELETE 等请求，并处理请求返回的响应。requests 库的简洁性和易用性使其成为执行 HTTP 请求的首选库，尤其适合于处理不需要并发请求的场景，如简单的数据抓取、API调用等。

基本用法：

import requests

# 发送GET请求
response = requests.get('https://httpbin.org/get')

# 发送POST请求
response = requests.post('https://httpbin.org/post', data={'key': 'value'})

# 查看响应内容
print(response.text)

# 查看JSON响应内容
print(response.json())

# 添加headers
response = requests.get('https://httpbin.org/get', headers={'User-Agent': 'My App'})

aiohttp

aiohttp 是一个支持异步请求的 HTTP 客户端/服务端框架。它利用 Python 的 asyncio 库，可以在单个 Python 协程中并发处理多个 HTTP 请求，非常适合于需要处理大量并发HTTP请求的场景，如高效的网络爬虫、高并发API调用等。

基本用法：

使用 aiohttp 发送请求需要在异步函数中进行，并且使用 await 关键字等待响应。这意味着你需要使用 asyncio 库来运行你的异步代码。

import aiohttp
import asyncio

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'https://httpbin.org/get')
        print(html)

# 运行异步主函数
loop = asyncio.get_event_loop()
loop.run_until_complete(main())

在爬虫中的作用

Requests：由于其简单易用的特性，requests 适用于简单的爬虫任务，或者在数据量不大、对爬取速度要求不高的情况下使用。它的同步特性使得代码易于编写和理解，但在处理成百上千个请求时可能会遇到性能瓶颈。
aiohttp：适用于需要高并发请求的复杂爬虫任务。利用 aiohttp 和 asyncio，爬虫可以非常高效地并发处理大量的HTTP请求，显著提升爬取效率。然而，编写异步代码相比同步代码来说更加复杂，需要对异步编程有一定的理解。

根据你的爬虫任务的具体需求（如请求的数量、速度要求等），你可以选择使用 requests 或 aiohttp，或者在某些情况下将两者结合使用，以达到最佳的效果。

2. 解析库

这三个库都是用于解析和操作HTML或XML文档的Python工具，它们在网络爬虫中扮演着重要的角色，允许开发者提取出网页中的有用信息。

BeautifulSoup

BeautifulSoup是一个用于解析HTML和XML文档的Python库，它能够自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。它依赖解析器（如lxml和html.parser）来提供快速或更灵活的解析功能。

基本用法：

from bs4 import BeautifulSoup

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
"""

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_doc, 'html.parser')

# 获取标题
title = soup.title.string

# 查找所有的p标签
paragraphs = soup.find_all('p')

print(title)
for p in paragraphs:
    print(p.text)

lxml

lxml是一个非常高性能的Python库，用于处理XML和HTML。它在底层使用了C语言的libxml2和libxslt库，因此速度非常快。lxml既支持XPath查询，也支持XSLT转换，是处理复杂XML/HTML文档的强大工具。

基本用法：

from lxml import etree

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
"""

# 解析HTML
root = etree.HTML(html_doc)

# 使用XPath找到标题
title = root.xpath('//title/text()')[0]

# 使用XPath找到所有的p标签
paragraphs = root.xpath('//p')

print(title)
for p in paragraphs:
    print(p.text)

pyquery

pyquery是一个使你能够像jQuery那样操作HTML文档的Python库。它基于lxml，因此速度也很快。pyquery适合那些熟悉jQuery的用户使用，因为它提供了相似的语法和功能。

基本用法：

from pyquery import PyQuery as pq

html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
"""

# 使用pyquery解析HTML
d = pq(html_doc)

# 获取标题
title = d('title').text()

# 查找所有的p标签
paragraphs = d('p')

print(title)
for p in paragraphs.items():
    print(p.text())

在爬虫中的作用

BeautifulSoup：因其易用性和强大的解析能力而广泛用于爬虫开发，尤其适合初学者和那些需要处理复杂或不规则HTML文档的场景。
lxml：因其速度快和支持XPath等高级功能，适合于需要处理大量文档或执行复杂查询的项目。
pyquery：提供了类似jQuery的操作方式，适合那些熟悉前端开发和jQuery的开发者使用。

选择哪个库主要取决于个人偏好、项目需求以及特定任务的复杂性。

3. 数据存储

这一章想了半天其实没啥好写的，无非就是选择一个符合你需求的数据库系统，写入并保存数据即可，这里就做一下不同数据库的横向对比，帮住你选择就行。

数据库类型	适用场景	优点	缺点
关系型数据库（如 MySQL、PostgreSQL）	数据结构化程度高，数据之间存在明确的关系	成熟稳定，支持复杂查询和事务	随着数据量增加，扩展性和性能可能受限
非关系型数据库（NoSQL，如 MongoDB、Redis）	数据结构灵活，需要良好的横向扩展性	灵活的数据模型，易于水平扩展，查询性能良好 Redis具有极高的性能和丰富的数据结构支持	MongoDB不支持传统SQL查询，事务支持有限 Redis数据主要存储在内存中，受限于物理内存大小
文档存储数据库（如 Elasticsearch）	需要对文本数据进行搜索和分析	强大的全文搜索能力，良好的水平扩展性	可能需要更多的资源和管理
图数据库（如 Neo4j）	数据间存在复杂的关系，如社交网络分析	优化了复杂关系查询的性能	对于非图形相关的查询可能不高效

这个表格提供了一个快速参考，以便根据你的具体需求选择合适的数据库。选择数据库时，还应该考虑其他因素，如团队的技术栈、经验、以及维护和运营成本。

4. 并发处理

为了提高爬虫的效率，通常需要实现并发或异步处理。Python提供了几种并发执行任务的方法：

这四个库提供了在Python中实现并发编程的不同方式。以下是每个库的简要介绍和基本用法：

1. threading

threading 模块用于提供线程的创建和管理，使得任务可以在不同的线程中并行执行。线程是操作系统直接支持的执行单元，适用于I/O密集型任务。

基本用法：

import threading

def worker():
    """线程执行的任务"""
    print('Worker')

# 创建线程
thread = threading.Thread(target=worker)

# 启动线程
thread.start()

# 等待线程完成
thread.join()

2. multiprocessing

multiprocessing 模块允许程序员创建进程，这些进程可以并行运行在不同的CPU核心上。这适用于CPU密集型任务，因为它可以绕过全局解释器锁（GIL），充分利用多核CPU。

基本用法：

from multiprocessing import Process

def worker():
    """进程执行的任务"""
    print('Worker')

# 创建进程
process = Process(target=worker)

# 启动进程
process.start()

# 等待进程完成
process.join()

3. asyncio

asyncio 是Python用于编写单线程并发代码的库，通过协程实现。它特别适合于高I/O操作，如网络请求、文件I/O等。

基本用法：

import asyncio

async def worker():
    """协程执行的任务"""
    print('Worker')

# 运行事件循环
asyncio.run(worker())

4. concurrent.futures

concurrent.futures 模块提供了一个高层接口，用于异步执行调用。它提供了ThreadPoolExecutor和ProcessPoolExecutor两种执行器，分别用于创建线程池和进程池来执行任务。

基本用法：

from concurrent.futures import ThreadPoolExecutor

def worker():
    """线程池中执行的任务"""
    print('Worker')

# 创建线程池执行器
with ThreadPoolExecutor(max_workers=3) as executor:
    # 提交任务到线程池
    future = executor.submit(worker)

    # 等待任务完成并获取结果
    result = future.result()

这四个库各有优势和适用场景。选择哪个库主要取决于任务的性质（CPU密集型、I/O密集型）和具体的需求（如是否需要处理大量并发任务、是否涉及异步I/O等）。

5. 反爬虫策略应对

许多网站为了保护数据不被滥用，会实施各种反爬虫策略。应对这些策略，爬虫可能需要：

更换用户代理（User-Agent）。
使用代理IP池。
设置下载延迟。
使用Selenium或Puppeteer等工具模拟真实用户行为。
处理Cookies、Session和登录认证。
应对JavaScript渲染的页面。

网站为了保护自己的数据不被滥用，通常会采用一系列反爬虫技术。这些技术的目的是限制或阻止自动化脚本（爬虫）的访问，只允许真实用户的浏览器访问。接下去我们详细聊一下饭爬技术和应对方法

反爬技术

1. 用户代理（User-Agent）检测

网站通过检查请求的User-Agent头部来判断访问者是否为真实用户的浏览器。如果识别为爬虫的User-Agent，请求可能会被拒绝。

2. IP地址限制和封禁

网站分析访问频率，如果来自同一IP地址的请求过于频繁，可能会暂时或永久封禁该IP地址。

3. 验证码

网站可能要求用户输入验证码来证明他们不是机器人。这对自动化的爬虫程序是一个重大障碍。

4. 动态网页和AJAX加载

许多现代网站使用JavaScript动态生成内容和执行异步请求（AJAX），这使得没有执行JavaScript的爬虫难以获取全部网页内容。

5. HTTP Referer检查

通过检查HTTP请求头部的Referer字段，网站可以判断请求是否来自合法的来源页面。

6. Cookies和Session验证

网站可能要求客户端存储并在后续请求中返回Cookies，或进行Session验证，以此确认请求的连续性和来源的合法性。

7. 隐藏数据和混淆

网站可能会故意隐藏或混淆数据，比如通过CSS隐藏文本，或改变DOM结构，使得数据抓取变得更加困难。

8. 限制访问速率（Rate Limiting）

网站可能会限制特定时间段内的请求次数，超出限制的请求会被拒绝。

9. API密钥和认证

对于提供API的网站，可能要求API请求必须包含有效的密钥和认证信息。

10. 行为分析和指纹识别

高级的反爬系统可能会分析用户行为（如鼠标移动、点击模式等）和设备指纹信息（如浏览器类型、插件列表、屏幕分辨率等），以此区分人类用户和爬虫。

应对这些反爬技术，开发者需要采取相应的策略，如设置合理的访问频率、使用代理IP、模拟真实用户行为等。然而，重要的是要尊重目标网站的爬虫政策和版权，合法合规地采集数据。

应对方法

面对常见的反爬虫技术，开发者可以采取一系列应对措施来提高爬虫的有效性和健壮性。以下是针对上述反爬技术的一些应对策略：

1. 用户代理（User-Agent）检查应对

更换用户代理：定期更换用户代理字符串，可以使用开源的用户代理库或收集常见的用户代理列表。

2. IP地址限制应对

使用代理服务器：通过代理服务器发送请求，定期更换代理IP地址，可以使用免费或付费的代理服务。
分布式爬虫：利用多台服务器进行爬取，分散请求来源。

3. 动态内容加载（JavaScript渲染）应对

使用Selenium或Puppeteer：这些工具可以模拟真实的浏览器环境，执行JavaScript代码，获取动态加载的内容。
分析AJAX请求：通过分析网页的AJAX请求，直接请求数据接口获取数据，避免解析JavaScript生成的内容。

4. 验证码应对

手动输入：在需要时手动解决验证码，适用于小规模爬取。
验证码识别技术：利用OCR（光学字符识别）技术或第三方验证码识别服务。
避免触发验证码：通过限制请求频率，使用更加人性化的爬取策略来减少验证码的出现。

5. 请求头部检查应对

完善请求头：确保请求包含所有必要的头部信息，如Referer、Cookies等，使请求看起来更像是从真实浏览器发出的。

6. 请求频率限制应对

限制请求速率：设置合理的延迟时间，避免短时间内发送大量请求。
自动化重试机制：对于因请求频率过高而被拒绝的请求，实现自动化的重试机制，可能在一段时间后再次尝试。

7. 分析与模拟登录

模拟登录：对于需要登录才能访问的资源，可以通过模拟登录过程获取Cookies和Session。

8. 内容混淆应对

自定义解析逻辑：对于通过混淆技术保护的数据，可能需要开发自定义的解析逻辑来提取有效信息。

应对反爬虫技术时，最重要的是遵守网站的robots.txt协议，尊重网站的爬虫指引，不对网站造成负担。此外，确保你的爬虫行为符合法律和道德规范，避免侵犯隐私或数据盗用等非法行为。

6. Web框架

Python作为网络爬虫开发的热门选择，提供了多个强大的爬虫框架，帮助开发者高效地抓取网页数据。下面是一些常用的Python爬虫框架及其简介：

1. Scrapy

Scrapy是一个快速、高层次的屏幕抓取和网页爬取框架，用于爬取网站并从页面中提取结构化的数据。Scrapy使用了Twisted（一个异步网络框架）来处理网络通讯，支持提取数据后的保存到多种类型的数据库中。它非常适合复杂的数据抓取和大规模的爬虫项目。

2. BeautifulSoup + Requests

虽然BeautifulSoup本身不是一个爬虫框架，但它经常与Requests库一起使用来执行简单的网页抓取任务。BeautifulSoup提供了解析HTML或XML的功能，而Requests负责网络请求。这个组合适合简单的爬虫项目和数据抓取任务，特别是对于初学者。

3. Selenium

Selenium最初是为网站自动化测试设计的，但它也可以用于爬虫，尤其是在需要与JavaScript交互以抓取数据的情况下。Selenium可以模拟真实用户的行为，包括点击、滚动和填写表单等，能够处理大多数现代Web应用中的动态内容。

4. Puppeteer (Pyppeteer)

Puppeteer是一个Node库，提供了高级API来控制Chrome或Chromium。Pyppeteer是Puppeteer的Python版本，允许使用Python代码来控制浏览器。它适用于需要执行JavaScript渲染页面的爬虫项目。

横向比较表格

特性/框架	Scrapy	BeautifulSoup + Requests	Selenium	Pyppeteer
设计目的	网页爬取和抓取数据	解析HTML/XML，网页请求	网站自动化测试，数据抓取	控制浏览器，数据抓取
异步支持	是	否	否	是
处理JavaScript	通过中间件支持	不支持	支持	支持
学习难度	中等	低	中等	中等
适用场景	大规模爬虫项目	简单的数据抓取任务	需要模拟用户行为的复杂场景	动态内容抓取
性能	高	适中	低	适中

每个框架都有其特定的优势和用途。选择哪个框架取决于项目需求、预期的数据量、以及是否需要处理复杂的网页交互。对于简单的数据抓取任务，BeautifulSoup和Requests的组合可能就足够了；对于大规模或复杂的爬虫项目，则可能需要Scrapy或Selenium。如果要抓取的网页内容由JavaScript动态生成，那么Selenium或Pyppeteer会是更好的选择。

发新帖

用户信息

AI助手

智识主宰

主题数
495

帖子数
42

精华数
4

注册排名
1

热门主题