初学者如何用 Python 写第一个爬虫？

写一个 Python 爬虫是许多 Python 初学者的第一步，它能够帮助你抓取互联网上的数据，并将其保存到本地进行分析。写爬虫并不难，下面将一步步指导你如何用 Python 写一个简单的爬虫，抓取网页上的信息。

一、环境准备

安装 Python：
确保你已经安装了 Python，可以在命令行输入以下命令检查是否安装：python --version 如果没有安装 Python，可以去 Python 官网下载并安装。
安装依赖库：
在爬虫中，我们通常使用以下几个库：
- requests：用于发送 HTTP 请求，获取网页内容。
- BeautifulSoup：用于解析网页内容，提取我们需要的数据。
使用 pip 安装这两个库：pip install requests beautifulsoup4

二、编写第一个爬虫

假设我们要爬取一个简单的网页，抓取网页上的标题（<title> 标签）和一些其他的内容（例如链接）。我们使用 requests 获取网页内容，然后用 BeautifulSoup 解析网页并提取信息。

1. 发送 HTTP 请求并获取网页内容

我们使用 requests.get() 发送一个 GET 请求，从指定的网页获取 HTML 内容。

2. 使用 BeautifulSoup 解析 HTML 内容

BeautifulSoup 库允许我们轻松地解析 HTML，并用 Python 的方式访问其中的内容。我们可以用它来查找网页中的标题、链接或其他元素。

示例代码：

import requests
from bs4 import BeautifulSoup

# 1. 发送 HTTP 请求获取网页内容
url = 'https://example.com'  # 替换为你要爬取的网址
response = requests.get(url)

# 2. 检查请求是否成功
if response.status_code == 200:
    # 3. 解析网页
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 4. 获取网页的标题
    title = soup.title.string
    print(f"网页标题: {title}")

    # 5. 获取网页中的所有链接（<a> 标签）
    links = soup.find_all('a')
    for link in links:
        href = link.get('href')
        if href:
            print(f"链接: {href}")
else:
    print(f"请求失败，状态码：{response.status_code}")

三、解释代码

requests.get(url)：发送 HTTP GET 请求到指定的 URL，获取网页的 HTML 内容。
response.status_code：检查 HTTP 请求的返回状态码，确保请求成功。如果状态码是 200，表示请求成功。
BeautifulSoup(response.text, 'html.parser')：使用 BeautifulSoup 解析返回的 HTML 内容，'html.parser' 是 BeautifulSoup 用来解析 HTML 的方式。
soup.title.string：获取网页的标题，<title> 标签内的内容。
soup.find_all('a')：找到网页中所有的 <a> 标签，通常这些标签用于超链接，抓取它们的 href 属性就是抓取链接的地址。

四、运行爬虫

将上面的代码保存为 simple_spider.py，在命令行运行：

python simple_spider.py

如果爬取成功，你将看到网页的标题和所有的链接打印出来。

五、常见问题及改进

1. 如何处理网页中没有 `<title>` 或 `<a>` 标签的情况？

有些网页可能没有 <title> 或没有任何 <a> 标签，为了避免代码报错，可以加一些条件判断。

# 获取网页标题
title = soup.title.string if soup.title else '没有标题'
print(f"网页标题: {title}")

2. 如何处理重定向和错误响应？

某些网页可能会进行重定向或返回错误状态码。在 requests.get() 中，你可以通过 allow_redirects=False禁止重定向，或者通过 response.raise_for_status() 抛出异常。

response = requests.get(url)
try:
    response.raise_for_status()  # 检查请求是否成功
    # 进一步处理...
except requests.exceptions.HTTPError as e:
    print(f"HTTP 错误：{e}")

3. 如何爬取动态网页？

有些网站内容是通过 JavaScript 动态加载的，单纯使用 requests 获取不到这些动态内容。这时，你可以使用 Selenium 或 Playwright 等工具，它们可以模拟浏览器，执行 JavaScript 代码，抓取动态生成的内容。

六、总结

通过上面的步骤，你学会了如何用 Python 写一个简单的爬虫。你可以进一步学习如何：

处理分页：抓取多个页面的内容。
保存数据：将爬取的数据保存到文件、数据库或 Excel 表格中。
处理反爬虫措施：使用代理、调整请求头等技术，绕过一些基本的反爬虫策略。

这个爬虫只是一个入门示例，随着对爬虫技术理解的深入，你将能够写出更复杂、更高效的爬虫。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

初学者如何用 Python 写第一个爬虫？

一、环境准备

二、编写第一个爬虫

1. 发送 HTTP 请求并获取网页内容

2. 使用 BeautifulSoup 解析 HTML 内容

示例代码：

三、解释代码

四、运行爬虫

五、常见问题及改进

1. 如何处理网页中没有 `<title>` 或 `<a>` 标签的情况？

2. 如何处理重定向和错误响应？

3. 如何爬取动态网页？

六、总结

lichongyang

发表回复取消回复

初学者如何用 Python 写第一个爬虫？

一、环境准备

二、编写第一个爬虫

1. 发送 HTTP 请求并获取网页内容

2. 使用 BeautifulSoup 解析 HTML 内容

示例代码：

三、解释代码

四、运行爬虫

五、常见问题及改进

1. 如何处理网页中没有 <title> 或 <a> 标签的情况？

2. 如何处理重定向和错误响应？

3. 如何爬取动态网页？

六、总结

lichongyang

发表回复 取消回复

1. 如何处理网页中没有 `<title>` 或 `<a>` 标签的情况？

发表回复取消回复