如何用Python写爬虫

发表于2026-06-06|更新于2026-06-08|tech

|浏览量:

引言

爬虫是数据采集的重要工具。本文将带你用Python快速上手爬虫开发。

正文

环境准备

1	pip install requests beautifulsoup4

发送HTTP请求

import requests

url = "https://example.com"
response = requests.get(url)
print(response.status_code)
print(response.text[:500])

解析HTML

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
titles = soup.find_all('h1')
for title in titles:
    print(title.get_text())

保存数据

import json

data = {
    'title': '示例标题',
    'url': url
}
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

总结

本文介绍了Python爬虫的基础流程：发送请求 -> 解析页面 -> 提取数据 -> 保存数据。后续可以学习Scrapy框架和反爬策略。

文章作者: Ryan

文章链接: https://ryanwu.cn/2026/06/06/2026-06-06-ru-he-yong-python-xie-pa-chong/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Ryan's Blog！

python tutorial spider backend crawling

相关推荐

我的第一篇技术笔记

这是一篇技术笔记的示例文章。代码示例12345def hello_world(): print("Hello, World!") return "success"hello_world() 后续计划后续我会在这里分享更多技术文章，包括但不限于： Python 编程技巧前端开发经验机器学习项目实践算法题解

如何在文章中插入图片

引言在博客文章中插入图片非常简单，只需要两步：上传图片 + 引用图片。第一步：上传图片把图片文件放到这个目录： 1source/images/posts/ 例如： source/images/posts/my-photo.jpg source/images/posts/screenshot.png source/images/posts/diagram.svg 第二步：在文章中引用使用 Markdown 图片语法： 1![图片说明](/images/posts/my-photo.jpg) 示例下面是一张示例图片：完整流程总结12345678# 1. 复制图片到博客目录copy "C:\Users\你的电脑\Desktop\照片.jpg" "C:\Users\Lenovo\Desktop\ryanwu_blog\source\images\posts\"# 2. 在文章中引用# ![照片](/images/posts/照片.jpg)# 3. 发布python tools/publish.py 小贴士图片格式支持：jpg, p...

SpringBoot 后端开发笔记

分层架构设计Controller -> Service -> Mapper -> Database 的分层结构清晰明了。常用注解 @RestController 快速构建 RESTful API @MapperScan 自动扫描 MyBatis 接口 @Cacheable 配合 Redis 实现缓存数据库优化合理使用索引提升查询效率使用连接池管理数据库连接分页查询避免大数据量一次性加载

评论

数据加载中