Python爬虫 - 灯火阑珊のBlog

17 7月 2025 Python爬虫

BeautifulSoup4 从基础语法到场景爬虫实战

本文系统讲解 BeautifulSoup4(bs4)网页数据提取技术,先对比 bs4 与 lxml 的解析差异,介绍标签提取、属性匹配等核心语法;实战部分聚焦新浪热搜(突破反爬获取标题、热度)与汽车之家新闻(多页批量爬取标题、链接等信息),附完整代码。

14 7月 2025 Python爬虫

在数据获取领域,XPath 凭借其精准的节点定位能力,成为爬虫开发中解析 HTML 页面的重要工具。本文围绕 XPath 爬虫实战展开,通过四大典型案例 —— 百度页面标签爬取、新浪热搜数据抓取、豆瓣电影基础影评提取及进阶多页影评采集,逐步拆解爬虫开发的核心流程,掌握从数据存储的完整技术链条。

13 7月 2025 Python爬虫

本文介绍 XPath 的环境配置、核心语法与数据提取方法,通过实际小案例演示 XPath 的应用,同时讲解 lxml 库的安装与使用,帮助读者掌握爬虫数据提取技能。