Python 基础入门 Day15

欢迎来到 Python 基础入门 Day15！昨天我们学习了如何使用 requests 和 BeautifulSoup 实现 Web 爬虫，并简单提到了处理动态网页的挑战。今天，我们将深入了解如何使用 Selenium，一种可以模拟浏览器操作的工具，来应对动态网页的爬取。

from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC element = WebDriverWait(driver, 10).until( EC.visibility_of_element_located((By.CSS_SELECTOR, ".dynamic-content")) ) print(element.text)

五、示例：爬取动态加载的网页

以下示例展示了如何使用 Selenium 爬取动态加载的新闻标题：

5.1 代码实现

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 启动浏览器 driver = webdriver.Chrome() driver.get("https://news.ycombinator.com/") # 等待页面加载 WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.CLASS_NAME, "storylink")) ) # 提取新闻标题 titles = driver.find_elements(By.CLASS_NAME, "storylink") for title in titles: print(title.text) # 关闭浏览器 driver.quit()

5.2 输出结果

Show HN: New AI tool released Open Source Python Projects How to Learn Python Effectively ...

六、小结与练习

今天我们学习了如何使用 Selenium 处理动态网页，包括基本操作和复杂场景的处理。Selenium 是应对 JavaScript 渲染内容的强大工具，但由于需要启动浏览器，速度较慢，适合处理小规模数据爬取。

今日练习题：

使用 Selenium 模拟登录某个简单的网站（如博客、论坛）。
爬取电商网站首页的动态商品列表信息。
尝试爬取一个滚动加载页面的所有内容。

下一节预告：在 Day16 中，我们将探索如何将 Web 爬虫与 数据库 结合，完成数据的存储与管理。敬请期待！

希望你今天学得开心！如果有任何问题或需要进一步的解释，欢迎随时留言 😊。

Python 基础入门 Day15

目录

一、什么是 Selenium？

二、安装与环境配置

2.1 安装 Selenium 库

2.2 安装浏览器驱动

2.3 验证安装

三、Selenium 的基本操作

3.1 打开网页

3.2 定位元素

3.3 模拟用户操作

3.4 等待页面加载

3.5 关闭浏览器

四、动态网页的处理

4.1 滚动页面加载更多内容

4.2 捕获动态生成的内容

五、示例：爬取动态加载的网页

5.1 代码实现

5.2 输出结果

六、小结与练习

今日练习题：

Comments

发表回复取消回复

2024 年 11 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30

目录

一、什么是 Selenium？

二、安装与环境配置

2.1 安装 Selenium 库

2.2 安装浏览器驱动

2.3 验证安装

三、Selenium 的基本操作

3.1 打开网页

3.2 定位元素

3.3 模拟用户操作

3.4 等待页面加载

3.5 关闭浏览器

四、动态网页的处理

4.1 滚动页面加载更多内容

4.2 捕获动态生成的内容

五、示例：爬取动态加载的网页

5.1 代码实现

5.2 输出结果

六、小结与练习

今日练习题：

Comments

发表回复 取消回复

发表回复取消回复