网络爬虫所需知识简述——25-05-24 第13周第二篇

网络爬虫所需第三方库简述

网络爬虫，顾名思义，就是从竞赛提供的网页上爬取所需要的材料。但是这种能力如果用在真实网站上很容易触碰到法律的红线。“爬虫学得好，牢饭吃到饱。” 如果真的熟练掌握了对这些库的使用,请务必不要用于违法用途。

好了好了,接着介绍吧。接下来对各个库的介绍来自网上的各类资料以及我自己的部分感想。可能存在不准确之处，请各位自行分辨。

requests库

这个库是用来发送请求到网页服务器的，有些刚看这篇文章的初学者可能不懂什么叫“发送请求”之类的专业术语。简单点来讲，它就类似于一个浏览器，你输入网站地址，它给出页面内容。不过它给出的内容我们看不懂，只能用其它库（如Xpath库）进行处理。

Xpath库

上面提到了requests库获取了网页信息，但是我们看不懂。而Xpath与我个人常用的bs4库，就是用来解析网页信息的。从上面的例子接着延申，浏览器打开网页后，如果网页内容很多，我们找不到所需要的内容，我们会怎么办？当然是用浏览器的搜索功能了。 ~~（虽然很多人都不知道有这个功能）~~。 Xpath库就是配合requests库的搜索，或者说是筛选工具。从杂乱的数据中找到所需内容便是它的功能。至于如何使用它寻找数据，这就需要一些前端知识，具体的方法我们之后再讲。

Pandas库

这里的Pandas库用于将之前收集的数据写入至文件（通常是CSV文件）中。Pandas库在前三个模块中都有广泛的应用，在这里，我们使用的是它的CSV写入功能。还是从上面的例子进行延申，在浏览器中收集到有用的数据后，我们应该如何保存呢？当然是把它粘贴至word文档或者是excel表格中。而CSV，就是一种简易的表格格式。所以获取完有用的数据后，我们就可以让程序通过Pandas库将数据自动写入至文件中。

以上是“网络爬取”模块所需第三方库的基础介绍，至于具体的使用方式，等下一章吧。

code > 笔记

#code_note

网络爬虫所需知识简述——25-05-24 第13周第二篇

https://blog.19870918.xyz/p/9bce91df7975447ea1dcd5914d08088f/

Beitragsautor

zhangyi

Veröffentlicht am

May 23, 2025

Urheberrechtshinweis

【Python程序开发】湖南省职业院校技能大赛python程序开发赛项样题五 Vorheriger

【Python程序开发】湖南省职业院校技能大赛python程序开发赛项样题四 Nächster

网络爬虫所需知识简述——25-05-24 第13周 第二篇

网络爬虫所需第三方库简述

requests库

Xpath库

Pandas库

网络爬虫所需知识简述——25-05-24 第13周第二篇