网络爬虫所需知识简述——25-05-24 第13周 第二篇

网络爬虫所需第三方库简述

网络爬虫,顾名思义,就是从竞赛提供的网页上爬取所需要的材料。但是这种能力如果用在真实网站上很容易触碰到法律的红线。“爬虫学得好,牢饭吃到饱。” 如果真的熟练掌握了对这些库的使用,请务必不要用于违法用途。

好了好了,接着介绍吧。接下来对各个库的介绍来自网上的各类资料以及我自己的部分感想。可能存在不准确之处,请各位自行分辨。

requests库

这个库是用来发送请求到网页服务器的,有些刚看这篇文章的初学者可能不懂什么叫“发送请求”之类的专业术语。简单点来讲,它就类似于一个浏览器,你输入网站地址,它给出页面内容。不过它给出的内容我们看不懂,只能用其它库(如Xpath库)进行处理。

Xpath库

上面提到了requests库获取了网页信息,但是我们看不懂。而Xpath与我个人常用的bs4库,就是用来解析网页信息的。从上面的例子接着延申,浏览器打开网页后,如果网页内容很多,我们找不到所需要的内容,我们会怎么办?当然是用浏览器的搜索功能了。 (虽然很多人都不知道有这个功能)。 Xpath库就是配合requests库的搜索,或者说是筛选工具。从杂乱的数据中找到所需内容便是它的功能。至于如何使用它寻找数据,这就需要一些前端知识,具体的方法我们之后再讲。

Pandas库

这里的Pandas库用于将之前收集的数据写入至文件(通常是CSV文件)中。Pandas库在前三个模块中都有广泛的应用,在这里,我们使用的是它的CSV写入功能。还是从上面的例子进行延申,在浏览器中收集到有用的数据后,我们应该如何保存呢?当然是把它粘贴至word文档或者是excel表格中。而CSV,就是一种简易的表格格式。所以获取完有用的数据后,我们就可以让程序通过Pandas库将数据自动写入至文件中。

以上是“网络爬取”模块所需第三方库的基础介绍,至于具体的使用方式,等下一章吧。


网络爬虫所需知识简述——25-05-24 第13周 第二篇
https://blog.19870918.xyz/p/9bce91df7975447ea1dcd5914d08088f/
Beitragsautor
zhangyi
Veröffentlicht am
May 23, 2025
Urheberrechtshinweis