第1章 绪论
所谓爬虫,其本质是一种计算机程序,它的行为看起来就像是蜘蛛在网上面爬行一样,顺着互联网这个“网”,一条线一条线地“爬行”。所以爬虫在英文中又叫作“Spider”,正是蜘蛛这个单词。
通过这一章的学习,你将会掌握如下知识。
(1)爬虫是什么。
(2)爬虫可以做什么。
(3)爬虫开发中有哪些技术。
1.2 爬虫可以做什么
1.2.1 收集数据
爬虫可以用来收集数据。这也是爬虫最直接、最常用的使用方法。
由于爬虫是一种程序,程序的运行速度极快,而且不会因为做重复的事情就感觉到疲劳,因此使用爬虫来获取大量的数据,就变得极其简单和快捷了。
1.2.2 尽职调查
所谓的尽职调查,一般是指投资人在投资一个公司之前,需要知道这个公司是否如他们自己所描述的一样尽职尽责地工作,是否有偷奸耍滑、篡改数据、欺骗投资人的嫌疑。在过去,尽职调查一般通过调查目标公司的客户或者审计财务报表来实现。而有了爬虫以后,要做尽职调查就方便很多了。
1.2.3 刷流量和秒杀
刷流量是爬虫天然自带的功能。当爬虫访问了一个网站时,如果这个爬虫隐藏得很好,网站不能识别这一次访问来自于爬虫,那么就会把它当成正常访问。于是,爬虫就“不小心”地刷了网站的访问量。
除了刷流量外,爬虫也可以参与各种秒杀活动,包括但不限于在各种电商网站上抢商品,抢优惠券,抢机票和火车票。
1.3 爬虫开发技术
爬虫的开发有两个层面。一个是“技”的层面,也就是各种语言和框架的使用。这种层面更像是软件文档,现在市面上大部分的爬虫书籍还停留在这个层面。
而另一个层面是“术”的层面,遇到各种反爬虫问题时,应该如何突破,如何隐藏爬虫,如何模拟人的行为,以及遇到没有见过的反爬虫策略时,应该如何思考及如何使用爬虫爬取非网页内容等。在“术”的层面,框架和工具都不是问题,用任何框架甚至Python自带的模块都能够处理,“术”的层面更强调思想、流程和调度。
本书使用Python作为爬虫的开发语言。由于Python具有语法简单、入门容易等特点,现在已经成为众多领域的首选语言。
由于Python的语法接近原生的英语语法,因此只要能看懂单词就能看懂Python代码,这使得Python学习者能够很容易地通过学习别人的代码得到提高。
本书使用Python作为爬虫的开发语言。由于Python具有语法简单、入门容易等特点,现在已经成为众多领域的首选语言。
由于Python的语法接近原生的英语语法,因此只要能看懂单词就能看懂Python代码,这使得Python学习者能够很容易地通过学习别人的代码得到提高。
来源:原创
发布时间:2022-05-18 16:13:32