|
@@ -1,34 +1,9 @@
|
|
|
# 本地环境搭建文档
|
|
|
### 1.python 安装
|
|
|
+ 环境版本:python3.8.10
|
|
|
|
|
|
- 建议使用python3.8 python安装完成后要将本地的feapder包进行替换,此包根据实际需求,对原框架进行了部分修改
|
|
|
### 2.nodejs 安装
|
|
|
-
|
|
|
无注意事项
|
|
|
-### 3.firfox + geckodrive 安装
|
|
|
- 项目使用火狐浏览器 78.14 本地建议使用88版本之前的火狐和驱动,以免与项目环境不一致
|
|
|
- 导致项目无法正常运行
|
|
|
|
|
|
-# 爬虫开发流程
|
|
|
-## 1.feapder 创建爬虫文件
|
|
|
- feapder create -s <spider_name> <spider_type> spider_type建议使用 2 新包有对模板进行修改
|
|
|
- (spider_type=1 AirSpider; spider_type=2 Spider; spider_type=3 BatchSpider)
|
|
|
-
|
|
|
-## 2.填参数、解析:
|
|
|
- feapder.Request(url, item=menu._asdict(), cookies,callback,render,auto_request)
|
|
|
- 大部分参数同scrapy的Request参数相同,这里重点介绍
|
|
|
-#### 1)render
|
|
|
- 为true时使用selenium,这里在setting中定义的是firefox 无头、无图片、浏览器数量默认为1,即一个爬虫只打开一个浏览器
|
|
|
-#### 2)auto_request
|
|
|
- 为自动请求的参数,自定义下载文件、图片时推荐使用,当前框架中,调用下载附件的方法时、必须将此字段设置为False
|
|
|
-###### 3)is_abandoned
|
|
|
- 当发生异常时是否放弃重试 True/False. 默认False,根据实际需求可考虑使用
|
|
|
-###### 4)random_user_agent
|
|
|
- 随机 user_agent ,需要指定user_agent ,此处最好设置为False
|
|
|
-###### 5)use_session
|
|
|
- 是否使用session
|
|
|
-#### 6)request_sync
|
|
|
- 是否同步请求下载网页,默认异步。
|
|
|
- 如果该请求url过期时间快,可设置为True,相当于yield的reqeust会立即响应,而不是去排队
|
|
|
-###### 7)priority
|
|
|
- 优先级 越小越优先 默认300
|
|
|
+### 3.firfox + geckodrive 安装
|
|
|
+ 建议使用火狐浏览器 78.14,本地建议使用88版本之前的火狐和驱动,避免运行结果不一致
|