فهرست منبع

更新文档说明

dongzhaorui 1 سال پیش
والد
کامیت
d88d71b3f3
1فایلهای تغییر یافته به همراه3 افزوده شده و 28 حذف شده
  1. 3 28
      FworkSpider/README.md

+ 3 - 28
FworkSpider/README.md

@@ -1,34 +1,9 @@
 # 本地环境搭建文档
 ### 1.python 安装
+    环境版本:python3.8.10
 
-    建议使用python3.8 python安装完成后要将本地的feapder包进行替换,此包根据实际需求,对原框架进行了部分修改
 ### 2.nodejs 安装
-
     无注意事项
-### 3.firfox + geckodrive 安装
-    项目使用火狐浏览器 78.14 本地建议使用88版本之前的火狐和驱动,以免与项目环境不一致
-    导致项目无法正常运行
 
-# 爬虫开发流程
-## 1.feapder 创建爬虫文件
-    feapder create -s  <spider_name> <spider_type>  spider_type建议使用 2 新包有对模板进行修改
-            (spider_type=1 AirSpider; spider_type=2 Spider; spider_type=3 BatchSpider)
-
-## 2.填参数、解析:
-    feapder.Request(url, item=menu._asdict(), cookies,callback,render,auto_request)
-    大部分参数同scrapy的Request参数相同,这里重点介绍
-#### 1)render
-    为true时使用selenium,这里在setting中定义的是firefox 无头、无图片、浏览器数量默认为1,即一个爬虫只打开一个浏览器
-#### 2)auto_request 
-    为自动请求的参数,自定义下载文件、图片时推荐使用,当前框架中,调用下载附件的方法时、必须将此字段设置为False
-###### 3)is_abandoned
-    当发生异常时是否放弃重试 True/False. 默认False,根据实际需求可考虑使用
-###### 4)random_user_agent
-    随机 user_agent ,需要指定user_agent ,此处最好设置为False
-###### 5)use_session
-    是否使用session
-#### 6)request_sync
-    是否同步请求下载网页,默认异步。
-    如果该请求url过期时间快,可设置为True,相当于yield的reqeust会立即响应,而不是去排队
-###### 7)priority
-    优先级 越小越优先 默认300
+### 3.firfox + geckodrive 安装
+    建议使用火狐浏览器 78.14,本地建议使用88版本之前的火狐和驱动,避免运行结果不一致