博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy 动态IP、随机UA、验证码
阅读量:6352 次
发布时间:2019-06-22

本文共 762 字,大约阅读时间需要 2 分钟。

随机UA

DOWNLOADER_MIDDLEWARES增加自定义

from fake_useragent import UserAgentclass RandomUserAgentMiddlware(object):    # 随机更换user-agent    def __init__(self, crawler):        super(RandomUserAgentMiddlware, self).__init__()        self.ua = UserAgent()        self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")    @classmethod    def from_crawler(cls, crawler):        return cls(crawler)    def process_request(self, request, spider):        def get_ua():            return getattr(self.ua, self.ua_type)        request.headers.setdefault('User-Agent', get_ua())

备注:settings.py增加配置项

RANDOM_UA_TYPE = "random"

 

动态IP

1、通过免费的代理IP,如西刺,自己获取IP源进行使用

2、免费插件scrapy_proxies

3、收费插件scrapy-crawlera

 

验证码

1、编码实现(tesseract-ocr)

2、在线打码,如云打码

3、人工打码

 

 

 

RANDOM_UA_TYPE = "random"

转载地址:http://djmla.baihongyu.com/

你可能感兴趣的文章
GreenDao 数据库升级 连接多个DB文件 或者指定不同的model&dao目录
查看>>
M1卡破解(自从学校升级系统之后,还准备在研究下)【转】
查看>>
vue 访问子组件示例 或者子元素
查看>>
linux内核--自旋锁的理解
查看>>
银行卡的三个磁道
查看>>
OpenSSL 提取 pfx 数字证书公钥与私钥
查看>>
Keepalived详解(四):通过vrrp_script实现对集群资源的监控【转】
查看>>
CollapsingToolbarLayoutDemo【可折叠式标题栏,顺便带有CardView卡片式布局】
查看>>
CentOS7.4安装配置mysql5.7 TAR免安装版
查看>>
解决IE二级链接无法打开故障
查看>>
Windows phone应用开发[16]-数据加密
查看>>
SQL Server 迁移数据到MySQL
查看>>
通用数据压缩算法简介
查看>>
The next Industry Standard in IT Monitoring, a python implementation Nagios like tool --- Shinken
查看>>
(笔记)找工作,该怎么进补
查看>>
div的显示和隐藏以及点击图标的更改
查看>>
(轉貼) Ubuntu將在ARM平台netbook上現身 (SOC) (News) (Linux) (Ubuntu)
查看>>
SQL注入测试工具:Pangolin(穿山甲)
查看>>
在html 的img属性里只显示图片的部分区域(矩形,给出开始点和结束点),其他部份不显示,也不要拉伸...
查看>>
程序员第二定律:量化管理在程序员身上永无可能
查看>>