专利名称:一种解决Web证书认证的爬虫方法专利类型:发明专利
发明人:王晓斌,傅玉生,勇萌哲,田坤鹏申请号:CN201711405633.0申请日:20171222公开号:CN107944055A公开日:20180420
摘要:本发明公开了一种解决Web证书认证的爬虫方法,涉及有证书的Web爬虫方法领域;其包括步骤1:获取目标网站的Web证书后根据证书的类型选择不同的方式导入证书获取Scrapy爬虫框架访问URL的权限;步骤2:在Scrapy爬虫框架的下载中间件DownLoad Middleware中集成自动化工具Selenium实现Scrapy爬虫框架访问URL暨模拟为浏览器访问;步骤3:基于步骤2进入浏览器后重写Scrapy爬虫框架中的下载中间件Downloader Middleware,并使用自动化工具Selenium的Webdriver获取Web页内容,将其返回给Scrapy爬虫框架中的爬虫Spider并进行解析获取数据完成爬虫工作。本发明解决了现有Scrapy爬虫框架无法完成对有证书验证的网站的爬虫工作的问题,达到了高效实现对有证书验证的网站的爬虫工作的效果。
申请人:成都优易数据有限公司
地址:611730 四川省成都市郫县德源镇(菁蓉小镇创业公社)大禹东路66号3栋9楼901室附-1
国籍:CN
代理机构:成都弘毅天承知识产权代理有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容