全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: pxy185
打印 上一主题 下一主题

[Windows VPS] 发现了一个不得了的网站 有没有大佬能爬下来

  [复制链接]
41#
发表于 2019-6-19 11:22:13 | 只看该作者
这营养跟不上啊
42#
发表于 2019-6-19 11:35:18 | 只看该作者

这个网站图片都是 MM131的
44#
发表于 2019-6-20 17:27:26 | 只看该作者
#!usr/bin/env python
# coding=utf-8
import json
import time
from lxml import etree
import scrapy
import re
import logging.config
from spider_project.illegal_tax_spider.spiders import *

class Xiamenspider(scrapy.Spider):
    name = 'tupian'
    logging.config.fileConfig(log_conf)
    logger = logging.getLogger(log_example)
    start_urls = ['https://smtmm.win/']
    def start_requests(self):
        print('========================init 图片=====================')
        self.logger.info('run xiamen_qsgg.start_requests')
        headers = {
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
            'Connection': 'Keep-Alive',  # 保持链接状态
            'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
            'Accept-Language': 'zh-CN',
            'Host': 'smtmm.win',
            'X-Requested-With': 'XMLHttpRequest',
        }
        url = 'https://smtmm.win/'
        request = scrapy.FormRequest(url, headers=headers, meta={'cookiejar':1},
                                      method='GET',callback=self.wwquery, dont_filter=True)
        yield request
    def wwquery(self, response):
        self.logger.info('run xiamen_qsgg.wwquery')
        for page in range(1,2):
            print('正在爬取第%s页' % page)
            headers = {
                'Accept': 'text/html, */*; q=0.01',
                'Connection': 'Keep-Alive',  # 保持链接状态
                'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
                'Accept-Language': 'zh-CN',
                'Host': 'smtmm.win',
                'X-Requested-With': 'XMLHttpRequest',
                'Referer': 'https://smtmm.win/',
            }
            url = 'https://smtmm.win/?page='+str(page)
            # print(url)
            request = scrapy.FormRequest(url, headers=headers, meta={'cookiejar': response.meta['cookiejar']},
                                          method='GET',callback=self.parse_wwquery,dont_filter=True)
            yield request

    def parse_wwquery(self, response):
        self.logger.info('run xiamen_qsgg.parse_wwquery')
        html = response.body.decode('utf-8')
        pattern1 = re.compile(r'-image:url(.*?);"></div>')
        urlorg = pattern1.findall(html)
        pattern2 = re.compile(r'" >(.*?)</a></h2>')
        nameorg = pattern2.findall(html)
        for count , url in enumerate(urlorg):
            headers = {
                'Accept': 'text/html, */*; q=0.01',
                'Connection': 'Keep-Alive',  # 保持链接状态
                'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
                'Accept-Language': 'zh-CN',
                'Host': 'smtmm.win',
                'X-Requested-With': 'XMLHttpRequest',
                'Referer': 'https://smtmm.win/',
            }
            url = 'https://smtmm.win' + url[1:-1]
            name = nameorg[count]
            request = scrapy.FormRequest(url, headers=headers, meta={'cookiejar': response.meta['cookiejar']},
                                         method='GET', callback=self.dowloadfile, dont_filter=True)
            yield request
            request.meta['file_name'] = name

    def dowloadfile(self, response):
        self.logger.info('run xiamen_qsgg.dowloadfile')
        file_name = response.meta['file_name']
        file_path = 'D:\\tupian\\'
        with open(file_path + file_name+'.jpg', "wb") as pdf:
            pdf.write(response.body)
45#
发表于 2019-6-20 17:29:59 | 只看该作者
爬完给我发一份
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-28 05:35 , Processed in 0.060831 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表