代码初始化

10 months ago · a38f378e16
32 changed files with 1897 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,10 @@
 data
 venv
 **/log
 .idea
 **/__pycache__/
 test.py
 config.py
 Pipfile
 Pipfile.lock
 run.bat
--- a/base/init.py
+++ b/base/init.py
@ -0,0 +1 @@
 # -*- coding: utf-8 -*-
--- a/base/base_spider.py
+++ b/base/base_spider.py
@ -0,0 +1,21 @@
 # -*- coding: utf-8 -*-
 from abc import ABC, abstractclassmethod
 class AbstractSpider(ABC):
    """
        爬虫抽象类
    """
    def init_config(self):
        """
        初始化配置
        :return:
        """
        pass
    def start(self, task_id):
        """
        运行爬虫
        :return:
        """
--- a/base/enums.py
+++ b/base/enums.py
@ -0,0 +1,26 @@
 # -*- coding: utf-8 -*-
 from enum import Enum
 class TaskStatus(Enum):
    WAITING = 1
    RUNNING = 2
    COMPLETED = 3
    FAIL = 4
    def __eq__(self, other):
        return self.value == other
 class Platform(Enum):
    XIN_HUA = "xin_hua"
    REN_MIN = "ren_min"
    YANG_SHI = "yang_shi"
    def __eq__(self, other):
        return self.value == other
 if __name__ == '__main__':
    print(Platform.REN_MIN == "ren_min")
--- a/db.py
+++ b/db.py
@ -0,0 +1,31 @@
 # -*- coding: utf-8 -*-
 from tortoise import Tortoise, run_async
 from config import *
 from utils.utils import logger
 """
 数据库操作
 """
 def get_db_url():
    """
    拼接数据库url
    :return:
    """
    return F"mysql://{DB_USER}:{DB_PASSWORD}@{DB_HOST}:{DB_PORT}/{DB_DATABASE}"
 async def init():
    """
    初始化数据库连接
    :return:
    """
    await Tortoise.init(
        db_url=get_db_url(),
        modules={"models": ['models.monitor_result_db', 'models.monitor_task_db']}
    )
    await Tortoise.generate_schemas()
    logger.info("[数据库]初始化数据库连接成功")
--- a/lib/stealth.min.js
+++ b/lib/stealth.min.js
--- a/main.py
+++ b/main.py
@ -0,0 +1,88 @@
 # -*- coding: utf-8 -*-
 import argparse
 import asyncio
 import os
 import sys
 import config
 import db
 import utils.date_format as date_format
 from base.enums import Platform
 from models import monitor_task_model
 from utils.scheduler import SchedulerManager
 from utils.utils import logger
 def task_group(tasks):
    groups = {}
    for name, enum in Platform.__members__.items():
        groups[enum.value] = []
    for task in tasks:
        if task.platform in groups:
            groups[task.platform].append(task)
    return list(groups.values())
 async def do_get_task_job():
    """
    获取任务信息
    :return:
    """
    await db.init()
    tasks = await monitor_task_model.get_today_task()
    if not tasks:
        logger.info(F"没有获取到任务信息")
        return
    # 分组
    # groups = task_group(tasks)
    # random.shuffle(groups)
    schedular_manager = SchedulerManager()
    logger.info(F"============================== 获取到{len(tasks)}条任务信息 ==============================")
    schedular_manager.add_tasks(tasks, True)
 def restart():
    os.execl(sys.executable, sys.executable, *sys.argv)
 def load_arg_parse():
    """
    解析启动参数
    :return:
    """
    parse = argparse.ArgumentParser(description="抓取社媒新闻数据")
    parse.add_argument("-a", "--active", help="启动脚本时 立即进行一次任务拉取", default='false')
    args = parse.parse_args()
    logger.info(F"启动参数: {args}")
    return args
 def clear_system_proxy():
    # 清除系统代理相关的环境变量
    os.environ.pop('http_proxy', None)
    os.environ.pop('https_proxy', None)
    os.environ.pop('ftp_proxy', None)
    os.environ.pop('no_proxy', None)
 if __name__ == '__main__':
    try:
        clear_system_proxy()
        logger.info(F'启动成功 将在每天的{config.GET_TASK_TIME}拉取任务信息')
        get_task_time = date_format.gen_job_datetime(config.GET_TASK_TIME)
        manager = SchedulerManager()
        # 启动定时任务
        manager.start()
        # 添加拉取任务信息的任务
        manager.scheduler.add_job(do_get_task_job, 'cron', hour=get_task_time.hour, minute=get_task_time.minute)
        manager.scheduler.add_job(restart, 'cron', hour=get_task_time.hour, minute=0)
        # 参数检查
        args = load_arg_parse()
        if args.active and args.active.lower() == 'true':
            logger.info(F"立即执行一次任务拉取...")
            asyncio.get_event_loop().run_until_complete(do_get_task_job())
        # 开启事件循环
        asyncio.get_event_loop().run_forever()
    except KeyboardInterrupt:
        sys.exit()
--- a/models/init.py
+++ b/models/init.py
@ -0,0 +1 @@
 # -*- coding: utf-8 -*-
--- a/models/monitor_result_db.py
+++ b/models/monitor_result_db.py
@ -0,0 +1,39 @@
 # -*- coding: utf-8 -*-
 from typing import Optional, Iterable
 from tortoise import fields, BaseDBAsyncClient
 from tortoise.models import Model
 import utils.date_format as date_format
 class MonitorResult(Model):
    """
        结果实体
    """
    id = fields.IntField(pk=True, autoincrement=True, description="ID")
    keyword = fields.CharField(null=True, max_length=120, description="关键词")
    title = fields.CharField(null=True, max_length=255, description="文章标题")
    url = fields.CharField(null=True, max_length=500, description="文章地址")
    publish_time = fields.BigIntField(null=True, max_length=20, description="发布时间")
    platform = fields.CharField(null=True, max_length=20, description="平台")
    gather_time = fields.CharField(null=True,  description="设定采集时间", max_length=30)
    content = fields.TextField(null=True, description="文章内容")
    image = fields.CharField(null=True, max_length=255, description="结果截图")
    is_del = fields.IntField(null=True, max_length=1, description="删除状态")
    create_time = fields.BigIntField(null=True, max_length=20, description="创建时间")
    update_time = fields.BigIntField(null=True, max_length=20, description="更新时间")
    delete_time = fields.BigIntField(null=True, max_length=20, description="删除时间")
    class Meta:
        table = "aux_monitor_result"
    def _pre_save(
        self,
        using_db: Optional[BaseDBAsyncClient] = None,
        update_fields: Optional[Iterable[str]] = None,
    ) -> None:
        if not self.id:
            self.create_time = date_format.timestamp()
        self.update_time = date_format.timestamp()
--- a/models/monitor_result_model.py
+++ b/models/monitor_result_model.py
@ -0,0 +1,50 @@
 # -*- coding: utf-8 -*-
 import config
 from .monitor_result_db import MonitorResult
 import utils.date_format as date_format
 from .monitor_task_db import MonitorTask
 def gen_result(task: MonitorTask, title, url, publish_time):
    """
    构建任务结果对象
    :param task: 任务对象
    :param title: 标题
    :param url: 地址
    :param publish_time: 发布时间
    :return:
    """
    if isinstance(publish_time, str):
        timestamp = date_format.timestamp()
        publish_time = int(date_format.parse(publish_time).timestamp())
    module = MonitorResult(title=title, url=url, publish_time=publish_time,
                           is_del=1,
                           keyword=task.keyword, platform=task.platform,
                           gather_time=F"{task.gather_date} {task.setting_time}")
    return module
 async def save(results):
    if config.RESULT_UNIQUE:
        await save_unique(results)
    else:
        model = MonitorResult()
        await model.bulk_create(results)
 async def save_unique(results):
    # 过滤列表中重复的结果
    unique_results = {}
    for result in results:
        key = (result.platform, result.keyword, result.title)
        if key not in unique_results:
            unique_results[key] = result
    unique_results = list(unique_results.values())
    # 过滤数据库中重复的结果
    save_results = []
    model = MonitorResult()
    for result in unique_results:
        exist = await model.filter(platform=result.platform, keyword=result.keyword, title=result.title).exists()
        if not exist:
            save_results.append(result)
    await model.bulk_create(save_results)
--- a/models/monitor_task_db.py
+++ b/models/monitor_task_db.py
@ -0,0 +1,36 @@
 # -*- coding: utf-8 -*-
 from typing import Optional, Iterable
 from tortoise import fields, BaseDBAsyncClient
 from tortoise.models import Model
 import utils.date_format as date_format
 class MonitorTask(Model):
    """
        任务实体
    """
    id = fields.IntField(pk=True, autoincrement=True, description="ID")
    keyword = fields.CharField(null=True, max_length=255, description="关键词")
    lang = fields.CharField(null=True, max_length=50, description="语言")
    platform = fields.CharField(null=True, max_length=30, description="媒体平台")
    gather_date = fields.CharField(null=True, max_length=30, description="采集日期")
    gather_time = fields.CharField(null=True, max_length=30, description="采集时间")
    setting_time = fields.CharField(null=True, max_length=30, description="设定时间")
    status = fields.IntField(null=True, max_length=1, description="任务状态 1 待执行 2 进行中 3 已完成")
    create_time = fields.BigIntField(null=True, max_length=16, description="创建时间")
    update_time = fields.BigIntField(null=True, max_length=16, description="更新时间")
    class Meta:
        table = "aux_monitor_task"
    async def _pre_save(
        self,
        using_db: Optional[BaseDBAsyncClient] = None,
        update_fields: Optional[Iterable[str]] = None,
    ) -> None:
        if not self.id:
            self.create_time = date_format.timestamp()
        self.update_time = date_format.timestamp()
--- a/models/monitor_task_model.py
+++ b/models/monitor_task_model.py
@ -0,0 +1,46 @@
 # -*- coding: utf-8 -*-
 from .monitor_task_db import MonitorTask
 import utils.date_format as date_format
 from base.enums import TaskStatus
 async def get_today_task():
    """
    获取当天的任务信息
    :return:
    """
    # 当天日期
    today = date_format.gen_today_str()
    task_model = MonitorTask()
    result = await task_model.filter(gather_date=today, status=TaskStatus.WAITING.value).all()
    return result
 async def get_task(task_id):
    """
    获取指定id的任务信息
    :param task_id:
    :return:
    """
    task_model = MonitorTask()
    return await task_model.get_or_none(id=task_id)
 async def complete(task_id):
    task_model = MonitorTask()
    await task_model.filter(id=task_id).update(status=TaskStatus.COMPLETED.value, update_time=date_format.timestamp())
 async def running(task_id):
    task_model = MonitorTask()
    await task_model.filter(id=task_id).update(status=TaskStatus.RUNNING.value, update_time=date_format.timestamp())
 async def fail(task_id):
    task_model = MonitorTask()
    await task_model.filter(id=task_id).update(status=TaskStatus.FAIL.value, update_time=date_format.timestamp())
 if __name__ == '__main__':
    get_today_task()
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,10 @@
 tortoise-orm~=0.19.0
 playwright~=1.42.0
 httpx~=0.27.0
 aiomysql~=0.2.0
 pymysql~=1.1.0
 python-dateutil~=2.9.0.post0
 APScheduler~=3.10.4
 yagmail~=0.15.293
 retry~=0.9.2
--- a/spiders/init.py
+++ b/spiders/init.py
@ -0,0 +1 @@
 # -*- coding: utf-8 -*-
--- a/spiders/renmin/init.py
+++ b/spiders/renmin/init.py
@ -0,0 +1 @@
 # -*- coding: utf-8 -*-
--- a/spiders/renmin/client.py
+++ b/spiders/renmin/client.py
@ -0,0 +1,151 @@
 # -*- coding: utf-8 -*-
 import json
 from typing import Dict
 from urllib.parse import urlencode
 import httpx
 from httpx._exceptions import HTTPError, RequestError
 from playwright.async_api import Page
 from .exception import DataFetchError
 import asyncio
 import json
 import utils.date_format as date_format
 from utils.utils import count_characters
 from utils.utils import logger
 import utils.proxy as proxy
 import config
 class RenMinClient:
    def __init__(self,
                 timeout=60,
                 *,
                 playwright_page: Page,
                 cookie_dict: Dict[str, str]):
        self.timeout = timeout
        self.headers = {
            "Accept": "application/json, text/plain, */*",
            "Accept-Encoding": "gzip, deflate",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
            "Cache-Control": "no-cache",
            "Connection": "keep-alive",
            "Cookie": "__jsluid_h=103d2323e283c476b59b2fdd3b9a5371; sso_c=0; sfr=1",
            "Host": "search.people.cn",
            "Content-Length": "163",
            "Content-Type": "application/json",
            "Origin": "http://search.people.cn",
            "Pragma": "no-cache",
            "Referer": "http://search.people.cn/s?keyword=%E4%B9%A1%E6%9D%91%E6%8C%AF%E5%85%B4&st=0&_=1710919073824",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
        }
        self._host = "http://search.people.cn"
        self.playwright_page = playwright_page
        self.cookie_dict = cookie_dict
    async def request(self, method, url, **kwargs):
        """
        请求方法
        :param method:  请求方法
        :param url: 地址
        :param kwargs: 参数
        :return: 返回结果
        """
        # api代理
        proxies = proxy.get_ip().to_httpx_proxies() if config.API_PROXY else None
        try:
            async with httpx.AsyncClient(proxies=proxies) as client:
                response = await client.request(
                    method, url, timeout=self.timeout,
                    **kwargs
                )
                # 人民网504 是没有数据
                if response.status_code == 504:
                    # logger.error(F"[人民网]黑名单异常: [{method}]{url} 参数: {kwargs}")
                    # raise DataFetchError("黑名单异常", url, method, kwargs)
                    return {}
                if not response.status_code == 200:
                    logger.error(F"[人民网]httpx异常[{response.status_code}]: [{method}]{url} 参数: {kwargs}")
                    raise DataFetchError("httpx异常", url, method, kwargs)
            data: Dict = response.json()
            if data.get("code") != "0":
                raise DataFetchError(data.get("message", "未知错误"), url)
            else:
                return data.get("data", {})
        except HTTPError as e:
            logger.error(F"[人民网]httpx异常: [{e.request.method}]{e.request.url} 参数: {kwargs}")
            logger.error(F"[人民网]错误信息{str(e)}")
            raise DataFetchError(str(e), url)
        except Exception as e:
            logger.error(F"[人民网]未知的请求方法异常: [{method}]{url} 参数: {kwargs}")
            logger.error(F"[人民网]错误信息{str(e)}")
            raise Exception(str(e))
    async def get(self, uri: str, params=None) -> Dict:
        """
        GET 请求方法
        :param uri: 请求地址
        :param params: 参数
        :return:  返回结果
        """
        final_uri = uri
        if isinstance(params, dict):
            final_uri = (f"{uri}?"
                         f"{urlencode(params)}")
        return await self.request(method="GET", url=F"{self._host}{final_uri}", headers=self.headers)
    async def post(self, uri: str, data: dict) -> Dict:
        """
        POST 请求方法
        :param uri: 请求地址
        :param data: 参数
        :return:  返回结果
        """
        json_str = json.dumps(data, separators=(',', ':'), ensure_ascii=False)
        return await self.request(method="POST", url=F"{self._host}{uri}",
                                  data=json_str, headers=self.headers)
    async def search(self, keyword, cur_page):
        """
        搜索
        :param end:
        :param start:
        :param keyword: 关键词
        :param cur_page:  页码
        :param sort_field:  排序 # 0 时间倒序 1 时间正序
        :return:
        """
        # 接口地址
        uri = '/search-platform/front/search'
        get_param = {
            'key': keyword,
            'startTime': 0,
            'endTime': 0,
            'hasContent': True,
            'hasTitle': True,
            'isFuzzy': False,  # 精准匹配
            'limit': 10,
            'page': cur_page,
            'sortType': 0,
            'type': 0
        }
        chinese, not_chinese = count_characters(keyword)
        # 长度 = 127+ 汉字*3 + 其他*1
        # 关键字部分
        content_length = 126 + (chinese * 3) + not_chinese + 1  # 如果精准匹配是False 加一字节
        # 页码部分
        chinese, not_chinese = count_characters(cur_page)
        content_length = content_length + not_chinese
        logger.info(F"[人民网]请求长度: {content_length}")
        logger.info(F"[人民网]参数: {get_param}")
        self.headers['Content-Length'] = str(content_length)
        content = await self.post(uri, get_param)
        if not content or not content.get('records'):
            return []
        return content.get('records', [])
 if __name__ == '__main__':
    client = RenMinClient(playwright_page=None, cookie_dict={})
    start, end = date_format.today_timestamp_long()
    asyncio.run(client.search('乡村发展', 1))
--- a/spiders/renmin/exception.py
+++ b/spiders/renmin/exception.py
@ -0,0 +1,19 @@
 # -*- coding: utf-8 -*-
 from httpx import RequestError
 class DataFetchError(RequestError):
    """未知异常"""
    def __init__(self, message, url, method="GET", params=None):
        self.message = message
        self.url = url
        self.method = method
        self.params = params
    def __str__(self):
        return self.message
 class IPBlockError(RequestError):
    """ip被封禁异常"""
--- a/spiders/renmin/spider.py
+++ b/spiders/renmin/spider.py
@ -0,0 +1,188 @@
 # -*- coding: utf-8 -*-
 from playwright.async_api import async_playwright, Page, BrowserType, BrowserContext
 from base.base_spider import AbstractSpider
 from typing import Dict, List, Optional, Tuple
 from .client import RenMinClient
 from utils.utils import logger, is_blank
 from models.monitor_task_model import get_task, running, complete, fail
 from models.monitor_result_model import gen_result, save
 from base.enums import Platform
 import utils.date_format as date_format
 import os
 import config
 import uuid
 from .exception import DataFetchError
 import utils.mail as mail
 import asyncio
 from tortoise.transactions import in_transaction
 class RenMinSpider(AbstractSpider):
    """
        人民网爬虫
    """
    client: RenMinClient  # 请求对象
    context_page: Page  # 浏览器页面上下文
    browser_context: BrowserContext  # 浏览器上下文
    image_path: str
    def __init__(self):
        self.index_url = "http://www.people.com.cn/"
        self.platform = Platform.REN_MIN
        self.image_path = None
        self.retry = 0  # 自旋次数
    def init_config(self):
        super().init_config()
    async def start(self, task_id):
        try:
            async with in_transaction():
                await self.do_spider(task_id)
        except DataFetchError as e:
            logger.error(F"[人民网]任务ID: {task_id} 获取数据异常")
            logger.error(F"[人民网]任务ID: {task_id} 异常信息: {str(e)}")
            # 尝试自旋
            self.retry = self.retry + 1
            if self.retry > 3:
                await fail(task_id)
                logger.error(F"[人民网]任务ID: {task_id} 重试达到最大次数 即将发送告警邮件")
                await mail.send_post_mail(task_id, "人民网", str(e))
            else:
                logger.info(F"[人民网]任务ID: {task_id} 20秒后进行第{self.retry}次重试")
                await asyncio.sleep(20)
                await self.do_spider(task_id)
        except Exception as e:
            logger.error(F"[人民网]任务ID: {task_id} 爬虫异常")
            logger.error(F"[人民网]任务ID: {task_id} 异常信息: {str(e)}")
            # 切换代理ip并自旋
            # 尝试自旋
            self.retry = self.retry + 1
            if self.retry > 3:
                await fail(task_id)
                logger.error(F"[人民网]任务ID: {task_id} 重试达到最大次数 即将发送告警邮件")
                await mail.send_post_mail(task_id, "人民网", str(e))
            else:
                logger.info(F"[人民网]任务ID: {task_id} 20秒后进行第{self.retry}次重试")
                await asyncio.sleep(20)
                await self.do_spider(task_id)
    async def create_client(self) -> RenMinClient:
        return RenMinClient(playwright_page=None, cookie_dict={})
    async def launch_browser(self,
                             chromium: BrowserType,
                             playwright_proxy: Optional[Dict],
                             user_agent: Optional[Dict],
                             headless: bool = True):
        """
        启动一个浏览器上下文
        :param chromium:
        :param headless:
        :param self: 类型
        :param playwright_proxy: 代理
        :param user_agent: 用户标识
        :return:
        """
        # 浏览器对象
        browser = await chromium.launch(proxy=playwright_proxy, headless=headless)
        # 浏览器上下文
        browser_context = await browser.new_context(
            viewport={"width": 1920, "height": 1080},
            user_agent=user_agent
        )
        return browser_context
    async def do_search(self, task):
        """
        获取任务信息
        :return:
        """
        start, end = date_format.today_timestamp_long()  # 开始结束时间
        results = []
        cur_page = 1
        logger.info(F"[人民网]开始执行任务 ID: {task.id} 关键词: {task.keyword} 语言: {task.lang}")
        self.client = await self.create_client()
        while True:
            logger.info(F"[人民网]开始获取搜索结果 关键词: {task.keyword} 页码: {cur_page}")
            search_datas = await self.client.search(task.keyword, cur_page)
            logger.info(F"[人民网]获取到{len(search_datas)}条搜索结果")
            if not search_datas:
                logger.info(F"[人民网]关键词: {task.keyword} 页码: {cur_page}没有搜索到数据")
                break
            index = -1
            for i, data in enumerate(search_datas):
                # 找到一个不是今天的数据就结束
                if not date_format.is_today(date_format.timestamp2date(data.get("displayTime")).strftime("%Y-%m-%d")):
                    index = i
                    break
            # 切割
            if index == -1:
                # 搜索结果的最后一个依然是今天的 整个添加
                results = results + search_datas
                # 翻到下一页 继续找
                cur_page = cur_page + 1
            else:
                # 搜索结果中有不是今天的 切割一部分添加
                results = results + search_datas[:index]
                # 结束本次搜索
                break
        logger.info(F"[人民网]关键词:{task.keyword} 搜索结束 总页码: {cur_page} 总条数: {len(results)}")
        return results
    async def cut_screen(self, url):
        """
        网页截图
        :param url: 地址
        :return:
        """
        if not self.image_path:
            image_path = config.IMAGE_PATH
            if is_blank(image_path):
                self.image_path = "./data"
        if not os.path.exists(self.image_path):
            os.makedirs(self.image_path)
        save_path = F"{self.image_path}/{uuid.uuid4()}.png"
        # 开始截图
        await self.context_page.goto(url)
        await self.context_page.screenshot(path=save_path, full_page=True)
        return save_path
    async def do_spider(self, task_id):
        # 获取任务信息
        task = await get_task(task_id)
        if not task:
            logger.error(F"[人民网]任务ID: {task_id}不存在 任务结束")
            return
        logger.info(F"[人民网]任务ID: {task_id}  任务开始")
        await running(task_id)
        # 从api中获取数据
        search_datas = await self.do_search(task)
        if not search_datas:
            logger.info(F"[人民网]任务ID: {task_id} 关键词:{task.keyword} 未搜索到结果 任务结束")
            await complete(task_id)
            return
        # 保存result实体
        results = []
        # 启动浏览器
        async with async_playwright() as playwright:
            chromium = playwright.chromium
            self.browser_context = await self.launch_browser(chromium, None, None, headless=True)
            # 反反爬脚本
            await self.browser_context.add_init_script(path="lib/stealth.min.js")
            self.context_page: Page = await self.browser_context.new_page()
            # 构建结果实体 截图
            for data in search_datas:
                result = gen_result(task, data.get("title"), data.get("url"), int(data.get("displayTime") / 1000))
                # img_path = await self.cut_screen(data.get("url"))
                # result.image = img_path
                results.append(result)
                # logger.info(F"[人民网]标题: {data.get('title')} 截图文件名: {img_path}")
            # 结果落库
            await save(results)
            logger.info(F"[人民网]任务ID: {task_id} 关键词: {task.keyword} 保存{len(results)}条数据 任务结束")
            await complete(task_id)
--- a/spiders/xinhua/init.py
+++ b/spiders/xinhua/init.py
@ -0,0 +1,4 @@
 # -*- coding: utf-8 -*-
--- a/spiders/xinhua/client.py
+++ b/spiders/xinhua/client.py
@ -0,0 +1,114 @@
 # -*- coding: utf-8 -*-
 import json
 from typing import Dict
 from urllib.parse import urlencode
 from .exception import DataFetchError
 import httpx
 from playwright.async_api import Page
 from httpx._exceptions import HTTPError
 from utils.utils import logger
 import asyncio
 import utils.proxy as proxy
 import config
 class XinHuaClient:
    def __init__(self,
                 timeout=10,
                 *,
                 headers: Dict[str, str],
                 playwright_page: Page,
                 cookie_dict: Dict[str, str]):
        self.timeout = timeout
        self.headers = headers
        self._host = "https://so.news.cn/"
        self.playwright_page = playwright_page
        self.cookie_dict = cookie_dict
    async def request(self, method, url, **kwargs):
        """
        请求方法
        :param method:  请求方法
        :param url: 地址
        :param kwargs: 参数
        :return: 返回结果
        """
        # api代理
        proxies = proxy.get_ip().to_httpx_proxies() if config.API_PROXY else None
        try:
            async with httpx.AsyncClient(proxies=proxies) as client:
                response = await client.request(
                    method, url, timeout=self.timeout,
                    **kwargs
                )
                # 返回不正确的状态码
                if not response.status_code == 200:
                    logger.error(F"[新华网]httpx异常[{response.status_code}]: [{method}]{url} 参数: {kwargs}")
                    raise DataFetchError("httpx异常", url, method, kwargs)
                    # 返回正确的状态码
                data: Dict = response.json()
                if data.get("code") != 200:
                    # 有特殊情况 敏感词会直接把content返回为没有找到相关稿件
                    if data.get("content") == '没有找到相关稿件':
                        logger.warning(F"[新华网]触发敏感词 跳过请求 参数: {kwargs}")
                        return {}
                    raise DataFetchError(data.get("content", "API未知错误"), url, method, kwargs)
                else:
                    return data.get("content", {})
        except HTTPError as e:
            logger.error(F"[新华网]httpx异常: [{method}]{url} 参数: {kwargs}")
            logger.error(F"[新华网]错误信息{str(e)}")
            raise DataFetchError(str(e), url)
        except Exception as e:
            logger.error(F"[新华网]未知的请求方法异常: [{method}]{url} 参数: {kwargs}")
            logger.error(F"[新华网]错误信息{str(e)}")
            raise Exception(str(e))
    async def get(self, uri: str, params=None) -> Dict:
        """
        GET 请求方法
        :param uri: 请求地址
        :param params: 参数
        :return:  返回结果
        """
        final_uri = uri
        if isinstance(params, dict):
            final_uri = (f"{uri}?"
                         f"{urlencode(params)}")
        return await self.request(method="GET", url=F"{self._host}{final_uri}", headers=self.headers)
    async def post(self, uri: str, data: dict) -> Dict:
        """
        POST 请求方法
        :param uri: 请求地址
        :param data: 参数
        :return:  返回结果
        """
        json_str = json.dumps(data, separators=(',', ':'), ensure_ascii=False)
        return await self.request(method="POST", url=F"{self._host}{uri}",
                                  data=json_str, headers=self.headers)
    async def search(self, keyword, cur_page, lang='cn', sort_field=0, search_fields=0):
        """
        搜索
        :param lang:
        :param keyword: 关键词
        :param cur_page:  页码
        :param sort_field:  排序 0: 相关度 1: 时间
        :param search_fields: 搜索类型: 0: 全文 1: 标题
        :return:
        """
        # 接口地址
        uri = '/getNews'
        get_param = {
            'keyword': keyword,
            'curPage': cur_page,
            'sortField': sort_field,
            'searchFields': search_fields,
            'lang': lang
        }
        content = await self.get(uri, get_param)
        if not content or not content.get('results'):
            return []
        return content.get('results', [])
--- a/spiders/xinhua/exception.py
+++ b/spiders/xinhua/exception.py
@ -0,0 +1,19 @@
 # -*- coding: utf-8 -*-
 from httpx import RequestError
 class DataFetchError(RequestError):
    """未知异常"""
    def __init__(self, message, url, method="GET", params=None):
        self.message = message
        self.url = url
        self.method = method
        self.params = params
    def __str__(self):
        return self.message
 class IPBlockError(RequestError):
    """ip被封禁异常"""
--- a/spiders/xinhua/spider.py
+++ b/spiders/xinhua/spider.py
@ -0,0 +1,201 @@
 # -*- coding: utf-8 -*-
 from playwright.async_api import async_playwright, Page, BrowserType, BrowserContext
 from base.base_spider import AbstractSpider
 from typing import Dict, List, Optional, Tuple
 from .client import XinHuaClient
 from utils.utils import logger, is_blank
 from models.monitor_task_model import get_task, running, complete, fail
 from models.monitor_result_model import gen_result, save
 from base.enums import Platform
 import utils.date_format as date_format
 import os
 import config
 import uuid
 from .exception import DataFetchError
 import asyncio
 import utils.mail as mail
 from tortoise.transactions import in_transaction
 class XinHuaSpider(AbstractSpider):
    """
        新华网爬虫
    """
    client: XinHuaClient  # 请求对象
    context_page: Page  # 浏览器页面上下文
    browser_context: BrowserContext  # 浏览器上下文
    image_path: str
    def __init__(self):
        self.index_url = "http://www.xinhuanet.com/"
        self.platform = Platform.XIN_HUA
        self.image_path = None
        self.retry = 0  # 自旋次数
        self.context_page = None
    def init_config(self):
        super().init_config()
    async def start(self, task_id):
        try:
            async with in_transaction():
                await self.do_spider(task_id)
        except DataFetchError as e:
            logger.error(F"[新华网]任务ID: {task_id} 获取数据异常")
            logger.error(F"[新华网]任务ID: {task_id} 异常信息: {str(e)}")
            # 尝试自旋
            self.retry = self.retry + 1
            if self.retry > 3:
                await fail(task_id)
                logger.error(F"[新华网]任务ID: {task_id} 重试达到最大次数 即将发送告警邮件")
                await mail.send_post_mail(task_id, "新华网", str(e))
            else:
                logger.info(F"[新华网]任务ID: {task_id} 20秒后进行第{self.retry}次重试")
                await asyncio.sleep(20)
                await self.do_spider(task_id)
        except Exception as e:
            logger.error(F"[新华网]任务ID: {task_id} 爬虫异常")
            logger.error(F"[新华网]任务ID: {task_id} 异常信息: {str(e)}")
            # 尝试自旋
            self.retry = self.retry + 1
            await fail(task_id)
            if self.retry > 3:
                logger.error(F"[新华网]任务ID: {task_id} 重试达到最大次数 即将发送告警邮件")
                await mail.send_post_mail(task_id, "新华网", str(e))
            else:
                logger.info(F"[新华网]任务ID: {task_id} 20秒后进行第{self.retry}次重试")
                await asyncio.sleep(20)
                await self.do_spider(task_id)
    async def create_xinhua_client(self, httpx_proxy: Optional[str]) -> XinHuaClient:
        # 请求头
        headers = {
            "Accept": "application/json, text/javascript, */*; q=0.01", "Accept-Encoding": "gzip, deflate, br, zstd",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8", "Cache-Control": "no-cache", "Connection": "keep-alive",
            "Cookie": "org.springframework.web.servlet.i18n.CookieLocaleResolver.LOCALE=zh_CN; wdcid=7af5eba7b2f8b44b; arialoadData=false; acw_tc=2760778017108394678246790e1403779a009cc2c5fe412f126407bf171637",
            "Host": "so.news.cn", "Pragma": "no-cache", "Referer": "https://so.news.cn/", "Sec-Fetch-Dest": "empty",
            "Sec-Fetch-Mode": "cors", "Sec-Fetch-Site": "same-origin",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36",
            "X-Requested-With": "XMLHttpRequest",
            "sec-ch-ua": "\"Chromium\";v=\"122\", \"Not(A:Brand\";v=\"24\", \"Google Chrome\";v=\"122\"",
            "sec-ch-ua-mobile": "?0", "sec-ch-ua-platform": "\"Windows\""}
        client = XinHuaClient(headers=headers, cookie_dict=None, playwright_page=self.context_page)
        return client
    async def launch_browser(self,
                             chromium: BrowserType,
                             playwright_proxy: Optional[Dict],
                             user_agent: Optional[Dict],
                             headless: bool = True):
        """
        启动一个浏览器上下文
        :param chromium:
        :param headless:
        :param self: 类型
        :param playwright_proxy: 代理
        :param user_agent: 用户标识
        :return:
        """
        # 浏览器对象
        browser = await chromium.launch(proxy=playwright_proxy, headless=headless)
        # 浏览器上下文
        browser_context = await browser.new_context(
            viewport={"width": 1920, "height": 1080},
            user_agent=user_agent
        )
        return browser_context
    async def do_search(self, task):
        """
        获取任务信息
        :return:
        """
        results = []
        cur_page = 1
        logger.info(F"[新华网]开始执行任务 ID: {task.id} 关键词: {task.keyword} 语言: {task.lang}")
        self.client = await self.create_xinhua_client(None)
        while True:
            logger.info(F"[新华网]开始获取搜索结果 关键词: {task.keyword} 页码: {cur_page}")
            search_datas = await self.client.search(keyword=task.keyword, cur_page=cur_page, lang=task.lang)
            logger.info(F"[新华网]获取到{len(search_datas)}条搜索结果")
            if not search_datas:
                logger.info(F"[新华网]关键词: {task.keyword} 页码: {cur_page}没有搜索到数据")
                break
            index = -1
            for i, data in enumerate(search_datas):
                # 找到一个不是今天的数据就结束
                if not date_format.is_today(data.get("pubtime")):
                    index = i
                    break
            # 如果全都是今天的 就翻页
            if index == -1:
                # 搜索结果的最后一个依然是今天的 整个添加
                results = results + search_datas
                # 翻到下一页 继续找
                cur_page = cur_page + 1
            else:
                # 搜索结果中有不是今天的 切割一部分添加
                results = results + search_datas[:index]
                # 结束本次搜索
                break
        logger.info(F"[新华网]关键词: {task.keyword} 搜索结束 总页码: {cur_page} 总条数: {len(results)}")
        return results
    async def cut_screen(self, url):
        """
        网页截图
        :param url: 地址
        :return:
        """
        if not self.image_path:
            image_path = config.IMAGE_PATH
            if is_blank(image_path):
                self.image_path = "./data"
        if not os.path.exists(self.image_path):
            os.makedirs(self.image_path)
        save_path = F"{self.image_path}/{uuid.uuid4()}.png"
        # 开始截图
        await self.context_page.goto(url)
        await self.context_page.screenshot(path=save_path, full_page=True)
        return save_path
    async def do_spider(self, task_id):
        # 获取任务信息
        task = await get_task(task_id)
        if not task:
            logger.error(F"[新华网]任务ID: {task_id}不存在 任务结束")
            return
        logger.info(F"[新华网]任务ID: {task_id}  任务开始")
        await running(task_id)
        # 从api中获取数据
        search_datas = await self.do_search(task)
        if not search_datas:
            logger.info(F"[新华网]任务ID: {task_id} 关键词:{task.keyword} 未搜索到结果 任务结束")
            await complete(task_id)
            return
        # 保存result实体
        results = []
        # 启动浏览器
        async with async_playwright() as playwright:
            chromium = playwright.chromium
            self.browser_context = await self.launch_browser(chromium, None, None, headless=True)
            # 反反爬脚本
            await self.browser_context.add_init_script(path="lib/stealth.min.js")
            self.context_page: Page = await self.browser_context.new_page()
            # 构建结果实体 截图
            for data in search_datas:
                result = gen_result(task, data.get("title"), data.get("url"), data.get("pubtime"))
                # img_path = await self.cut_screen(data.get("url"))
                # result.image = img_path
                results.append(result)
                # logger.info(F"[新华网]标题: {data.get('title')} 截图文件名: {img_path}")
            # 结果落库
            await save(results)
            logger.info(F"[新华网]任务ID: {task_id} 关键词: {task.keyword} 保存{len(results)}条数据 任务结束")
            await complete(task_id)
--- a/spiders/yang_shi/init.py
+++ b/spiders/yang_shi/init.py
@ -0,0 +1 @@
 # -*- coding: utf-8 -*-
--- a/spiders/yang_shi/client.py
+++ b/spiders/yang_shi/client.py
@ -0,0 +1,160 @@
 # -*- coding: utf-8 -*-
 import json
 from typing import Dict
 from urllib.parse import urlencode
 import httpx
 from playwright.async_api import Page
 from .exception import DataFetchError
 import asyncio
 import json
 import utils.date_format as date_format
 from utils.utils import count_characters
 from playwright.async_api import async_playwright
 import asyncio
 from utils.utils import logger
 class YangShiClient:
    def __init__(self,
                 timeout=60,
                 proxies=None,
                 *,
                 playwright_page: Page,
                 cookie_dict: Dict[str, str]):
        self.proxies = proxies
        self.timeout = timeout
        self.headers = {
            "Accept": "application/json, text/plain, */*",
            "Accept-Encoding": "gzip, deflate",
            "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
            "Cache-Control": "no-cache",
            "Connection": "keep-alive",
            "Cookie": "__jsluid_h=103d2323e283c476b59b2fdd3b9a5371; sso_c=0; sfr=1",
            "Host": "search.people.cn",
            "Content-Length": "163",
            "Content-Type": "application/json",
            "Origin": "http://search.people.cn",
            "Pragma": "no-cache",
            "Referer": "http://search.people.cn/s?keyword=%E4%B9%A1%E6%9D%91%E6%8C%AF%E5%85%B4&st=0&_=1710919073824",
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
        }
        self._host = "https://search.cctv.com/"
        self.playwright_page = playwright_page
        self.cookie_dict = cookie_dict
    async def request(self, method, url, **kwargs):
        """
        请求方法
        :param method:  请求方法
        :param url: 地址
        :param kwargs: 参数
        :return: 返回结果
        """
        async with httpx.AsyncClient(proxies=self.proxies) as client:
            response = await client.request(
                method, url, timeout=self.timeout,
                **kwargs
            )
        data: Dict = response.json()
        if data.get("code") != "0":
            raise DataFetchError(data.get("message", "未知错误"))
        else:
            return data.get("data", {})
    async def get(self, uri: str, params=None) -> Dict:
        """
        GET 请求方法
        :param uri: 请求地址
        :param params: 参数
        :return:  返回结果
        """
        final_uri = uri
        if isinstance(params, dict):
            final_uri = (f"{uri}?"
                         f"{urlencode(params)}")
        return await self.request(method="GET", url=F"{self._host}{final_uri}", headers=self.headers)
    async def post(self, uri: str, data: dict) -> Dict:
        """
        POST 请求方法
        :param uri: 请求地址
        :param data: 参数
        :return:  返回结果
        """
        json_str = json.dumps(data, separators=(',', ':'), ensure_ascii=False)
        return await self.request(method="POST", url=F"{self._host}{uri}",
                                  data=json_str, headers=self.headers)
    async def search(self, keyword, cur_page):
        """
        搜索
        :param keyword: 关键词
        :param cur_page:  页码
        :return:
        """
        # 接口地址
        uri = F"/search.php?qtext={keyword}&page={cur_page}&type=web&sort=date&datepid=1&channel=&vtime=-1&is_search=1"
        full_url = F"{self._host}{uri}"
        try:
            await self.playwright_page.goto(full_url)
            results = []
            # 选择每一个结果元素
            elements = await self.playwright_page.query_selector_all("div.tright")
            for element in elements:
                title = ""
                url = ""
                publish_time = ""
                # 标题元素
                tit = await element.query_selector(".tit")
                if tit:
                    # 标题下面的链接
                    span = await tit.query_selector("span")
                    url = await span.get_attribute("lanmu1")
                    # 存放标题的a标签
                    tit_a = await span.query_selector("a")
                    if tit_a:
                        title = await tit_a.inner_text()
                # 发布时间元素
                tim = await element.query_selector(".src-tim .tim")
                if tim:
                    tim_text = await tim.inner_text()
                    publish_time = tim_text.split("：")[1]
                # 保存数据
                results.append({
                    "keyword": keyword,
                    "title": title,
                    "url": url,
                    "publish_time": publish_time
                })
            return results
        except Exception as e:
            logger.error(F"[央视网]搜索方法异常: 关键词: {keyword} 页码: {cur_page} {full_url}")
            logger.error(F"[央视网]错误信息: {str(e)}")
            raise DataFetchError(str(e), full_url)
 async def run():
    async with async_playwright() as playwright:
        # 启动浏览器
        async with async_playwright() as playwright:
            chromium = playwright.chromium
            browser = await chromium.launch(headless=False)
            # 浏览器上下文
            browser_context = await browser.new_context(
                viewport={"width": 1920, "height": 1080},
                user_agent=""
            )
            # 反反爬脚本
            await browser_context.add_init_script(path="../../lib/stealth.min.js")
            context_page: Page = await browser_context.new_page()
            # 创建对象
            client = YangShiClient(playwright_page=context_page, cookie_dict={})
            result = await client.search("医保", 1)
            print(result)
 if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(run())
--- a/spiders/yang_shi/exception.py
+++ b/spiders/yang_shi/exception.py
@ -0,0 +1,19 @@
 # -*- coding: utf-8 -*-
 from httpx import RequestError
 class DataFetchError(RequestError):
    """未知异常"""
    def __init__(self, message, url, method="GET", params=None):
        self.message = message
        self.url = url
        self.method = method
        self.params = params
    def __str__(self):
        return self.message
 class IPBlockError(RequestError):
    """ip被封禁异常"""
--- a/spiders/yang_shi/spider.py
+++ b/spiders/yang_shi/spider.py
@ -0,0 +1,185 @@
 # -*- coding: utf-8 -*-
 from playwright.async_api import async_playwright, Page, BrowserType, BrowserContext
 from base.base_spider import AbstractSpider
 from typing import Dict, List, Optional, Tuple
 from .client import YangShiClient
 from utils.utils import logger, is_blank
 from models.monitor_task_model import get_task, running, complete, fail
 from models.monitor_result_model import gen_result, save
 from base.enums import Platform
 import utils.date_format as date_format
 import os
 import config
 import uuid
 from .exception import DataFetchError
 import utils.mail as mail
 import asyncio
 from tortoise.transactions import in_transaction
 class YangShiSpider(AbstractSpider):
    """
        央视网爬虫
    """
    client: YangShiClient  # 请求对象
    context_page: Page  # 浏览器页面上下文
    browser_context: BrowserContext  # 浏览器上下文
    image_path: str
    def __init__(self):
        self.index_url = "https://tv.cctv.com/"
        self.platform = Platform.YANG_SHI
        self.image_path = None
        self.retry = 0  # 自旋次数
    def init_config(self):
        super().init_config()
    async def start(self, task_id):
        try:
            async with in_transaction():
                await self.do_spider(task_id)
        except DataFetchError as e:
            logger.error(F"[央视网]任务ID: {task_id} 获取数据异常")
            logger.error(F"[央视网]任务ID: {task_id} 异常信息: {str(e)}")
            # 尝试自旋
            self.retry = self.retry + 1
            if self.retry > 3:
                await fail(task_id)
                logger.error(F"[央视网]任务ID: {task_id} 重试达到最大次数 即将发送告警邮件")
                await mail.send_post_mail(task_id, "央视网", str(e))
            else:
                logger.info(F"[央视网]任务ID: {task_id} 20秒后进行第{self.retry}次重试")
                await asyncio.sleep(20)
                await self.do_spider(task_id)
        except Exception as e:
            logger.error(F"[央视网]任务ID: {task_id} 爬虫异常")
            logger.error(F"[央视网]任务ID: {task_id} 异常信息: {str(e)}")
            # 切换代理ip并自旋
            logger.error(F"[央视网]任务ID: {task_id} 获取数据异常")
            logger.error(F"[央视网]任务ID: {task_id} 异常信息: {str(e)}")
            # 尝试自旋
            self.retry = self.retry + 1
            if self.retry > 3:
                await fail(task_id)
                logger.error(F"[央视网]任务ID: {task_id} 重试达到最大次数 即将发送告警邮件")
                await mail.send_post_mail(task_id, "央视网", str(e))
            else:
                logger.info(F"[央视网]任务ID: {task_id} 20秒后进行第{self.retry}次重试")
                await asyncio.sleep(20)
                await self.do_spider(task_id)
    async def create_client(self, httpx_proxy: Optional[str]) -> YangShiClient:
        # 请求头
        client = YangShiClient(proxies=httpx_proxy,  cookie_dict={}, playwright_page=self.context_page)
        return client
    async def launch_browser(self,
                             chromium: BrowserType,
                             playwright_proxy: Optional[Dict],
                             user_agent: Optional[Dict],
                             headless: bool = True):
        """
        启动一个浏览器上下文
        :param chromium:
        :param headless:
        :param self: 类型
        :param playwright_proxy: 代理
        :param user_agent: 用户标识
        :return:
        """
        # 浏览器对象
        browser = await chromium.launch(proxy=playwright_proxy, headless=headless)
        # 浏览器上下文
        browser_context = await browser.new_context(
            viewport={"width": 1920, "height": 1080},
            user_agent=user_agent
        )
        # 反反爬脚本
        await browser_context.add_init_script(path="lib/stealth.min.js")
        context_page = await browser_context.new_page()
        return browser_context, context_page
    async def do_search(self, task):
        """
        获取任务信息
        :return:
        """
        results = []
        cur_page = 1
        logger.info(F"[央视网]开始执行任务 ID: {task.id} 关键词: {task.keyword} 语言: {task.lang}")
        self.client = await self.create_client(None)
        while True:
            logger.info(F"[央视网]任务ID: {task.id} 开始获取搜索结果 关键词: {task.keyword} 页码: {cur_page}")
            search_datas = await self.client.search(keyword=task.keyword, cur_page=cur_page)
            logger.info(F"[央视网]任务ID: {task.id} 获取到{len(search_datas)}条搜索结果")
            if not search_datas:
                logger.info(F"[央视网]任务ID: {task.id} 关键词: {task.keyword} 页码: {cur_page}没有搜索到数据")
                break
            index = -1
            for i, data in enumerate(search_datas):
                # 找到一个不是今天的数据就结束
                if not date_format.is_today(data.get("publish_time")):
                    index = i
                    break
            # 切割
            if index == -1:
                # 搜索结果的最后一个依然是今天的 整个添加
                results = results + search_datas
                # 翻到下一页 继续找
                cur_page = cur_page + 1
            else:
                # 搜索结果中有不是今天的 切割一部分添加
                results = results + search_datas[:index]
                # 结束本次搜索
                break
        logger.info(F"[央视网]任务ID: {task.id} 关键词: {task.keyword} 搜索结束 总页码: {cur_page} 总条数: {len(results)}")
        return results
    async def cut_screen(self, url):
        """
        网页截图
        :param url: 地址
        :return:
        """
        if not self.image_path:
            image_path = config.IMAGE_PATH
            if is_blank(image_path):
                self.image_path = "./data"
        if not os.path.exists(self.image_path):
            os.makedirs(self.image_path)
        save_path = F"{self.image_path}/{uuid.uuid4()}.png"
        # 开始截图
        await self.context_page.goto(url)
        await self.context_page.screenshot(path=save_path, full_page=True)
        return save_path
    async def do_spider(self, task_id):
        # 获取任务信息
        task = await get_task(task_id)
        if not task:
            logger.error(F"[央视网]任务ID: {task_id}不存在 任务结束")
            return
        logger.info(F"[央视网]任务ID: {task_id}  任务开始")
        await running(task_id)
        results = []
        # 启动浏览器
        async with async_playwright() as playwright:
            chromium = playwright.chromium
            self.browser_context, self.context_page = await self.launch_browser(chromium, None, None, headless=True)
            # 创建请求客户端
            search_datas = await self.do_search(task)
            # 构建结果实体 截图
            for data in search_datas:
                result = gen_result(task, data.get("title"), data.get("url"), data.get("publish_time"))
                # img_path = await self.cut_screen(data.get("url"))
                # result.image = img_path
                results.append(result)
                # logger.info(F"[央视网] 任务ID: {task_id}  标题: {data.get('title')} 截图文件名: {img_path}")
            # 结果落库
            await save(results)
            logger.info(F"[央视网] 任务ID: {task_id} 关键词: {task.keyword} 保存{len(results)}条数据 任务结束")
            await complete(task_id)
--- a/utils/init.py
+++ b/utils/init.py
@ -0,0 +1 @@
 # -*- coding: utf-8 -*-
--- a/utils/date_format.py
+++ b/utils/date_format.py
@ -0,0 +1,102 @@
 # -*- coding: utf-8 -*-
 from dateutil.parser import parse
 from dateutil.relativedelta import relativedelta
 from datetime import datetime, timedelta
 import time
 def gen_job_datetime(time_str, date_str=''):
    """
    生成任务的时间和日期
    :param time_str: 时间
    :param date_str: 日期
    :return:
    """
    if not time_str:
        return None
    return parse(date_str + time_str)
 def gen_today_str():
    today = datetime.today()
    return today.strftime("%Y-%m-%d")
 def timestamp():
    return int(time.time())
 def is_today(date_str):
    publish_date = parse(date_str).date()  # 获取日期部分，忽略时间部分
    today = datetime.today().date()  # 获取今天的日期，忽略时间部分
    # 检查日期是否相等
    return publish_date == today
 def timestamp2date(timestamp_long):
    d = datetime.utcfromtimestamp(float(timestamp_long / 1000))
    return d
 def today_timestamp_long():
    """
    获取今天开始和结束的毫秒时间戳
    :return:
    """
    start = parse("00:00")
    end = start + timedelta(days=1)
    return start.timestamp() * 1000, end.timestamp() * 1000
 def parse_time(time_str):
    return datetime.strptime(time_str, '%H:%M').time()
 def eq_time(time1: str, time2: str):
    time1 = datetime.strptime(time1, '%H:%M').time()
    time2 = datetime.strptime(time2, '%H:%M').time()
    today = datetime.today().date()
    time1 = datetime.combine(today, time1)
    time2 = datetime.combine(today, time2)
    return time1 == time2
 def ge_time(time1: str, time2: str):
    """
    比较time1是否大于等于time2
    :param time1:
    :param time2:
    :return:
    """
    time1 = datetime.strptime(time1, '%H:%M').time()
    time2 = datetime.strptime(time2, '%H:%M').time()
    today = datetime.today().date()
    time1 = datetime.combine(today, time1)
    time2 = datetime.combine(today, time2)
    return time1 >= time2
 def lt_time(time1: str, time2: str):
    """
    比较time1是否小于time2
    :param time1:
    :param time2:
    :return:
    """
    time1 = datetime.strptime(time1, '%H:%M').time()
    time2 = datetime.strptime(time2, '%H:%M').time()
    today = datetime.today().date()
    time1 = datetime.combine(today, time1)
    time2 = datetime.combine(today, time2)
    return time1 < time2
 if __name__ == '__main__':
    print(lt_time("18:52", "23:55"))
--- a/utils/mail.py
+++ b/utils/mail.py
@ -0,0 +1,83 @@
 # -*- coding: utf-8 -*-
 import yagmail
 import config
 from utils.utils import logger
 import inspect
 from datetime import datetime
 from models.monitor_task_model import get_task, complete
 async def send_post_mail(task_id, name, message="出现异常"):
    keyword = ""
    task = await get_task(task_id)
    if not task:
        message = F"不存在的任务ID: {task_id}"
    else:
        keyword = task.keyword
    mail_server = None
    try:
        mail_server = yagmail.SMTP(user=config.SMTP_USER, password=config.SMTP_PASSWORD, host=config.SMTP_HOST)
    except Exception as e:
        logger.error("[邮件]初始化失败 请检查邮件配置")
        return
    to = []
    if not config.POST_EMAIL:
        logger.warn("[邮件]未配置用于接收邮件上报的邮箱地址 邮件上报被取消")
        return
    if isinstance(config.POST_EMAIL, str):
        to.append(config.POST_EMAIL)
    elif isinstance(config.POST_EMAIL, list):
        to = config.POST_EMAIL
    else:
        logger.warn("[邮件]未配置用于接收邮件上报的邮箱地址 邮件上报被取消")
        return
    title = F"HuoSpider上报邮件: {name}数据获取异常"
    content = F"""
        异常任务ID: {task_id}
        异常站点: {name}
        关键词: {keyword}
        异常信息: {message}
        上报时间: {datetime.today().strftime("%Y-%m-%d %H:%M:%S")}
    """
    inspect.cleandoc(content)
    mail_server.send(to, title, content)
    mail_server.close()
    logger.info(f"[邮件]任务ID: {task_id} 异常上报邮件发送成功 收件人: {to}")
 async def test(task_id, name, message="出现异常"):
    keyword = "测试"
    mail_server = None
    try:
        mail_server = yagmail.SMTP(user=config.SMTP_USER, password=config.SMTP_PASSWORD, host=config.SMTP_HOST)
    except Exception as e:
        logger.error("[邮件]初始化失败 请检查邮件配置")
        return
    to = []
    if not config.POST_EMAIL:
        logger.warn("[邮件]未配置用于接收邮件上报的邮箱地址 邮件上报被取消")
        return
    if isinstance(config.POST_EMAIL, str):
        to.append(config.POST_EMAIL)
    elif isinstance(config.POST_EMAIL, list):
        to = config.POST_EMAIL
    else:
        logger.warn("[邮件]未配置用于接收邮件上报的邮箱地址 邮件上报被取消")
        return
    title = F"HuoSpider上报邮件: {name}数据获取异常"
    content = F"""
        异常任务ID: {task_id}
        异常站点: {name}
        关键词: {keyword}
        异常信息: {message}
        上报时间: {datetime.today().strftime("%Y-%m-%d %H:%M:%S")}
    """
    inspect.cleandoc(content)
    mail_server.send(to, title, content)
    mail_server.close()
    logger.info(f"[邮件]任务ID: {task_id} 异常上报邮件发送成功 收件人: {to}")
--- a/utils/proxy.py
+++ b/utils/proxy.py
@ -0,0 +1,113 @@
 # -*- coding: utf-8 -*-
 from datetime import datetime, timedelta
 import httpx
 import retry
 from dateutil.parser import parse
 import config
 from utils.utils import logger
 ip_pool = []
 # 代理池
 class ProxyIp:
    ip: str
    port: int
    expire: datetime
    city: str
    isp: str
    def __init__(self, ip, port, expire, city='未知', isp='未知'):
        self.ip = ip
        self.port = port
        self.expire = parse(expire)
        self.city = city
        self.isp = isp
    def __str__(self):
        return F"({self.city}-{self.isp}){self.ip}:{self.port}  过期时间:{self.expire}"
    def is_expire(self):
        now = datetime.now()
        expire = self.expire - timedelta(seconds=20)
        return expire < now
    def to_httpx_proxies(self):
        return {"http://": F"http://{self.ip}:{self.port}"}
 class ProxyError(Exception):
    def __init__(self, message, code=-1000):
        self.code = code
        self.message = message
    def __str__(self):
        return F"错误码: {self.code} 错误消息: {self.message}"
@retry.retry(exceptions=ProxyError, tries=3, delay=2, backoff=2)
 def add_ip(count=1) -> ProxyIp:
    """
    向ip池中添加一个代理ip对象
    :param count: 添加的数量 默认为1
    :return:
    """
    url = "http://api.tianqiip.com/getip"
    params = {
        "secret": config.PROXY_SECRET,  # 密钥
        "sign": config.PROXY_SIGN,  # 签名
        "num": count,  # 数量
        "type": "json",  # 返回类型
        "port": 1,  # 协议
        "time": 3,  # 时长三分钟
        "ts": 1,  # 显示过期时间
        "mr": 1,  # 去重
        "cs": 1,  # 显示位置
        "ys": 1  # 显示运营商
    }
    ips = []
    result: dict = httpx.get(url, params=params, proxies={}).json()
    if not result['code'] == 1000:
        logger.error("[IP池]API获取代理IP失败")
        raise ProxyError(result['code'], result['msg'])
    for data in result["data"]:
        ip = ProxyIp(data['ip'], data['port'], data['expire'], city=data['city'], isp=data['isp'])
        ip_pool.append(ip)
        ips.append(ip)
        logger.info(F"[IP池]新增代理IP {str(ip)}")
    return ips[0]
 def del_ip(index):
    if index > len(ip_pool) - 1:
        return
    logger.error(f"[IP池]代理IP被删除: {ip_pool[index]}")
    del ip_pool[index]
 def get_ip(cache=True) -> ProxyIp:
    """
    获取一个代理ip对象
    :param cache: 使用缓存
    :return:
    """
    if not cache:
        # 不使用缓存时 请求一个新的ip并放入池中 然后获取该ip
        return add_ip()
    # 从缓存中获取一个有效的ip
    if not ip_pool:
        return add_ip()
    cur_ip = None
    for index, ip in enumerate(ip_pool):
        if not ip.is_expire():
            # 没过期 返回
            cur_ip = ip
            break
    if not cur_ip:
        return add_ip()
    logger.info(f"[IP池]从IP池中获取到代理IP: {cur_ip}")
    return cur_ip
--- a/utils/scheduler.py
+++ b/utils/scheduler.py
@ -0,0 +1,109 @@
 # -*- coding: utf-8 -*-
 import datetime
 import random
 from apscheduler.schedulers.asyncio import AsyncIOScheduler
 from typing import Dict, List
 import config
 from models.monitor_task_db import MonitorTask
 from spiders.xinhua.spider import XinHuaSpider
 from spiders.renmin.spider import RenMinSpider
 from spiders.yang_shi.spider import YangShiSpider
 from utils.utils import logger
 from base.base_spider import AbstractSpider
 import utils.date_format as date_format
 from base.enums import Platform
 import logging
 from datetime import timedelta
 import copy
 def singleton(cls):
    instances = {}
    def getinstance():
        if cls not in instances:
            instances[cls] = cls()
        return instances[cls]
    return getinstance
@singleton
 class SchedulerManager:
    scheduler: AsyncIOScheduler
    def __init__(self):
        # 调整调度器日志等级
        ap_logger = logging.getLogger('apscheduler')
        ap_logger.setLevel(logging.WARNING)
        self.scheduler = AsyncIOScheduler()
    def get_scheduler(self):
        """
        获取调度器对象
        :return:
        """
        if not self.scheduler:
            self.scheduler = AsyncIOScheduler()
        return self.scheduler
    def start(self, paused=False):
        self.scheduler.start(paused)
    def add_task(self, task: MonitorTask, offset=0, is_random=False):
        """
        添加任务
        :param is_random: 是否随机偏移
        :param offset: 偏移多少秒后执行
        :param task:
        :return:
        """
        scheduler = self.get_scheduler()
        spider: AbstractSpider = None
        if task.platform == Platform.XIN_HUA:
            spider = XinHuaSpider()
        elif task.platform == Platform.REN_MIN:
            spider = RenMinSpider()
        elif task.platform == Platform.YANG_SHI:
            spider = YangShiSpider()
        if not spider:
            # logger.error(F"未知的平台: {task.platform} 任务id: {task.id}")
            return
        if not task.gather_time:
            logger.error(F"[调度器]采集时间不存在 任务id: {task.id}")
        if is_random:
            offset = offset + random.randint(1, 29)
        # 时间向后偏移
        task_date_time = date_format.gen_job_datetime(task.gather_time)
        task_date_time = task_date_time + timedelta(seconds=offset)
        if task_date_time < datetime.datetime.now():
            task_date_time = datetime.datetime.now() + datetime.timedelta(seconds=60)
        # 添加定时任务
        scheduler.add_job(spider.start, "date", run_date=task_date_time, kwargs={"task_id": task.id})
        logger.info(
            F"[调度器]注册定时任务 ID: {task.id} 执行时间: {task_date_time} {F'偏移{offset}秒后执行' if offset > 0 else ''}")
    def add_tasks(self, tasks: List[MonitorTask], is_random=False):
        # 按平台和关键词分组
        group = {}
        for task in tasks:
            if task.platform not in group:
                group[task.platform] = {}
            if task.keyword not in group[task.platform]:
                group[task.platform][task.keyword] = []
            group[task.platform][task.keyword].append(task)
        # 遍历每个关键词组
        for platform, platform_group in group.items():
            for keyword, task_list in platform_group.items():
                sorted_task_list = sorted(task_list, key=lambda e: date_format.parse_time(task.gather_time))
                # 判断最后一个任务是否在极限时间之前
                if date_format.lt_time(sorted_task_list[-1].gather_time, config.MAX_GATHER_TIME):
                    # 创建一个补偿任务
                    new_task = copy.deepcopy(sorted_task_list[-1])
                    new_task.gather_time = config.MAX_GATHER_TIME
                    sorted_task_list.append(new_task)
                    for sorted_task in sorted_task_list:
                        self.add_task(sorted_task, 0, is_random)
--- a/utils/utils.py
+++ b/utils/utils.py
@ -0,0 +1,60 @@
 # -*- coding: utf-8 -*-
 import logging
 from logging.handlers import TimedRotatingFileHandler
 import re
 import os
 def init_loging_config():
    # 检查log文件夹是否存在
    if not os.path.exists("./log"):
        os.mkdir("./log")
    # 创建一个handler，用于按日期写入日志文件
    # 'W0' 表示每周滚动一次，'D' 表示每天滚动一次，'H' 表示每小时滚动一次，'M' 表示每分钟滚动一次
    # 'midnight' 表示在午夜滚动，'h:m' 表示在指定的小时和分钟滚动
    # backupCount 表示保留的日志文件的个数，超过后会删除最旧的日志文件
    # when='D', interval=1, backupCount=7 表示每天滚动一次，并保留最近7天的日志文件
    file_handler = TimedRotatingFileHandler('./log/huo_spider.log', when='D', interval=1, encoding='utf-8')
    file_handler.setLevel(logging.DEBUG)
    # 定义handler的输出格式
    formatter = logging.Formatter('%(asctime)s [%(name)s] %(levelname)s %(message)s ')
    file_handler.setFormatter(formatter)
    level = logging.INFO
    logging.basicConfig(
        level=level,
        format="%(asctime)s [%(name)s] %(levelname)s %(message)s ",
        datefmt='[%Y-%m-%d %H:%M:%S]'
    )
    _logger = logging.getLogger("HuoSpider")
    _logger.setLevel(level)
    _logger.addHandler(file_handler)
    return _logger
 logger = init_loging_config()
 def is_blank(val: str):
    if val is None:
        return False
    if not val.strip():
        return False
    return True
 def count_characters(val):
    """
    统计中文和非中文字符个数
    :param val:
    :return:
    """
    if not isinstance(val, str):
        val = str(val)
    chinese_pattern = re.compile(r'[\u4e00-\u9fa5]')
    not_chinese_pattern = re.compile(r'[^\u4e00-\u9fa5]')
    chinese = re.findall(chinese_pattern, val)
    not_chinese = re.findall(not_chinese_pattern, val)
    return len(chinese), len(not_chinese)