feat(ai_seo): 支持 datetime 类型的 publish_time 字段并优化工作流爬虫集成

- 在 `AiAnswer` 数据类中扩展 `publish_time` 类型，支持传入 `datetime` 实例，并自动格式化为字符串- 新增 `WorkFlowApiSpider` 爬虫类，用于通过 API 方式获取工作流平台的 AI 回复结果 - 更新 `main.py` 和 `run.py`，注册并调用工作流爬虫逻辑 - 添加定时任务调度逻辑以支持工作流平台的任务执行 - 支持根据平台 ID 动态判断使用传统爬虫或工作流 API 爬虫- 增加对短结果、空结果的异常处理及任务状态回滚机制- 浏览器初始化逻辑优化，仅在需要时启动浏览器实例
2 weeks ago · 1f110c160c
4 changed files with 215 additions and 5 deletions
--- a/domain/ai_seo.py
+++ b/domain/ai_seo.py
@ -21,7 +21,7 @@ class AiSearchResult:
    # 描述
    body: str = ''
    # 发布时间
    publish_time: str|int|float = ''
    publish_time: str|int|float|datetime = ''
    #是否被ai引用
    is_referenced: str = '0'
    #情感倾向" 1- 中立 2- 正面 3- 负面
@ -29,6 +29,10 @@ class AiSearchResult:
    #情感类型
    type = 0
    def __post_init__(self):
        if isinstance(self.publish_time, datetime):
            self.publish_time = self.publish_time.strftime('%Y-%m-%d %H:%M:%S')
        if isinstance(self.publish_time, float):
            self.publish_time = int(self.publish_time)
--- a/main.py
+++ b/main.py
@ -13,6 +13,7 @@ from abs_spider import AbstractAiSeoSpider
 from domain.ai_seo import AiAnswer
 from spiders.ai_seo import *
 from spiders.ai_seo.wenxiaoyan import WenxiaoyanSpider
 from spiders.ai_seo.workflow import WorkFlowApiSpider
 from utils.logger_utils import create_logger
 from utils.ai import AiSeoApis
@ -30,6 +31,8 @@ SPIDER_CLS = {
    8: WenxiaoyanSpider
 }
 WORKFLOW_PLATFORM_IDS = [2, 5]
 async def init_browser() -> tuple:
    """
@ -46,7 +49,9 @@ async def init_browser() -> tuple:
    return playwright, browser
 def get_spider(platform_id, prompt, brand, browser) -> AbstractAiSeoSpider:
 def get_spider(platform_id, prompt, brand, browser) -> AbstractAiSeoSpider|WorkFlowApiSpider:
    if platform_id in WORKFLOW_PLATFORM_IDS:
        return WorkFlowApiSpider(prompt, brand, platform_id)
    cls = SPIDER_CLS.get(int(platform_id), None)
    if not cls:
        raise ValueError(f"未找到对应的爬虫类，platform_id={platform_id}")
--- a/run.py
+++ b/run.py
@ -5,12 +5,12 @@ import uuid
 from dataclasses import asdict
 from datetime import datetime, timedelta, time
 import requests
 from apscheduler.schedulers.asyncio import AsyncIOScheduler
 from playwright.async_api import async_playwright, Browser
 import config
 from spiders.ai_seo import *
 from spiders.ai_seo.workflow import WorkFlowApiSpider
 from utils import create_logger
 from utils.ai import read_rank
 from utils.ai_seo_api_utils import AiSeoApis
@ -30,6 +30,7 @@ SPIDER_CLS = {
 }
 spider_pool: dict = {}
 WORKFLOW_PLATFORM_IDS = [2, 5]
 async def init_browser() -> tuple:
    """
@ -44,7 +45,7 @@ async def init_browser() -> tuple:
                                               args=config.BROWSER_ARGS)
    return playwright, browser
 def get_spider(platform_id, prompt, brand, browser) -> None | DeepseekSpider | TongyiSpider | YuanBaoSpider | KimiSpider | DouBaoSpider | YiYanSpider | NanometerSpider:
 def get_spider(platform_id, prompt, brand, browser) -> None | DeepseekSpider | TongyiSpider | YuanBaoSpider | KimiSpider | DouBaoSpider | YiYanSpider | NanometerSpider | WorkFlowApiSpider:
    """
    根据平台ID获取相应的爬虫实例。
@ -61,6 +62,8 @@ def get_spider(platform_id, prompt, brand, browser) -> None | DeepseekSpider | T
    - ValueError: 如果未找到对应的爬虫类，则抛出此异常。
    """
    # 根据平台ID获取对应的爬虫类
    if str(platform_id) in config.AISEO_WORKFLOW_JOB_PLATFORM_IDS:
        return WorkFlowApiSpider(prompt, brand, platform_id)
    cls = SPIDER_CLS.get(int(platform_id), None)
    # 如果没有找到对应的爬虫类，抛出异常
    if not cls:
@ -188,6 +191,87 @@ async def ai_seo_job_with_timeout(browser, platform_ids, time_range, job_id, typ
            await AiSeoApis.update_task_status(spider.task_id, 4)
            logger.info(f"回滚任务状态: id: {spider.task_id}")
 async def workflow_job(browser, platform_ids, time_range, type_name, run_id):
    status, date = calc_task_date(time_range)
    if not status:
        # 是否有紧急任务
        task_result = await AiSeoApis.get_urgent_task_count()
        if task_result['count'] <= 0:
            return
    platform_str = ','.join(platform_ids)
    # 获取任务信息
    task_data = await AiSeoApis.get_one_task(date=date, platform_ids=platform_str)
    if not task_data:
        logger.info(f'[{type_name}]未获取到任务信息')
        return
    task_id = task_data['id']
    logger.info(f"获取到{task_data['project_id']}项目任务: id: {task_data['id']} 平台id: {task_data['platform_id']} "
                f"关键词: {task_data['keyword']} 品牌词: {task_data['brand']}")
    # 记录开始时间
    start_time = datetime.now()
    # 创建爬虫实例
    spider = get_spider(task_data['platform_id'], task_data['keyword'], task_data['brand'], browser)
    # 记录任务id
    spider.task_id = task_id
    spider_pool[run_id] = spider
    logger.info(f"RunId注册成功: TaskId: {task_id} 平台: {spider.platform_name}")
    # 是否开启深度思考
    if not spider:
        await AiSeoApis.update_task_status(task_id, 5)
        logger.error(
            f"未找到对应的爬虫类 请检查任务信息: id: {task_data['id']} platform_id: {task_data['platform_id']}")
        return
    ai_answer = None
    try:
        # 运行爬虫并获取结果
        ai_answer = await spider.run()
    except Exception as e:
        await AiSeoApis.update_task_status(task_id, 4)
        logger.info(f"回滚任务状态: id: {task_id}")
        spider_pool.pop(run_id, None)
        return
    if not ai_answer:
        await AiSeoApis.update_task_status(task_id, 4)
        logger.error(f"爬虫运行失败 id: {task_data['id']} platform_id: {task_data['platform_id']}")
        spider_pool.pop(run_id, None)
        return
    # 记录结束时间
    end_time = datetime.now()
    # 提交爬虫结果
    answer_data = asdict(ai_answer)
    # 结果参数
    answer_data = {
        **config.AI_SEO_API_AUTH,
        **answer_data,
        'task_id': task_data['id'],
        'rank': 0,
        'start_time': start_time.strftime("%Y-%m-%d %H:%M:%S"),
        'end_time': end_time.strftime("%Y-%m-%d %H:%M:%S"),
        'screenshot_url':''
    }
    if not answer_data.get('answer', ''):
        answer_data['answer'] = '未知'
        answer_data['rank'] = 0
    else:
        brands, rank = await read_rank(answer_data['answer'], task_data['brand'])
        answer_data['rank'] = rank
        answer_data['words'] = brands
    if len(answer_data.get('answer', '')) <= 20:
        await AiSeoApis.update_task_status(task_id, 4)
        logger.error(f"爬虫结果长度过短: id: {task_data['id']} platform_id: {task_data['platform_id']}")
        logger.error(f"回滚任务状态: id: {task_id}")
        logger.info(f"{answer_data.get('answer', '')}")
        return
    result = await AiSeoApis.submit_task(answer_data)
    logger.debug(json.dumps(answer_data, ensure_ascii=False))
    logger.info(f"任务提交成功: id: {task_data['id']}")
    spider_pool.pop(run_id, None)
 async def heartbeat(browser: Browser):
    load_count = len(browser.contexts)
    result = await AiSeoApis.heartbeat(config.DC_ID, load_count)
@ -237,7 +321,11 @@ async def check_session(platform_ids=None):
 async def main():
    # 初始化浏览器实例
    playwright, browser = await init_browser()
    if config.AI_SEO_JOB_ENABLE or config.DEEPSEEK_JOB_ENABLE:
        playwright, browser = await init_browser()
    else:
        playwright = None
        browser = None
    logger.info('初始化浏览器成功')
    if config.AI_SEO_JOB_ENABLE:
        # 启动一般平台aiseo任务
@ -253,6 +341,14 @@ async def main():
                          args=[browser, config.DEEPSEEK_JOB_PLATFORM_IDS, config.DEEPSEEK_SEO_JOB_RANGE,
                                'deepseek_ai_seo_job', 'DeepSeek'])
        logger.success('启动deepseek任务成功')
    if config.AISEO_WORKFLOW_JOB_ENABLE:
        # 启动工作流获取AI结果任务
        scheduler.add_job(workflow_job, 'interval',
                          id='workflow_job', seconds=config.AISEO_WORKFLOW_JOB_INTERVAL,
                          max_instances=config.AISEO_WORKFLOW_JOB_MAX_INSTANCES, coalesce=False,
                          args=[browser, config.AISEO_WORKFLOW_JOB_PLATFORM_IDS, config.AI_SEO_JOB_RANGE,
                                'workflow_job', 'Workflow'])
        logger.success('启动工作流获取AI结果任务成功')
    # 启动心跳任务
    # scheduler.add_job(heartbeat, 'interval', id='heartbeat', seconds=30,args=[browser])
    # logger.info('启动心跳任务成功')
--- a/spiders/ai_seo/workflow.py
+++ b/spiders/ai_seo/workflow.py
@ -0,0 +1,105 @@
 # coding=utf-8
 from datetime import datetime
 import httpx
 import config
 from domain.ai_seo import AiAnswer, AiSearchResult
 from utils import create_logger
 # 平台信息
 PLATFORMS = {
    1: {'id': 1, 'name': 'Deepseek', 'api_key': ''},
    2: {'id': 2, 'name': '通义千问', 'api_key': 'app-mQE0lOxB0G49r4tQSv2LgIOV'},
    3: {'id': 3, 'name': '腾讯元宝', 'api_key': ''},
    4: {'id': 4, 'name': 'Kimi', 'api_key': ''},
    5: {'id': 5, 'name': '豆包', 'api_key': 'app-lD5HbD03EW7pamzIV2VEIyR6'},
    6: {'id': 6, 'name': '文心一言', 'api_key': ''},
 }
 logger = create_logger(__name__)
 class WorkFlowApiSpider:
    platform_id: int
    platform_name: str
    prompt: str
    keyword: str
    ai_answer: AiAnswer | None = None
    fail_status: bool = False
    fail_exception: Exception | None = None
    load_session: bool = True
    task_id: int = 0
    think: bool = False,
    api_key: str = ''
    def __init__(self, prompt: str, keyword: str, platform_id: int):
        self.platform_id = platform_id
        self.prompt = prompt
        self.keyword = keyword
        platform = PLATFORMS.get(int(platform_id), {})
        if not platform:
            raise Exception('平台不存在')
        self.platform_name = platform.get('name', '')
        self.api_key = platform.get('api_key', '')
        if not self.api_key:
            raise Exception('平台未配置api_key')
    async def run(self):
        logger.info(f"{self.platform_name}Api开始获取数据 提问词: {self.prompt}")
        # 构建参数
        params = {
            "response_mode": "blocking",
            "user": config.DIFY_USER,
            "inputs": {
                "prompt": self.prompt
            }
        }
        headers = {
            "Authorization": f"Bearer {self.api_key}"
        }
        # 发送请求
        async with httpx.AsyncClient() as client:
            response = await client.post(f"{config.DIFY_BASE_URL}/workflows/run", json=params, headers=headers, timeout=300)
            json_result = response.json()
            result = json_result.get('data', [])
            if not result or not result['status'] == 'succeeded':
                logger.error(f"{self.platform_name}Api获取数据失败: {json_result}")
                raise Exception(f"{self.platform_name}Api获取数据失败")
            # 获取工作流返回的数据
            workflow_result = result['outputs']['work_flow_result']
            # 用量数据
            usage = workflow_result['usage']
            # ai回复内容 带标签
            answer = workflow_result['answer']
            # ai回复内容 不带标签
            pure_answer = workflow_result['pure_answer']
            logger.debug(f"ai回复: {pure_answer}")
            # 联网搜索结果
            web_searches = workflow_result.get('web_search', [])
            # 转换后的结果
            search_items = []
            for item in web_searches:
                # 提取publish_time
                if not item['datePublished']:
                    publish_time = None
                else:
                    publish_time = datetime.strptime(item['datePublished'], "%Y-%m-%dT%H:%M:%S%z")
                search_item = AiSearchResult(
                    title=item['name'],
                    url=item['url'],
                    host_name=item['siteName'],
                    body=item['summary'],
                    publish_time=publish_time,
                    is_referenced=item['is_ref'],
                )
                logger.debug(f"ai参考资料: [{search_item.host_name}]{search_item.title}({search_item.url})")
                search_items.append(search_item)
            # 组合结果
            self.ai_answer = AiAnswer(self.platform_id, self.platform_name, self.prompt, self.keyword, answer, search_items, '',  True)
            logger.info(f"本次用量:\n总Token: {usage['total_tokens']}\n总资费: {round(float(usage['total_price']), 3)}")
            return self.ai_answer