技术栈
Playwright
无头浏览器引擎基于Chromium的浏览器自动化。完美支持JavaScript渲染页面、SPA、动态内容。
Chromium/Firefox/WebKit
JavaScript渲染
网络拦截
多浏览器上下文
FastAPI
API服务层异步Python Web框架,将爬虫任务以API形式提供。与Laravel联动触发任务。
异步处理
自动生成OpenAPI文档
Pydantic数据验证
WebSocket支持
APScheduler
任务调度基于Cron的定期采集调度器。为每个数据源设置独立周期并自动执行。
Cron表达式
任务队列管理
失败重试
并发控制
PostgreSQL + asyncpg
数据存储基于JSONB灵活Schema统一存储多种数据源。异步DB驱动实现高性能处理。
JSONB灵活Schema
异步连接池
趋势分析索引
租户隔离
技术能力
🌐
数据采集(Crawling)
- 门户搜索结果采集(Naver、Google)
- 电商商品信息采集(价格、排名、评论)
- 销售指数/趋势指标追踪
- 完美支持JavaScript渲染页面
- 自动处理分页/无限滚动
⚡
网页自动化(Action)
- 表单自动填写与提交
- 登录会话管理
- 文件上传/下载自动化
- 截屏/PDF捕获
- API联动自动数据传输
🛡️
稳定性与可扩展性
- 请求间随机延迟(Rate Limiting)
- User-Agent/Header轮换
- 失败自动重试(Exponential Backoff)
- 代理池管理
- 多浏览器实例并行处理
📊
数据管道
- HTML解析 → 结构化数据转换
- JSONB灵活Schema存储
- 按日快照追踪趋势
- CSV/Excel导出
- REST API对接外部系统
应用案例
🛒
电商监控
每日追踪竞品价格、排名、评论变动
🔍
关键词排名追踪
监控门户/电商平台上各关键词的曝光排名
📈
销售指数分析
YES24、Aladin等销售指数日采集及趋势分析
📋
内容采集
监控新闻、博客、社区中的品牌提及
💰
价格比较
采集多个电商平台同一商品价格进行对比分析
📊
定期报告
基于采集数据自动生成日报/周报