- 端口从 19011+19012 合并为 19011 - 前台API: http://localhost:19011 - 后台管理: http://localhost:19011/admin - 新增 templates 目录,整合管理页面模板 - 更新所有路由为 /admin 路径
Product Crawler - 产品参数爬取系统
自动从官方网站爬取产品参数信息,支持多步骤爬取流程配置
项目结构
product-crawler/
├── app.py # 主程序入口
├── crawler/
│ ├── __init__.py
│ ├── base.py # 爬虫基类
│ ├── browser.py # 浏览器爬虫(处理JS渲染)
│ ├── static.py # 静态页面爬虫
│ └── pipelines.py # 数据处理管道
├── spiders/ # 具体网站爬虫配置
│ ├── __init__.py
│ ├── byd.py # 比亚迪爬虫
│ └── templates.py # 爬虫模板
├── admin/ # 后台管理
│ ├── app.py
│ └── templates/
├── data/ # 数据存储
│ └── products.json
├── config/
│ └── settings.py # 配置文件
└── requirements.txt
功能特点
-
多步骤爬取流程
- 入口页面 → 产品列表 → 产品详情
- 可配置每一步的解析规则
-
多种爬取方式
- 静态爬虫:requests + BeautifulSoup
- 浏览器爬虫:Playwright/Selenium(处理JS渲染)
-
后台管理
- 爬虫任务管理
- 爬取结果查看
- 定时任务配置
-
数据存储
- JSON文件存储
- 支持导出CSV/Excel
快速开始
# 安装依赖
pip install -r requirements.txt
# 运行主服务
python app.py
# 后台管理
python admin/app.py
访问地址
- API服务: http://localhost:19011
- 后台管理: http://localhost:19012
Description
Languages
HTML
67.4%
Python
32.6%