0ee0abbbd1814d65a65099e7aaf3f55b64a68dba
功能: - 多步骤爬取流程(入口页→列表页→详情页) - 浏览器爬虫支持(Playwright,处理JS渲染) - 比亚迪汽车爬虫示例 - 后台管理界面 - 数据存储和导出 技术栈: - Python 3 + Flask - Playwright (浏览器自动化) - BeautifulSoup (HTML解析) 端口: - API服务: 19011 - 后台管理: 19012
Product Crawler - 产品参数爬取系统
自动从官方网站爬取产品参数信息,支持多步骤爬取流程配置
项目结构
product-crawler/
├── app.py # 主程序入口
├── crawler/
│ ├── __init__.py
│ ├── base.py # 爬虫基类
│ ├── browser.py # 浏览器爬虫(处理JS渲染)
│ ├── static.py # 静态页面爬虫
│ └── pipelines.py # 数据处理管道
├── spiders/ # 具体网站爬虫配置
│ ├── __init__.py
│ ├── byd.py # 比亚迪爬虫
│ └── templates.py # 爬虫模板
├── admin/ # 后台管理
│ ├── app.py
│ └── templates/
├── data/ # 数据存储
│ └── products.json
├── config/
│ └── settings.py # 配置文件
└── requirements.txt
功能特点
-
多步骤爬取流程
- 入口页面 → 产品列表 → 产品详情
- 可配置每一步的解析规则
-
多种爬取方式
- 静态爬虫:requests + BeautifulSoup
- 浏览器爬虫:Playwright/Selenium(处理JS渲染)
-
后台管理
- 爬虫任务管理
- 爬取结果查看
- 定时任务配置
-
数据存储
- JSON文件存储
- 支持导出CSV/Excel
快速开始
# 安装依赖
pip install -r requirements.txt
# 运行主服务
python app.py
# 后台管理
python admin/app.py
访问地址
- API服务: http://localhost:19011
- 后台管理: http://localhost:19012
Description
Languages
HTML
67.4%
Python
32.6%