Go to file

hubian 0ee0abbbd1 feat: 产品参数爬取系统 v1.0.0

功能:
- 多步骤爬取流程（入口页→列表页→详情页）
- 浏览器爬虫支持（Playwright，处理JS渲染）
- 比亚迪汽车爬虫示例
- 后台管理界面
- 数据存储和导出

技术栈:
- Python 3 + Flask
- Playwright (浏览器自动化)
- BeautifulSoup (HTML解析)

端口:
- API服务: 19011
- 后台管理: 19012

2026-04-10 00:45:51 +08:00

admin

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

config

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

crawler

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

spiders

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

.gitignore

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

app.py

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

README.md

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

requirements.txt

feat: 产品参数爬取系统 v1.0.0

2026-04-10 00:45:51 +08:00

README.md

Product Crawler - 产品参数爬取系统

自动从官方网站爬取产品参数信息，支持多步骤爬取流程配置

项目结构

product-crawler/
├── app.py                 # 主程序入口
├── crawler/
│   ├── __init__.py
│   ├── base.py           # 爬虫基类
│   ├── browser.py        # 浏览器爬虫（处理JS渲染）
│   ├── static.py         # 静态页面爬虫
│   └── pipelines.py      # 数据处理管道
├── spiders/              # 具体网站爬虫配置
│   ├── __init__.py
│   ├── byd.py           # 比亚迪爬虫
│   └── templates.py     # 爬虫模板
├── admin/                # 后台管理
│   ├── app.py
│   └── templates/
├── data/                 # 数据存储
│   └── products.json
├── config/
│   └── settings.py      # 配置文件
└── requirements.txt

功能特点

多步骤爬取流程
- 入口页面 → 产品列表 → 产品详情
- 可配置每一步的解析规则
多种爬取方式
- 静态爬虫：requests + BeautifulSoup
- 浏览器爬虫：Playwright/Selenium（处理JS渲染）
后台管理
- 爬虫任务管理
- 爬取结果查看
- 定时任务配置
数据存储
- JSON文件存储
- 支持导出CSV/Excel

快速开始

# 安装依赖
pip install -r requirements.txt

# 运行主服务
python app.py

# 后台管理
python admin/app.py

访问地址

API服务: http://localhost:19011
后台管理: http://localhost:19012

README.md Unescape Escape

Product Crawler - 产品参数爬取系统

项目结构

功能特点

快速开始

访问地址

README.md