hubian 0ee0abbbd1 feat: 产品参数爬取系统 v1.0.0
功能:
- 多步骤爬取流程(入口页→列表页→详情页)
- 浏览器爬虫支持(Playwright,处理JS渲染)
- 比亚迪汽车爬虫示例
- 后台管理界面
- 数据存储和导出

技术栈:
- Python 3 + Flask
- Playwright (浏览器自动化)
- BeautifulSoup (HTML解析)

端口:
- API服务: 19011
- 后台管理: 19012
2026-04-10 00:45:51 +08:00
2026-04-10 00:45:51 +08:00

Product Crawler - 产品参数爬取系统

自动从官方网站爬取产品参数信息,支持多步骤爬取流程配置

项目结构

product-crawler/
├── app.py                 # 主程序入口
├── crawler/
│   ├── __init__.py
│   ├── base.py           # 爬虫基类
│   ├── browser.py        # 浏览器爬虫处理JS渲染
│   ├── static.py         # 静态页面爬虫
│   └── pipelines.py      # 数据处理管道
├── spiders/              # 具体网站爬虫配置
│   ├── __init__.py
│   ├── byd.py           # 比亚迪爬虫
│   └── templates.py     # 爬虫模板
├── admin/                # 后台管理
│   ├── app.py
│   └── templates/
├── data/                 # 数据存储
│   └── products.json
├── config/
│   └── settings.py      # 配置文件
└── requirements.txt

功能特点

  1. 多步骤爬取流程

    • 入口页面 → 产品列表 → 产品详情
    • 可配置每一步的解析规则
  2. 多种爬取方式

    • 静态爬虫requests + BeautifulSoup
    • 浏览器爬虫Playwright/Selenium处理JS渲染
  3. 后台管理

    • 爬虫任务管理
    • 爬取结果查看
    • 定时任务配置
  4. 数据存储

    • JSON文件存储
    • 支持导出CSV/Excel

快速开始

# 安装依赖
pip install -r requirements.txt

# 运行主服务
python app.py

# 后台管理
python admin/app.py

访问地址

Description
产品参数爬取系统 - 自动从官网爬取产品参数
Readme 62 KiB
Languages
HTML 67.4%
Python 32.6%