hubian 7b20773c29 feat: v2.0.0 - 合并后台管理到单端口
- 端口从 19011+19012 合并为 19011
- 前台API: http://localhost:19011
- 后台管理: http://localhost:19011/admin
- 新增 templates 目录,整合管理页面模板
- 更新所有路由为 /admin 路径
2026-04-13 10:59:00 +08:00

Product Crawler - 产品参数爬取系统

自动从官方网站爬取产品参数信息,支持多步骤爬取流程配置

项目结构

product-crawler/
├── app.py                 # 主程序入口
├── crawler/
│   ├── __init__.py
│   ├── base.py           # 爬虫基类
│   ├── browser.py        # 浏览器爬虫处理JS渲染
│   ├── static.py         # 静态页面爬虫
│   └── pipelines.py      # 数据处理管道
├── spiders/              # 具体网站爬虫配置
│   ├── __init__.py
│   ├── byd.py           # 比亚迪爬虫
│   └── templates.py     # 爬虫模板
├── admin/                # 后台管理
│   ├── app.py
│   └── templates/
├── data/                 # 数据存储
│   └── products.json
├── config/
│   └── settings.py      # 配置文件
└── requirements.txt

功能特点

  1. 多步骤爬取流程

    • 入口页面 → 产品列表 → 产品详情
    • 可配置每一步的解析规则
  2. 多种爬取方式

    • 静态爬虫requests + BeautifulSoup
    • 浏览器爬虫Playwright/Selenium处理JS渲染
  3. 后台管理

    • 爬虫任务管理
    • 爬取结果查看
    • 定时任务配置
  4. 数据存储

    • JSON文件存储
    • 支持导出CSV/Excel

快速开始

# 安装依赖
pip install -r requirements.txt

# 运行主服务
python app.py

# 后台管理
python admin/app.py

访问地址

Description
产品参数爬取系统 - 自动从官网爬取产品参数
Readme 62 KiB
Languages
HTML 67.4%
Python 32.6%