doubanTop250Crawler

1. 简介

初学爬虫写的一个小项目，目标是：

爬取豆瓣读书Top250的书籍信息，挑选了书名、网址链接、封面链接、作者、评分、评分人数和评论人数共7个字段进行爬取
将爬取到的数据写入MySQL数据库进行保存

2. 注意

项目保存了一份2022-11-13爬取的csv数据
代理池搭建参考jhao104/proxy_pool项目
通过随机生成bid进行简易反爬策略参考自：Scrapy中 CrawlSpider 使用和单机30分钟抓取豆瓣电影7万+数据
豆瓣读书页面中作者一栏常包含空格（）和换行符（\n），在写入数据库前需要注意
需要修改settings.py中的数据库配置信息，也可以修改并发、延迟等等参数；如果需要使用代理池，需要修改middlewares.py中的代理池地址

运行代码前需要新建MySQL数据库和表，具体SQL语句可参考如下：

CREATE DATABASE IF NOT EXISTS your_database;

DROP TABLE IF EXISTS your_table;

CREATE TABLE your_table(
    title VARCHAR(255) PRIMARY KEY,
    url VARCHAR(255),
    img_url VARCHAR(255),
    author VARCHAR(255),
    rate FLOAT,
    votes_num INT,
    comments_num INT
);

项目不足：没有处理如何爬取书籍对应的Top250排名

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
doubanTop250Crawler		doubanTop250Crawler
README.md		README.md
douban.csv		douban.csv
requirements.txt		requirements.txt
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

doubanTop250Crawler

1. 简介

2. 注意

About

Releases

Packages

Languages

YeshuoShu/doubanTop250Crawler

Folders and files

Latest commit

History

Repository files navigation

doubanTop250Crawler

1. 简介

2. 注意

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages