Skip to content

题目采集的策略 #2

@fish-ball

Description

@fish-ball

采用直接抓爬策略,在平台站点中设置题目 url 的正则。

然后开始在域名下面全站爬取,设置不爬取的规则列表。

爬取时将爬取中间变量载入内存,中断时写入 pickle 以恢复爬取状态。

记录爬取的状态(未采集/采集中/已采集)

同一个时间,只允许一个平台的采集任务,采集完毕后,记录采集的时间,并且维护一个自动重复爬取的时间(默认是一周)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions