Skip to content

sigmeta/ChineseBookCorpus

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 

Repository files navigation

ChineseBookCorpus

Chinese Book Corpus 中文书籍语料库

包含各类书籍

目录

世界名著 个人文集 中医古籍 中国古典小说名著百部 人物传记 其他 其他小说 励志成长 历史 古代名著 古典文学 哲学著作 哲理励志 四大名著 宗教经书 小说合集 小说大全 幽默笑话 当代文学 推理侦探 文史科学 文学作品 科学社科 科幻小说 经济管理 综合1 综合2 诗词曲赋 青春校园

大小

压缩后的文件共约5.6GB,分为6个分卷,下载后一起解压。

解压后约14.6GB

下载链接

链接:https://pan.baidu.com/s/1wVismwgFEzStxHBwzZkZfA

提取码:6mcw

格式与内容说明:

  • 文件编码为UTF-8
  • 一个大类的书籍放在同一个文件中,两本书之间以\n\n两个回车符隔开。
  • 大类并非准确的分类,仅根据数据来源进行粗略分类,请勿用此类别作为文本分类标签。未来考虑对书籍进行精细分类。
  • 已根据书籍名称进行去重,但由于数据来源不同,同一本书可能名字不同,故可能包含少量重复。
  • 文件仅进行初步清洗,仍包含许多特殊符号、网址等,并且由于爬取时网站格式原因,少部分句子会在句子中间断开分行(该情况已经通过正则表达式处理了大部分,但仍有残留)。
  • 未进行分句。如果需要句子切分,可以参考 scripts/process_txt.py中的cut_sentences()函数

About

Chinese Book Corpus 中文书籍语料

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages