资讯

Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于复杂和昂贵而无法处理的资源。 尽管大多数大规模语言模型数据集依赖于 ...