资讯
InfoQ中国 on MSN
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集
Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于复杂和昂贵而无法处理的资源。 尽管大多数大规模语言模型数据集依赖于 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果