PDFMiner Python - 搜索 News

资讯

题目1.3：将 0002 题生成的 200 个激活码（或者优惠券）保存到 MySQL关系型数据库中。题目1.4：任一个英文的纯文本文件，统计其中的单词出现的个数。题目1.5：你有一个目录，装了很多照片，把它们的尺寸变成都不大于 iPhone5 分辨率的大小。题目1.7：敏感词 ...

赛题要求从pdf简历中提取出信息，比如说名字，籍贯等。这里搭建了一个BiLSTM-CRF模型，能够从PDF简历中提取出所需的信息。使用python库pdfminer，将pdf简历中的文本提取出来。利用json标注文件，对提取出来的文本进行匹配和BIO标注，每一个字对应一个标注。

在日常工作和学习中，PDF(Portable Document Format)凭借其跨平台、不易变形的特性，已成为我们处理文档的首选格式。然而，随着文件数量的增加和内容的积累，我们常常会遇到一个棘手的问题：一个包含了大量不同内容、来自不同来源或者仅仅是过于庞大的PDF文件。

一些您可能无法访问的结果已被隐去。