从 PDF 文档中提取文本内容,支持复制和下载
支持 .pdf 格式
有时候你需要从一份 PDF 里把文字内容提出来——可能是为了复制到邮件里,可能是要整理成文档,也可能只是想搜索里面的某段话。直接从 PDF 里选中复制经常会遇到格式乱掉、换行错位的问题。这个工具可以帮你一次性把整份 PDF 的文字提取出来,整理成干净的纯文本,方便你复制或下载。
使用浏览器端的 PDF 解析技术,文件不会离开你的电脑。关掉页面,什么都不会留下。对于包含敏感信息的文档,这一点很重要。
按页码顺序提取文字,每页之间有清晰的分隔标记。方便你定位内容来自哪一页,也方便按需复制特定页的内容。
提取结果可以一键复制到剪贴板,也可以直接下载为 .txt 文件。文本框里的内容还支持手动编辑,方便你在下载前做简单修改。
不需要注册,不限制使用次数,没有文件大小的人为限制。纯粹的工具页面,打开就用,用完就走。
这个工具提取的是 PDF 文件中的文字层信息。如果你的 PDF 是由 Word、PPT 或其他办公软件导出的,里面的文字通常都能正常提取。但如果 PDF 是扫描仪扫出来的(本质上是图片),或者是拍照生成的,那文字层可能是空的,提取结果会很少甚至为空。这种情况需要用 OCR(光学字符识别)工具来处理。
另外,PDF 的排版方式比较特殊,提取出来的文字顺序偶尔会和视觉上看到的不完全一致,特别是多栏排版或者表格内容。如果遇到这种情况,可能需要手动调整一下顺序。
不会。所有处理都在浏览器本地完成,使用的是 PDF.js 技术。你的文件不会经过任何服务器,我们也没有接收文件的后端程序。
最常见的原因是 PDF 是扫描件或图片型 PDF,里面没有可提取的文字层。另一种可能是 PDF 使用了特殊的字体编码,导致文字无法正确解析。
支持。只要 PDF 中包含真实的中文文字信息(不是图片),就可以正常提取。中英文混排的文档也没问题。
提取结果是纯文本,不保留原始的字体、颜色、加粗等格式。段落和换行会尽量保留,但复杂排版(如表格、多栏)的格式可能需要手动整理。
可以。页面适配了移动端浏览器,但由于 PDF 解析需要一定的计算资源,处理大文件时手机可能会比电脑慢一些。