PDF 转文字提取工具

从 PDF 文档中提取文本内容,支持复制和下载

浏览器本地处理,文件不会上传

点击选择或拖拽 PDF 文件到这里

支持 .pdf 格式

关于这个工具

有时候你需要从一份 PDF 里把文字内容提出来——可能是为了复制到邮件里,可能是要整理成文档,也可能只是想搜索里面的某段话。直接从 PDF 里选中复制经常会遇到格式乱掉、换行错位的问题。这个工具可以帮你一次性把整份 PDF 的文字提取出来,整理成干净的纯文本,方便你复制或下载。

怎么使用

  1. 点击上方的上传区域选择 PDF 文件,或者直接把文件拖进来
  2. 工具会自动开始提取,逐页处理并显示进度。整个过程在你的浏览器里完成,文件不会上传到任何地方
  3. 提取完成后,文字会显示在下方的文本框里。你可以直接复制,也可以点击"下载 TXT"保存为文本文件

适合什么场景

核心特点

完全本地处理

使用浏览器端的 PDF 解析技术,文件不会离开你的电脑。关掉页面,什么都不会留下。对于包含敏感信息的文档,这一点很重要。

逐页提取

按页码顺序提取文字,每页之间有清晰的分隔标记。方便你定位内容来自哪一页,也方便按需复制特定页的内容。

一键复制和下载

提取结果可以一键复制到剪贴板,也可以直接下载为 .txt 文件。文本框里的内容还支持手动编辑,方便你在下载前做简单修改。

免费无限制

不需要注册,不限制使用次数,没有文件大小的人为限制。纯粹的工具页面,打开就用,用完就走。

使用提示

这个工具提取的是 PDF 文件中的文字层信息。如果你的 PDF 是由 Word、PPT 或其他办公软件导出的,里面的文字通常都能正常提取。但如果 PDF 是扫描仪扫出来的(本质上是图片),或者是拍照生成的,那文字层可能是空的,提取结果会很少甚至为空。这种情况需要用 OCR(光学字符识别)工具来处理。

另外,PDF 的排版方式比较特殊,提取出来的文字顺序偶尔会和视觉上看到的不完全一致,特别是多栏排版或者表格内容。如果遇到这种情况,可能需要手动调整一下顺序。

常见问题

文件会被上传吗?

不会。所有处理都在浏览器本地完成,使用的是 PDF.js 技术。你的文件不会经过任何服务器,我们也没有接收文件的后端程序。

为什么提取出来是空的?

最常见的原因是 PDF 是扫描件或图片型 PDF,里面没有可提取的文字层。另一种可能是 PDF 使用了特殊的字体编码,导致文字无法正确解析。

支持中文 PDF 吗?

支持。只要 PDF 中包含真实的中文文字信息(不是图片),就可以正常提取。中英文混排的文档也没问题。

提取后的文字格式会保留吗?

提取结果是纯文本,不保留原始的字体、颜色、加粗等格式。段落和换行会尽量保留,但复杂排版(如表格、多栏)的格式可能需要手动整理。

可以在手机上用吗?

可以。页面适配了移动端浏览器,但由于 PDF 解析需要一定的计算资源,处理大文件时手机可能会比电脑慢一些。