Skip to content

PDF 文本提取工具:轻松复制 PDF 文字

使用 pdfly extract-text 命令,将一份 PDF 文档中所有可选择的纯文本内容一次性提取出来,并保存到一个新的 .txt 文件中。

PDF 文本提取工具界面截图

⚡️ 快速上手

  1. 点击选择一个输入文件(你想从中提取文字的 PDF)。
  2. 指定输出文件名输出文件夹
  3. 点击“执行”按钮。命令执行完成后,即可获得一个提取后的文本文件。

🤔 我该在什么时候用它?

  • 你收到一份 PDF 报告,想把其中的大段文字复制出来,但 PDF 的复制功能不好用或被限制。
  • 你想将一篇 PDF 格式的文章内容,快速转换为可以自由编辑的纯文本
  • 你需要将多份 PDF 的内容进行整合,提取它们的文字是第一步。

⚙️ 参数说明

  • 输入文件: 你想要提取文本的源 PDF 文件。
  • 输出文件名: 保存提取出的纯文本内容的文件名,推荐使用 .txt 后缀。
  • 输出文件夹: 选择新生成的文本文件的保存位置。

⚠️ 重要提示:非扫描件 PDF

本工具只能提取“文本型”PDF,无法处理“图片型”PDF。

  • ✔️ 文本型 PDF: 指的是 PDF 中的文字信息是真实的文本数据,可以用鼠标光标选择和复制。这是本工具可以处理的类型

  • 图片型 PDF: 这类 PDF 本质上是一张或多张图片,通常由扫描仪生成。里面的文字是图像的一部分,无法被选择。本工具无法从这类 PDF 中通过 OCR(光学字符识别)来提取文字。如果输入的是这类文件,输出的文本文件很可能是空的。

依赖安装

本工具依赖于 pdfly 这个 Python 包。你需要先在 Mac 上安装 Python 和 pip,然后通过终端运行一次:

bash
pip install pdfly

相关工具

在CmdWise应用市场中,您还可以找到其他 PDF 处理工具: