如何使用PDF转Markdown

如何使用PDF转Markdown
type
status
date
slug
summary
tags
category
icon
password
notion image
照片由 Firosnv. Photography 提供,在 Unsplash 上
您也可以在 Medium 之外 阅读这篇文章。
我使用了多种在线工具将 PDF 文档转换为 Markdown 格式,但没有一个能与 Marker 相比。
除了基本的 Markdown 转换,它还能格式化表格,将大多数方程式转换为 LaTeX,提取和存储图片。
以下是我如何使用 Marker 提取 PDF 内容并将其转换为有效的 Markdown。

环境设置

Windows 11

准备条件

根据 Marker 的 GitHub 仓库,需要安装:
  • Python
  • PyTorch
notion image

1. 安装 Python > 3.8

前往 Python 下载页面 并下载最新版本的 Python。
notion image
按照说明安装设置。

2. 安装 PyTorch

注意: 要正确安装 PyTorch,您的系统中必须安装 Python 3.8 或更高版本。
要安装 PyTorch,请访问其 官方网站 并您将看到如下图所示的内容:
notion image
您可以调整这些选项以查看哪个最适合您的系统。一旦获得命令,打开 PowerShell 或命令提示符并粘贴命令。
以下是我用于安装 PyTorch 的命令:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
PyTorch 将开始在您的系统上安装……
notion image
下载和安装需要一些时间,因为主文件的大小为 2.7 GB。
几分钟后,PyTorch 将被安装。
notion image
现在,准备工作已完成。接下来,您可以继续进行实际的 Marker 工作。

克隆 Marker

您可以使用以下命令将 Marker 项目克隆到本地系统:
克隆后,Marker GitHub 仓库将看起来像这样:
notion image
我们已经克隆了仓库,但由于尚未安装 Marker,因此仍然无法将 PDF 转换为 Markdown 格式。

安装 Marker 的步骤

1. 创建新环境

在新克隆的 Marker GitHub 仓库之外,创建一个新环境以将 PDF 转换为 Markdown 文件。
python -m venv myenv
这将创建一个包含多个文件的 myenv 文件夹。
notion image

2. 激活环境

myenv\Scripts\activate
这将激活新创建的环境。
notion image

3. 安装 “marker-pdf”

此命令将使用 pip 包管理器实际安装 marker-pdf
pip install marker-pdf
现在我们准备将 PDF 文档转换为 Markdown 文件!

4. 将 PDF 格式转换为 Markdown

要将 PDF 转换为 Markdown,我们需要两个东西:
  • PDF 的输入路径
  • 输出路径
因为转换命令如下所示:
因此,在克隆的 marker GitHub 项目文件夹内,我将创建两个文件夹:
  • pdfs: 我的输入文件夹
  • output: 我的输出文件夹
我将使用一个示例 PDF 进行 Markdown 转换并将其粘贴到 pdfs 文件夹中。
notion image
现在,要转换 PDF “Get_Started_With_Smallpdf.pdf”,我将使用以下命令:
marker_single "D:/projects/marker-pdf/marker/pdfs/Get_Started_With_Smallpdf.pdf" "D:/projects/marker-pdf/marker/output" - batch_multiplier 2 - max_pages 12
根据 Marker GitHub repo ,其他两个参数的含义如下:
  • -batch_multiplier 是如果您有额外的 VRAM,默认批量大小的倍数。较高的数字将占用更多的 VRAM,但处理速度更快。默认设置为 2。默认批量大小将占用约 3GB 的 VRAM。
  • -max_pages 是要处理的最大页数。省略此项以转换整个文档。
一旦执行命令,Marker 将启动转换并将 Markdown 保存到 output 文件夹中。
notion image
Marker 的一个特点是它提取与 PDF 相关的所有图像,并将其与主要的 .md(Markdown)文件一起存储。
notion image
它还会生成一个 JSON 格式的元数据文件
notion image
所有图像均以 .png 格式提取
太棒了!我们已经将 PDF 转换为 Markdown。但等等!!Markdown 中的输出看起来如何?

PDF 输入

这是我们提供给 Marker 作为输入文件的 PDF
notion image

Markdown 输出

# 欢迎使用 Smallpdf
准备好将文档管理提升到一个新的水平了吗?
![0_image_0.png](0_image_0.png)
## 数字文档——所有内容都在一个地方
通过全新的 Smallpdf 体验,您可以
![0_image_1.png](0_image_1.png) 自由上传、组织和分享数字文档。当您启用“存储”选项时,我们还会将所有处理过的文件存储在此处。
## 一键增强文档
当您右键单击文件时,我们将为您提供一系列选项以转换、压缩或修改它。
![0_image_2.png](0_image_2.png)
## 随时随地访问文件
您可以从 Smallpdf 存储的文件访问计算机、手机或平板电脑上的文件。我们还会将文件从 Smallpdf 移动应用程序同步到我们的在线门户
## 与他人协作
忘记繁琐的行政任务。有了 Smallpdf,您可以请求电子签名、发送大文件,甚至为您的整个组织启用 Smallpdf G Suite 应用程序。
很不错,对吧?

结论

在本教程中,我们使用 Marker 提取 PDF 的内容并将其转换为 Markdown 格式。
当然,PDF 只有一页,但 Marker 能够处理很多页,而且做得很好!
您可以自己尝试和玩一下!
上一篇
迄今为止最好的RAG技术?Anthropic的上下文检索与混合检索
下一篇
Anthropic 的计算机使用(computer use):5 分钟设置指南和演示
Loading...