type
status
date
slug
summary
tags
category
icon
password
照片由 Firosnv. Photography 提供,在 Unsplash 上
您也可以在 Medium 之外 阅读这篇文章。
我使用了多种在线工具将 PDF 文档转换为 Markdown 格式,但没有一个能与 Marker 相比。
除了基本的 Markdown 转换,它还能格式化表格,将大多数方程式转换为 LaTeX,提取和存储图片。
以下是我如何使用 Marker 提取 PDF 内容并将其转换为有效的 Markdown。
环境设置
Windows 11
准备条件
根据 Marker 的 GitHub 仓库,需要安装:
- Python
- PyTorch

1. 安装 Python > 3.8
前往 Python 下载页面 并下载最新版本的 Python。

按照说明安装设置。
2. 安装 PyTorch
注意: 要正确安装 PyTorch,您的系统中必须安装 Python 3.8 或更高版本。
要安装 PyTorch,请访问其 官方网站 并您将看到如下图所示的内容:

您可以调整这些选项以查看哪个最适合您的系统。一旦获得命令,打开 PowerShell 或命令提示符并粘贴命令。
以下是我用于安装 PyTorch 的命令:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
PyTorch 将开始在您的系统上安装……

下载和安装需要一些时间,因为主文件的大小为 2.7 GB。
几分钟后,PyTorch 将被安装。

现在,准备工作已完成。接下来,您可以继续进行实际的 Marker 工作。
克隆 Marker
您可以使用以下命令将 Marker 项目克隆到本地系统:
克隆后,Marker GitHub 仓库将看起来像这样:

我们已经克隆了仓库,但由于尚未安装 Marker,因此仍然无法将 PDF 转换为 Markdown 格式。
安装 Marker 的步骤
1. 创建新环境
在新克隆的 Marker GitHub 仓库之外,创建一个新环境以将 PDF 转换为 Markdown 文件。
python -m venv myenv
这将创建一个包含多个文件的 myenv 文件夹。

2. 激活环境
myenv\Scripts\activate
这将激活新创建的环境。

3. 安装 “marker-pdf”
此命令将使用 pip 包管理器实际安装 marker-pdf。
pip install marker-pdf
现在我们准备将 PDF 文档转换为 Markdown 文件!
4. 将 PDF 格式转换为 Markdown
要将 PDF 转换为 Markdown,我们需要两个东西:
- PDF 的输入路径
- 输出路径
因为转换命令如下所示:
因此,在克隆的 marker GitHub 项目文件夹内,我将创建两个文件夹:
- pdfs: 我的输入文件夹
- output: 我的输出文件夹
我将使用一个示例 PDF 进行 Markdown 转换并将其粘贴到 pdfs 文件夹中。

现在,要转换 PDF “Get_Started_With_Smallpdf.pdf”,我将使用以下命令:
marker_single "D:/projects/marker-pdf/marker/pdfs/Get_Started_With_Smallpdf.pdf" "D:/projects/marker-pdf/marker/output" - batch_multiplier 2 - max_pages 12
根据 Marker GitHub repo ,其他两个参数的含义如下:
-batch_multiplier是如果您有额外的 VRAM,默认批量大小的倍数。较高的数字将占用更多的 VRAM,但处理速度更快。默认设置为 2。默认批量大小将占用约 3GB 的 VRAM。
-max_pages是要处理的最大页数。省略此项以转换整个文档。
一旦执行命令,Marker 将启动转换并将 Markdown 保存到 output 文件夹中。

Marker 的一个特点是它提取与 PDF 相关的所有图像,并将其与主要的 .md(Markdown)文件一起存储。

它还会生成一个 JSON 格式的元数据文件

所有图像均以 .png 格式提取
太棒了!我们已经将 PDF 转换为 Markdown。但等等!!Markdown 中的输出看起来如何?
PDF 输入
这是我们提供给 Marker 作为输入文件的 PDF

Markdown 输出
# 欢迎使用 Smallpdf
准备好将文档管理提升到一个新的水平了吗?

## 数字文档——所有内容都在一个地方
通过全新的 Smallpdf 体验,您可以
 自由上传、组织和分享数字文档。当您启用“存储”选项时,我们还会将所有处理过的文件存储在此处。
## 一键增强文档
当您右键单击文件时,我们将为您提供一系列选项以转换、压缩或修改它。

## 随时随地访问文件
您可以从 Smallpdf 存储的文件访问计算机、手机或平板电脑上的文件。我们还会将文件从 Smallpdf 移动应用程序同步到我们的在线门户
## 与他人协作
忘记繁琐的行政任务。有了 Smallpdf,您可以请求电子签名、发送大文件,甚至为您的整个组织启用 Smallpdf G Suite 应用程序。
很不错,对吧?
结论
在本教程中,我们使用 Marker 提取 PDF 的内容并将其转换为 Markdown 格式。
当然,PDF 只有一页,但 Marker 能够处理很多页,而且做得很好!
您可以自己尝试和玩一下!
Loading...