太方便了，告别「复制+粘贴」，Python 轻松实现 PDF 转文本模式~

Alex • 2022-02-18 01:23 • 好物分享

前言：
对很多人来说，将 PDF 转换为可编辑的文本是个刚需，却苦于没有简单方法。在本文介绍的项目中，尝试使用 OCR（光学字符识别）自动转录 pdf 幻灯片，转录效果还不错。
传统的讲座通常伴随着一组 pdf 幻灯片。一般来说，想要对此类讲座做笔记，需要从 pdf 复制、粘贴很多内容。
接下来我们通过使用 OCR（光学字符识别）自动转录 pdf 幻灯片，以便直接在 markdown 文件中操作它们的内容，从而避免手动复制和粘贴 pdf 内容，实现这一过程的自动化。

为什么不使用传统的 pdf 转文本工具呢？
Lucas Soares 发现传统工具往往会带来更多的问题，需要花时间解决。他曾经尝试使用传统的 Python 软件包，但是遇到了很多问题（例如必须使用复杂的正则表达式模式解析最终输出等），因此决定尝试使用目标检测和 OCR 来解决。
正文：
基本过程可分为以下步骤：
将 pdf 转换为图片；检测和识别图像中的文本；展示示例输出。
基于深度学习的 OCR 将 pdf 转录为文本
将 pdf 转换为图像

太方便了，告别「复制+粘贴」，Python 轻松实现 PDF 转文本模式~最先出现在Python成神之路。

版权声明：
作者：Alex
链接：https://www.techfm.club/p/22644.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

039 渗透测试导论

< <上一篇

26.RAID高级文件系统

下一篇>>

搜索内容

太方便了，告别「复制+粘贴」，Python 轻松实现 PDF 转文本模式~

取消回复

共有 0 条评论

Ads