图像中通常包含有价值的文本,但从像 JPG 这样的格式中提取它并不是一项简单的任务。在本文中,您将学习如何使用 Python 提取 JPG 文本。无论您是在自动化文档处理还是数字化印刷材料,这个解决方案都能为您提供快速而准确的结果。
什么是 JPG 文本?
JPG 文本是嵌入在 .jpg
或 .jpeg
图像文件中的任何可见文本。它可以呈现为:
- 扫描的文件
- 来自桌面或移动设备的屏幕截图
- 标志、标签或收据的照片
- 名片和手写表格
由于JPG中的文字以像素的形式存储,因此必须使用OCR(光学字符识别)将其转换为机器可读的文本。从JPG图像中提取文本出于多种原因是有用的。它有助于数字化纸质文档,自动化表单的数据输入,并使图像内容可搜索。您还可以将提取的文本用于代码进行进一步分析。凭借OCR技术,您节省了时间,并减少了在涉及基于图像的信息的任何任务中的手动工作需求。
Aspose.OCR:JPG 文本提取器
OCR (光学字符识别) 是从 JPG 图像中提取文本的唯一可靠方法。在这篇博客文章中,我们将使用 Aspose.OCR for Python 提取 JPG 文本。它是一个独立的库,专为开发人员设计,提供以下主要优点:
- 内置预处理(去扭曲,二值化,噪声过滤)
- 高速、高精度识别
- 支持多种输出格式:纯文本,JSON, PDF
- 可用于 Python、Java、.NET 和 C++
Aspose.OCR 自动检测字体、大小,甚至旋转的文本,使其非常适合简单和高级用例。它扫描 JPG 图像中的打印或手写文本,检测复杂布局中的文本区域,并从图像中提取多语言内容。
如何在Python中提取JPG文本
步骤 1:安装 Aspose.OCR
使用以下 pip 命令从 PyPI 安装库:
pip install aspose-ocr-python-net
你也可以从 releases 下载该包。
步骤 2:使用代码读取 JPG 文本
import aspose.ocr as ocr
# 实例化 Aspose.OCR API
api = ocr.AsposeOcr()
# 将图像添加到识别批次中
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")
# 识别图像
result = api.recognize(img)
# 打印识别结果
print(result[0].recognition_text)
示例图像

使用 Aspose.OCR 读取 JPG 文本 Python。
输出
Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio
使用 Python 将 JPG 文本转换为 Word
您可以通过遵循之前提到的步骤,将 JPG 文本直接转换为可编辑的 Microsoft Word 文档。但是,您只需使用 Python 将提取的文本保存到 .docx
文件中:
import aspose.ocr as ocr
# 实例化 Aspose.OCR API
api = ocr.AsposeOcr()
# 将图像添加到识别批次
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")
# 识别图像
result = api.recognize(img)
# 打印识别结果
print(result[0].recognition_text)
# 保存为 DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)

使用 Python 将 JPG 文本转换为 Word。
试用 Aspose.OCR 今天
访问我们的 Temporary License 页面,快速获取免费许可证并解锁对 Aspose.OCR Python 库的完整访问。
JPG 文本与 Aspose.OCR - 免费资源
除了阅读和提取JPG文本,探索以下资源。进一步了解该库的功能和特性。
结论
使用 Aspose.OCR for Python 提取 JPG 文本简单有效。它提供了一个干净的 API 用于识别和转换图像文件中的文本。您可以轻松地将其集成到现有系统中进行自动化、搜索和编辑。如果您有任何问题,请随时通过我们的 免费支持论坛 联系我们。