圖片通常包含有價值的文本,但從像 JPG 這樣的格式中提取它並不是一個簡單的任務。在這篇文章中,您將學習如何使用 Python 提取 JPG 文本。無論您是在自動化文件處理還是數字化印刷材料,這個解決方案都能為您提供快速而準確的結果。

JPG 是什麼文本?

JPG 文字是任何嵌入在 .jpg.jpeg 圖像文件中的可見文字。它可以呈現為:

  • 掃描文件
  • 來自桌面或移動設備的截圖
  • 標誌、標籤或收據的照片
  • 名片和手寫表格

由於 JPG 中的文本以像素形式存儲,因此必須使用 OCR (光學字符識別) 將其轉換為機器可讀的文本。從 JPG 圖像中提取文本有許多用途。它有助於將紙質文件數位化、自動化從表單中輸入數據,並使圖像內容可搜尋。您還可以在進一步分析中使用提取的文本。使用 OCR 技術,您可以節省時間並減少在任何涉及基於圖像的信息的任務中的手動工作需要。

Aspose.OCR: JPG 文字擷取器

OCR (光學字符識別) 是從 JPG 圖像中提取文本的唯一可靠方法。在本博客文章中,我們將使用 Aspose.OCR for Python 來提取 JPG 文本。這是一個獨立的庫,專為開發者設計,提供以下主要好處:

  • 內建前處理(去傾斜、二值化、噪音過濾)
  • 高速度、高精度識別
  • 支援多種輸出格式:純文字、JSON、PDF
  • 適用於 Python、Java、.NET 和 C++

Aspose.OCR 自動檢測字體、大小,甚至旋轉的文字,使其非常適合簡單與高級的使用案例。它掃描 JPG 圖像以辨識打字或手寫文字,檢測複雜佈局中的文字區域,並從圖像中提取多語言內容。

如何在 Python 中提取 JPG 文本

步驟 1:安裝 Aspose.OCR

PyPI 使用以下 pip 命令安裝庫:

pip install aspose-ocr-python-net 

您還可以從 releases 下載該軟件包。

步驟 2:使用代碼讀取 JPG 文字

import aspose.ocr as ocr

# 實例化 Aspose.OCR API
api = ocr.AsposeOcr()

# 將圖片加入識別批次
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# 辨識圖像
result = api.recognize(img)

# 列印識別結果
print(result[0].recognition_text)

樣本圖片

使用 Aspose.OCR for Python 讀取 JPG 文本。

使用 Aspose.OCR for Python 讀取 JPG 文本。

Output

Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio

使用 Python 將 JPG 文字轉換為 Word

您可以直接將 JPG 文字轉換為可編輯的 Microsoft Word 文檔,方法是按照之前提到的步驟進行。但是,您只需使用 Python 將提取的文字保存為 .docx 文件:

import aspose.ocr as ocr

# 實例化 Aspose.OCR API
api = ocr.AsposeOcr()

# 將圖像添加到識別批次
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# 識別圖像
result = api.recognize(img)

# 列印識別結果
print(result[0].recognition_text)

# Save as DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)
將 JPG 文字轉換為 Word 使用 Python。

使用 Python 將 JPG 文本轉換為 Word。

嘗試 Aspose.OCR 今日

造訪我們的 Temporary License 頁面以快速獲取免費許可證並解鎖對 Aspose.OCR Python 庫的完全訪問權。

JPG 文本與 Aspose.OCR - 免費資源

除了閱讀和提取 JPG 文字,探索以下資源。了解更多有關圖書館的功能和特性。

結論

從 JPG 中提取文本使用 Aspose.OCR for Python 非常簡單且有效。它提供了一個乾淨的 API 用於識別和轉換圖像檔案中的文本。您可以輕鬆地將其集成到您的現有系統中,以實現自動化、搜索和編輯。如果您有任何問題,請隨時在我們的 free support forum 聯繫我們。

See Also