画像にはよく貴重なテキストが含まれていますが、JPGのようなフォーマットからそれを抽出するのは簡単な作業ではありません。この投稿では、Pythonを使用してJPGテキストを抽出する方法を学びます。ドキュメント処理の自動化や印刷された資料のデジタル化に関係なく、このソリューションは迅速かつ正確な結果を提供します。

What Is JPG Text?

JPG テキストは、.jpg または .jpeg 画像ファイルに埋め込まれた任意の可視テキストです。これは次の形式で存在する可能性があります:

  • スキャンした文書
  • デスクトップまたはモバイルからのスクリーンショット
  • 看板、ラベル、または領収書の写真
  • 名刺と手書きのフォーム

JPG内のテキストはピクセルとして保存されているため、OCR(光学文字認識)を使用して機械可読のテキストに変換する必要があります。JPG画像からテキストを抽出することは、さまざまな理由で有用です。紙文書をデジタル化し、フォームからのデータ入力を自動化し、画像コンテンツを検索可能にします。また、抽出したテキストをコードで使用してさらなる分析を行うこともできます。OCR技術を使用すると、時間を節約し、画像ベースの情報を含む任務での手作業の必要性を減らすことができます。

Aspose.OCR: JPG テキスト抽出ツール

OCR (光学文字認識) は、JPG 画像からテキストを抽出する唯一の信頼できる方法です。このブログ記事では、Aspose.OCR for Python を使用して JPG テキストを抽出します。これは、開発者向けに設計されたスタンドアロンライブラリで、以下の主な利点があります:

  • 組み込み前処理(デスキュー、二値化、ノイズフィルタリング)
  • 高速・高精度認識
  • 複数の出力形式のサポート:プレーンテキスト、JSON、 PDF
  • Python、Java、.NET、C++ 用意されています。

Aspose.OCRは、フォント、サイズ、さらには回転したテキストを自動的に検出し、シンプルな使用ケースと高度な使用ケースの両方に最適です。JPG画像をスキャンして入力されたまたは手書きのテキストを検出し、複雑なレイアウトのテキストエリアを特定し、画像から多言語のコンテンツを抽出します。

PythonでJPGテキストを抽出する方法

手順 1: Aspose.OCR をインストールする

以下のpipコマンドを使用して、PyPI からライブラリをインストールします:

pip install aspose-ocr-python-net 

パッケージは releases からもダウンロードできます。

ステップ 2: コードで JPG テキストを読み取る

import aspose.ocr as ocr

# Aspose.OCR APIをインスタンス化する
api = ocr.AsposeOcr()

# 認識バッチに画像を追加します。
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# 画像を認識する
result = api.recognize(img)

# 印刷認識結果
print(result[0].recognition_text)

サンプル画像

JPGテキストをPython用のAspose.OCRで読み取る。

Aspose.OCR for Pythonを使用してJPGテキストを読み取ります。

出力

Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio

JPG のテキストを Python を使用して Word に変換する

JPGのテキストを直接編集可能なMicrosoft Word文書に変換するには、前述の手順に従ってください。ただし、抽出したテキストをPythonを使用して.docxファイルに保存するだけで済みます。

import aspose.ocr as ocr

# Aspose.OCR APIをインスタンス化する
api = ocr.AsposeOcr()

# 認識バッチに画像を追加する
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# 画像を認識する
result = api.recognize(img)

# Print recognition result
print(result[0].recognition_text)

# Save as DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)
JPGのテキストをPythonを使用してWordに変換します。

JPGのテキストをPythonを使用してWordに変換します。

Aspose.OCR を今日試してみてください

私たちの Temporary License ページを訪れて、無料ライセンスをすぐに取得し、Aspose.OCR Pythonライブラリへのフルアクセスをアンロックしてください。

JPG テキストと Aspose.OCR – フリーリソース

JPG テキストの読み取りと抽出に加えて、以下のリソースを探索してください。ライブラリの機能と能力についてもっと知りましょう。

結論

JPG テキストの抽出は、Aspose.OCR for Python を使用すると簡単で効果的です。画像ファイルからのテキスト認識と変換のためのクリーンな API を提供しています。自動化、検索、編集のために、既存のシステムに簡単に統合できます。質問がある場合は、free support forum でお気軽にお問い合わせください。

見てください または 同様に