Bilder enthalten oft wertvollen Text, aber das Extrahieren von Text aus Formaten wie JPG ist keine einfache Aufgabe. In diesem Beitrag erfahren Sie, wie Sie JPG-Text mit Python extrahieren können. Egal, ob Sie die Dokumentenverarbeitung automatisieren oder gedruckte Materialien digitalisieren, diese Lösung bietet Ihnen schnelle und genaue Ergebnisse.

Was ist JPG-Text?

JPG-Text ist jeder sichtbare Text, der in einer .jpg oder .jpeg bilddatei eingebettet ist. Er kann in folgender Form vorliegen:

  • Scanned documents
  • Screenshots vom Desktop oder Mobilgerät
  • Fotos von Schildern, Etiketten oder Quittungen
  • Visitenkarten und handschriftliche Formulare

Da der Text in einem JPG als Pixel gespeichert ist, muss er mit OCR (Optical Character Recognition) in maschinenlesbaren Text umgewandelt werden. Das Extrahieren von Text aus JPG bildern ist aus verschiedenen Gründen nützlich. Es hilft, Papierdokumente zu digitalisieren, die Dateneingabe aus Formularen zu automatisieren und den Bildinhalt durchsuchbar zu machen. Sie können den extrahierten Text auch in einem Code für weitere Analysen verwenden. Mit der OCR-Technologie sparen Sie Zeit und reduzieren den Bedarf an manueller Arbeit in jeder Aufgabe, die bildbasierte Informationen enthält.

Aspose.OCR: JPG Text Extractor

OCR (Optische Zeichenerkennung) ist der einzige zuverlässige Weg, um Text aus einem JPG bild zu extrahieren. In diesem Blogbeitrag werden wir Aspose.OCR for Python verwenden, um JPG-Text zu extrahieren. Es ist eine eigenständige Bibliothek, die für Entwickler gestaltet wurde und folgende wichtige Vorteile bietet:

  • Integrierte Vorverarbeitung (Entzerrung, Binarisierung, Rauschfilterung)
  • Hochgeschwindigkeits-, hochgenauigkeits-erkennung
  • Unterstützung für mehrere Ausgabeformate: Klartext, JSON, PDF
  • Verfügbar für Python, Java, .NET und C++

Aspose.OCR erkennt automatisch Schriftarten, Größen und sogar gedrehte Texte, wodurch es sich ideal für einfache und komplexe Anwendungsfälle eignet. Es scannt JPG bilder nach getipptem oder handgeschriebenem Text, erkennt Textbereiche in komplexen Layouts und extrahiert mehrsprachige Inhalte aus Bildern.

Wie man JPG-Text in Python extrahiert

Schritt 1: Aspose.OCR installieren

Installiere die Bibliothek von PyPI mit dem folgenden pip-Befehl:

pip install aspose-ocr-python-net 

Sie können das Paket auch von den releases herunterladen.

Schritt 2: JPG-Text mit Code lesen

import aspose.ocr as ocr

# Instanziere die Aspose.OCR API
api = ocr.AsposeOcr()

# Fügen Sie ein Bild zur Erkennungscharge hinzu
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# Recognize the image
result = api.recognize(img)

# Print recognition result
print(result[0].recognition_text)

Beispielbild

JPG-Text mit Aspose.OCR for Python lesen.

Lese JPG-Text mit Aspose.OCR for Python.

Output

Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio

Convertieren Sie JPG-Text in Word mit Python

Sie können JPG-Text direkt in ein bearbeitbares Microsoft Word Dokument umwandeln, indem Sie die zuvor genannten Schritte befolgen. Sie müssen jedoch den extrahierten Text nur in einer .docx-Datei mit Python speichern:

import aspose.ocr as ocr

# Instanziere die Aspose.OCR API
api = ocr.AsposeOcr()

# Fügen Sie dem Erkennungsstapel ein Bild hinzu
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# Recognize the image
result = api.recognize(img)

# Print recognition result
print(result[0].recognition_text)

# Save as DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)
Convert JPG-Text in Word mit Python.

Convert JPG Text to Word Using Python.

Versuchen Sie Aspose.OCR heute.

Besuchen Sie unsere Temporary License Seite, um schnell eine kostenlose Lizenz zu erhalten und vollen Zugriff auf die Aspose.OCR Python Bibliothek freizuschalten.

JPG-Text mit Aspose.OCR – Kostenlose Ressourcen

Zusätzlich zum Lesen und Extrahieren von JPG-Text, erkunden Sie die untenstehenden Ressourcen. Entdecken Sie mehr über die Funktionen und Möglichkeiten der Bibliothek.

Schlussfolgerung

Das Extrahieren von JPG-Text ist einfach und effektiv mit Aspose.OCR for Python. Es bietet eine saubere API zur Erkennung und Konvertierung von Text aus Bilddateien. Sie können es problemlos in Ihre bestehenden Systeme zur Automatisierung, Suche und Bearbeitung integrieren. Wenn Sie Fragen haben, können Sie uns gerne in unserem freien Support-Forum kontaktieren.

Siehe auch