Obrazy często zawierają cenny tekst, ale wydobycie go z formatów takich jak JPG nie jest prostym zadaniem. W tym artykule dowiesz się, jak wydobywać tekst z JPG za pomocą Python. Niezależnie od tego, czy automatyzujesz przetwarzanie dokumentów, czy cyfryzujesz materiały drukowane, to rozwiązanie daje szybkie i dokładne wyniki.

Co to jest tekst JPG?

Tekst JPG to wszelki widoczny tekst osadzony w pliku obrazu .jpg lub .jpeg. Może mieć formę:

  • Skanowane dokumenty
  • Zrzuty ekranu z komputera stacjonarnego lub urządzenia mobilnego
  • Zdjęcia znaków, etykiet lub paragonów
  • Wizytówki i ręcznie pisane formularze

Ponieważ tekst w formacie JPG jest przechowywany jako piksele, musi zostać przekształcony na tekst zrozumiały dla maszyny za pomocą OCR (Optical Character Recognition - Rozpoznawanie Znaków Optycznych).Ekstrakcja tekstu z obrazów JPG jest przydatna z różnych powodów. Pomaga zdigitalizować dokumenty papierowe, zautomatyzować wprowadzanie danych z formularzy i sprawić, że zawartość obrazów stanie się przeszukiwalna. Możesz również użyć wyodrębnionego tekstu w kodzie do dalszej analizy. Dzięki technologii OCR oszczędzasz czas i redukujesz potrzebę pracy ręcznej w każdej czynności związanej z informacjami opartymi na obrazach.

Aspose.OCR: Ekstraktor tekstu JPG

OCR (Optical Character Recognition) jest jedynym niezawodnym sposobem na wydobycie tekstu z obrazu JPG. W tym wpisie na blogu użyjemy Aspose.OCR for Python do wydobycia tekstu z JPG. To samodzielna biblioteka zaprojektowana dla programistów, oferująca następujące kluczowe korzyści:

  • Wbudowane wstępne przetwarzanie (odchylanie, binarizacja, filtracja szumów)
  • Wysokiej prędkości, wysokiej dokładności rozpoznawanie
  • Wsparcie dla wielu formatów wyjściowych: zwykły tekst, JSON, PDF
  • Dostępne dla Python, Java, .NET i C++

Aspose.OCR automatycznie wykrywa czcionki, rozmiary i nawet tekst obrócony, co czyni go idealnym do zarówno prostych, jak i zaawansowanych zastosowań. Skanuje obrazy JPG w poszukiwaniu tekstu drukowanego lub odręcznego, wykrywa obszary tekstowe w złożonych układach i wyodrębnia wielojęzyczne treści z obrazów.

Jak wyodrębnić tekst JPG w Python

Krok 1: Zainstaluj Aspose.OCR

Zainstaluj bibliotekę z PyPI używając następującego polecenia pip:

pip install aspose-ocr-python-net 

Możesz także pobrać pakiet z releases.

Krok 2: Odczytaj tekst JPG za pomocą kodu

import aspose.ocr as ocr

# Zainicjuj API Aspose.OCR
api = ocr.AsposeOcr()

# Dodaj obraz do partii rozpoznawania
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# Rozpoznaj obrazek
result = api.recognize(img)

# Drukuj wynik rozpoznawania
print(result[0].recognition_text)

Przykładowe zdjęcie

Przeczytaj tekst JPG za pomocą Aspose.OCR for Python.

Czytaj tekst JPG za pomocą Aspose.OCR for Python.

Output

Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio

Konwertuj tekst JPG na Word za pomocą Python

Możesz bezpośrednio przekonwertować tekst JPG na edytowalny dokument Microsoft Word, wykonując kroki opisane wcześniej. Musisz jednak zapisać wyodrębniony tekst do pliku .docx przy użyciu Python:

import aspose.ocr as ocr

# Zainicjuj API Aspose.OCR
api = ocr.AsposeOcr()

# Dodaj obraz do partii rozpoznawania
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# Rozpoznaj obrazek
result = api.recognize(img)

# Wydrukuj wynik rozpoznawania
print(result[0].recognition_text)

# Save as DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)
Convert JPG Text to Word using Python.

Convert JPG Text to Word Using Python.

Wypróbuj Aspose.OCR już dziś

Odwiedź naszą Temporary License stronę, aby szybko uzyskać bezpłatną licencję i odblokować pełny dostęp do biblioteki Aspose.OCR Python.

JPG Text z Aspose.OCR – Darmowe zasoby

Oprócz odczytywania i wyodrębniania tekstu z plików JPG, zapoznaj się z poniższymi zasobami. Odkryj więcej na temat funkcji i możliwości biblioteki.

Wniosek

Wydobywanie tekstu z JPG jest proste i skuteczne z Aspose.OCR for Python. Oferuje czyste API do rozpoznawania i konwertowania tekstu z plików graficznych. Możesz łatwo zintegrować to w istniejących systemach do automatyzacji, wyszukiwania i edytowania. Jeśli masz jakiekolwiek pytania, nie wahaj się skontaktować z nami na naszym free support forum.

Zobacz także