Изображения часто содержат ценную текстовую информацию, но извлечение ее из форматов, таких как JPG, не является простой задачей. В этом посте вы узнаете, как извлечь текст из JPG с помощью Python. Не имеет значения, автоматизируете ли вы обработку документов или оцифровываете печатные материалы, это решение обеспечивает вам быстрые и точные результаты.

Что такое текст JPG?

Текст в JPG - это любой видимый текст, встроенный в файл изображения .jpg или .jpeg. Он может быть в следующей форме:

  • Отсканированные документы
  • Скриншоты с настольного компьютера или мобильного устройства
  • Фотографии знаков, ярлыков или квитанций
  • Визитные карточки и рукописные формы

Поскольку текст в JPG хранится в виде пикселей, его необходимо преобразовать в текст, читаемый машиной, с помощью OCR (оптическое распознавание символов).Извлечение текста из JPG-изображений полезно по ряду причин. Это помогает цифровым документам, автоматизировать ввод данных из форм и делать содержимое изображений доступным для поиска. Вы также можете использовать извлеченный текст в коде для дальнейшего анализа. С помощью технологии OCR вы экономите время и снижаете необходимость в ручной работе в любой задаче, связанной с информацией на основе изображений.

Aspose.OCR: JPG Экстрактор текста

OCR (Оптическое распознавание символов) - это единственный надежный способ извлечения текста из JPG изображения. В этом блоге мы будем использовать Aspose.OCR for Python для извлечения текста из JPG. Это независимая библиотека, разработанная для разработчиков, предлагающая следующие ключевые преимущества:

  • Встроенная предобработка (дескью, бинаризация, фильтрация шума)
  • Высокоскоростное, высокоточное распознавание
  • Поддержка нескольких форматов вывода: простой текст, JSON, PDF
  • Доступно для Python, Java, .NET и C++

Aspose.OCR автоматически обнаруживает шрифты, размеры и даже повернутый текст, что делает его идеальным как для простых, так и для сложных случаев. Он сканирует JPG изображения на наличие напечатанного или рукописного текста, обнаруживает текстовые области в сложных макетах и извлекает многоязычное содержание из изображений.

Как извлечь текст из JPG в Python

Шаг 1: Установите Aspose.OCR

Установите библиотеку из PyPI с помощью следующей команды pip:

pip install aspose-ocr-python-net 

Вы также можете загрузить пакет с releases.

Шаг 2: Чтение текста JPG с кодом

import aspose.ocr as ocr

# Создайте экземпляр API Aspose.OCR
api = ocr.AsposeOcr()

# Добавить изображение в партию распознавания
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# Признайте изображение
result = api.recognize(img)

# Распечатать результат распознавания
print(result[0].recognition_text)

Пример изображения

Чтение текста JPG с помощью Aspose.OCR for Python.

Прочитайте текст из JPG с помощью Aspose.OCR for Python.

Выход

Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio

Преобразование текста JPG в Word с использованием Python

Вы можете непосредственно преобразовать текст JPG в редактируемый документ Microsoft Word, следуя ранее указанным шагам. Однако вам просто нужно сохранить извлеченный текст в файл .docx, используя Python:

import aspose.ocr as ocr

# Создайте экземпляр API Aspose.OCR
api = ocr.AsposeOcr()

# Добавить изображение в пакет распознавания
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# Признайте изображение
result = api.recognize(img)

# Распечатать результат распознавания
print(result[0].recognition_text)

# Сохранить как DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)
Преобразование текста из JPG в Word с использованием Python.

Конвертировать текст JPG в Word с помощью Python.

Попробуйте Aspose.OCR сегодня

Посетите нашу Temporary License страницу, чтобы быстро получить бесплатную лицензию и разблокировать полный доступ к библиотеке Aspose.OCR for Python.

JPG текст с Aspose.OCR – бесплатные ресурсы

В дополнение к чтению и извлечению текста из JPG, изучите приведенные ниже ресурсы. Узнайте больше о функциях и возможностях библиотеки.

Заключение

Извлечение текста из JPG просто и эффективно с помощью Aspose.OCR for Python. Он предоставляет чистый API для распознавания и конвертации текста из файлов изображений. Вы можете легко интегрировать его в ваши существующие системы для автоматизации, поиска и редактирования. Если у вас есть вопросы, не стесняйтесь обращаться к нам на нашем free support forum.

См. также