Изображения часто содержат ценную текстовую информацию, но извлечение ее из форматов, таких как JPG, не является простой задачей. В этом посте вы узнаете, как извлечь текст из JPG с помощью Python. Не имеет значения, автоматизируете ли вы обработку документов или оцифровываете печатные материалы, это решение обеспечивает вам быстрые и точные результаты.
Что такое текст JPG?
Текст в JPG - это любой видимый текст, встроенный в файл изображения .jpg
или .jpeg
. Он может быть в следующей форме:
- Отсканированные документы
- Скриншоты с настольного компьютера или мобильного устройства
- Фотографии знаков, ярлыков или квитанций
- Визитные карточки и рукописные формы
Поскольку текст в JPG хранится в виде пикселей, его необходимо преобразовать в текст, читаемый машиной, с помощью OCR (оптическое распознавание символов).Извлечение текста из JPG-изображений полезно по ряду причин. Это помогает цифровым документам, автоматизировать ввод данных из форм и делать содержимое изображений доступным для поиска. Вы также можете использовать извлеченный текст в коде для дальнейшего анализа. С помощью технологии OCR вы экономите время и снижаете необходимость в ручной работе в любой задаче, связанной с информацией на основе изображений.
Aspose.OCR: JPG Экстрактор текста
OCR (Оптическое распознавание символов) - это единственный надежный способ извлечения текста из JPG изображения. В этом блоге мы будем использовать Aspose.OCR for Python для извлечения текста из JPG. Это независимая библиотека, разработанная для разработчиков, предлагающая следующие ключевые преимущества:
- Встроенная предобработка (дескью, бинаризация, фильтрация шума)
- Высокоскоростное, высокоточное распознавание
- Поддержка нескольких форматов вывода: простой текст, JSON, PDF
- Доступно для Python, Java, .NET и C++
Aspose.OCR автоматически обнаруживает шрифты, размеры и даже повернутый текст, что делает его идеальным как для простых, так и для сложных случаев. Он сканирует JPG изображения на наличие напечатанного или рукописного текста, обнаруживает текстовые области в сложных макетах и извлекает многоязычное содержание из изображений.
Как извлечь текст из JPG в Python
Шаг 1: Установите Aspose.OCR
Установите библиотеку из PyPI с помощью следующей команды pip:
pip install aspose-ocr-python-net
Вы также можете загрузить пакет с releases.
Шаг 2: Чтение текста JPG с кодом
import aspose.ocr as ocr
# Создайте экземпляр API Aspose.OCR
api = ocr.AsposeOcr()
# Добавить изображение в партию распознавания
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")
# Признайте изображение
result = api.recognize(img)
# Распечатать результат распознавания
print(result[0].recognition_text)
Пример изображения

Прочитайте текст из JPG с помощью Aspose.OCR for Python.
Выход
Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio
Преобразование текста JPG в Word с использованием Python
Вы можете непосредственно преобразовать текст JPG в редактируемый документ Microsoft Word, следуя ранее указанным шагам. Однако вам просто нужно сохранить извлеченный текст в файл .docx
, используя Python:
import aspose.ocr as ocr
# Создайте экземпляр API Aspose.OCR
api = ocr.AsposeOcr()
# Добавить изображение в пакет распознавания
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")
# Признайте изображение
result = api.recognize(img)
# Распечатать результат распознавания
print(result[0].recognition_text)
# Сохранить как DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)

Конвертировать текст JPG в Word с помощью Python.
Попробуйте Aspose.OCR сегодня
Посетите нашу Temporary License страницу, чтобы быстро получить бесплатную лицензию и разблокировать полный доступ к библиотеке Aspose.OCR for Python.
JPG текст с Aspose.OCR – бесплатные ресурсы
В дополнение к чтению и извлечению текста из JPG, изучите приведенные ниже ресурсы. Узнайте больше о функциях и возможностях библиотеки.
- Руководство для разработчиков
- Бесплатные онлайн приложения
- Руководства и статьи по способам выполнения задач
- API справочник
Заключение
Извлечение текста из JPG просто и эффективно с помощью Aspose.OCR for Python. Он предоставляет чистый API для распознавания и конвертации текста из файлов изображений. Вы можете легко интегрировать его в ваши существующие системы для автоматизации, поиска и редактирования. Если у вас есть вопросы, не стесняйтесь обращаться к нам на нашем free support forum.