이미지는 종종 귀중한 텍스트를 포함하고 있지만, JPG와 같은 형식에서 이를 추출하는 것은 간단한 작업이 아닙니다. 이 포스트에서는 Python을 사용하여 JPG 텍스트를 추출하는 방법을 배울 것입니다. 문서 처리 자동화 또는 인쇄된 자료의 디지털화에 상관없이, 이 솔루션은 빠르고 정확한 결과를 제공합니다.

JPG 텍스트란 무엇인가요?

JPG 텍스트는 .jpg 또는 .jpeg 이미지 파일에 삽입된 모든 가시적인 텍스트입니다. 다음 형태일 수 있습니다:

  • 스캔한 문서
  • 데스크탑 또는 모바일의 스크린샷
  • 표지판, 라벨 또는 영수증의 사진
  • 명함 및 서면 양식

JPG에 있는 텍스트는 픽셀로 저장되기 때문에 OCR(광학 문자 인식)을 사용하여 기계가 읽을 수 있는 텍스트로 변환해야 합니다. JPG 이미지에서 텍스트를 추출하는 것은 여러 이유로 유용합니다. 이는 종이 문서를 디지털화하고, 양식에서 데이터 입력을 자동화하며, 이미지 콘텐츠를 검색 가능하게 만드는 데 도움이 됩니다. 또한 추출된 텍스트를 코드에서 사용하여 추가 분석을 수행할 수 있습니다. OCR 기술을 사용하면 시간을 절약하고 이미지 기반 정보와 관련된 작업에서 수동 작업의 필요성을 줄일 수 있습니다.

Aspose.OCR: JPG 텍스트 추출기

OCR (광학 문자 인식)은 JPG 이미지에서 텍스트를 추출하는 유일하게 신뢰할 수 있는 방법입니다. 이 블로그 포스트에서는 Aspose.OCR for Python을 사용하여 JPG 텍스트를 추출할 것입니다. 이는 개발자를 위해 설계된 독립형 라이브러리로, 다음과 같은 주요 이점을 제공합니다:

  • 내장 전처리(기울기 조정, 이진화, 노이즈 필터링)
  • 고속 및 고정밀 인식
  • 다양한 출력 형식 지원: 일반 텍스트, JSON, PDF
  • Python, Java, .NET 및 C++ 사용 가능

Aspose.OCR은 글꼴, 크기 및 심지어 회전된 텍스트를 자동으로 감지하여 간단한 사용 사례와 고급 사용 사례 모두에 적합합니다. JPG 이미지를 스캔하여 타이핑된 텍스트 또는 손으로 작성된 텍스트를 감지하고, 복잡한 레이아웃에서 텍스트 영역을 감지하며, 이미지에서 다국어 콘텐츠를 추출합니다.

Python에서 JPG 텍스트 추출하는 방법

1단계: Aspose.OCR 설치

다음 pip 명령어를 사용하여 PyPI에서 라이브러리를 설치하십시오:

pip install aspose-ocr-python-net 

패키지는 releases에서 다운로드할 수도 있습니다.

2단계: 코드로 JPG 텍스트 읽기

import aspose.ocr as ocr

# Aspose.OCR API 인스턴스화하기
api = ocr.AsposeOcr()

# 인식 배치에 이미지를 추가하십시오.
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# 이미지를 인식하다
result = api.recognize(img)

# 인식 결과 출력
print(result[0].recognition_text)

샘플 이미지

JPG 텍스트를 Aspose.OCR for Python로 읽기.

Read JPG Text with Aspose.OCR for Python.

Output

Lorem ipsum dolor sit amet,consectetuer adipiscing elit,
sed diam nonummy nibh euismod tincidunt ut laoreet
dolore magna aliguam erat volutpat.Ut wisi enim ad
minim veniam,quis nostrud exerci tation ullamcorper sus-
cipit lobortis nisl ut aliquip ex ea commodo consequat.
Duis autem vel eum iriure dolor in hendrerit in vulputate
velit esse molestie consequat,vel illum dolore eu feugiat
nulla facilisis at vero eros et accumsan et iusto odio

JPG 텍스트를 파이썬을 사용하여 워드로 변환하기

JPG 텍스트를 직접 편집 가능한 Microsoft Word 문서로 변환하려면 이전에 언급된 단계를 따르세요. 그러나 추출한 텍스트를 .docx 파일로 저장하면 됩니다:

import aspose.ocr as ocr

# Aspose.OCR API를 인스턴스화합니다.
api = ocr.AsposeOcr()

# 인식을 위한 배치에 이미지를 추가하십시오.
img = ocr.OcrInput(ocr.InputType.SINGLE_IMAGE)
img.add("sample-with-text.jpg")

# 이미지를 인식하십시오.
result = api.recognize(img)

# 인식 결과 인쇄
print(result[0].recognition_text)

# Save as DOCX
result[0].save("ImagetoDOCX.docx", ocr.SaveFormat.DOCX, ocr.PdfOptimizationMode.NONE)
JPG 텍스트를 파이썬을 사용하여 워드로 변환합니다.

JPG 텍스트를 파이썬을 사용하여 워드로 변환하기.

Aspose.OCR를 오늘 사용해 보세요.

우리의 Temporary License 페이지를 방문하여 무료 라이센스를 신속하게 얻고 Aspose.OCR Python 라이브러리에 대한 전체 접근을 잠금 해제하세요.

JPG 텍스트와 Aspose.OCR - 무료 리소스

JPG 텍스트를 읽고 추출하는 것 외에도 아래의 리소스를 탐색하십시오. 라이브러리의 기능과 역량에 대해 더 알아보십시오.

결론

JPG 텍스트를 추출하는 것은 Aspose.OCR for Python을 사용하면 간단하고 효과적입니다. 이미지 파일에서 텍스트를 인식하고 변환하는 깨끗한 API를 제공합니다. 자동화, 검색 및 편집을 위해 기존 시스템에 쉽게 통합할 수 있습니다. 질문이 있으시면 무료 지원 포럼에서 저희에게 문의해 주세요.

See Also