
Парсинг PDF означає витягування структурованих або неструктурованих даних з PDF-файлу. Це може бути складно через складну структуру PDF-документів. На відміну від простого тексту або структурованих форматів, таких як JSON та XML, PDF зберігає вміст таким чином, що не завжди слідує лінійному порядку. Витягування тексту, таблиць, зображень та метаданих вимагає надійної, точної та ефективної бібліотеки парсера PDF для Python. У цій статті ми навчитимемося як парсити PDF в Python, використовуючи Aspose.PDF for Python. Наприкінці цього пос
Ця стаття охоплює такі теми:
- Aspose.PDF: Найкраща бібліотека парсингу PDF для Python
- Парсинг PDF і вилучення тексту в Python
- Як аналізувати таблиці з PDF в Python
- Розбір метаданих PDF: Отримання інформації про PDF-файл у Python
- Парсинг зображень з PDF у Python
- Як розібрати анотації PDF у Python
Aspose.PDF: Найкраща бібліотека для парсингу PDF на Python
Aspose.PDF for Python є однією з найкращих бібліотек для парсингу PDF на Python, доступних сьогодні. Вона пропонує високу точність, підтримує структуровану екстракцію даних і навіть працює з відсканованими PDF завдяки підтримці OCR.
Aspose.PDF вирізняється серед бібліотек парсерів PDF для Python з кількох причин:
- Висока точність: Витягує текст і таблиці з точністю.
- Підтримка структурованих даних: Працює з таблицями, зображеннями та метаданими.
- Без зовнішніх залежностей: легка, автономна бібліотека.
- Багато форматів виходу: Перетворення PDF в текст, XLSX, DOCX, HTML та формати зображень.
- Безпека та надійність: обробляє складні структури PDF без пошкодження даних.
В порівнянні з альтернативами з відкритим кодом, Aspose.PDF пропонує більш надійне та багатофункціональне рішення, що робить його ідеальним для корпоративних застосунків та систем автоматизації документів.
Встановлення та налаштування
Встановлення Aspose.PDF for Python є простим. Завантажте його з releases або виконайте наступну команду pip:
pip install aspose-pdf
Щоб почати використовувати Aspose.PDF у вашому Python додатку, імпортуйте необхідний модуль:
import aspose.pdf as ap
Витягування тексту: Парсинг PDF в Python
Парсинг тексту з PDF є однією з ключових функцій бібліотек парсера PDF для Python. Ми можемо витягувати текст з усіх сторінок PDF-документа або з конкретної сторінки чи регіону PDF-документа. У наступних розділах ми навчимося, як:
- Текстове парсинг з усіх сторінок PDF у Python
- Аналіз тексту з конкретної сторінки у PDF
- Парсинг тексту з певного регіону в PDF
- Витягування тексту з багатостовпчикових PDF-файлів
- Покращений текстовий парсинг з ScaleFactor
- Парсинг тексту в PDF: Альтернативний підхід
Парсинг тексту з усіх сторінок PDF у Python
Aspose.PDF for Python надає ефективний спосіб витягнення тексту з PDF документів, використовуючи класи Document
та TextAbsorber
. Клас Document
використовується для завантаження PDF файлу, тоді як клас TextAbsorber
відповідає за витягнення текстового вмісту з усіх сторінок. Метод accept()
обробляє кожну сторінку та витягує текст, який потім можна зберегти або відобразити за потреби.
Кроки для витягування тексту з усіх сторінок PDF у Python
- Завантажте PDF-документ, використовуючи клас
Document
. - Створіть екземпляр класу
TextAbsorber
для обробки витягування тексту. - Викликайте метод
accept()
на колекціїpages
, дозволяючиTextAbsorber
обробляти всі сторінки. - Отримайте витягнутий текст, використовуючи властивість
text
екземпляраTextAbsorber
. - Print the extracted text.
Наступний приклад коду демонструє, як аналізувати текст з усіх сторінок PDF у Python.
# Цей приклад коду демонструє, як витягти текст з усіх сторінок PDF-документа в Python
import aspose.pdf as ap
# Відкрийте PDF документ
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Викличте метод accept, щоб обробити всі сторінки.
document.pages.accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Визначте шлях до файлу
file_path = "extracted-text.txt"
# Відкрийте файл у режимі запису та запишіть витягнений текст
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Парсинг тексту з конкретної сторінки в PDF
Ми також можемо витягувати текст з конкретної сторінки PDF-документа, трохи змінивши попередній підхід. Замість обробки всього документа, вам потрібно лише викликати метод accept()
для потрібної сторінки об’єкта Document
. Просто вкажіть номер сторінки, використовуючи її індекс, і Aspose.PDF витягне текст лише з цієї сторінки. Цей метод корисний при роботі з великими PDF, де вам потрібні дані лише з певного розділу, що підвищує ефективність і продуктивність.
Наступний приклад коду показує, як проаналізувати текст зі специфічної сторінки PDF у Python.
# Цей приклад коду демонструє, як витягти текст з конкретної сторінки PDF-документу в Python
import aspose.pdf as ap
# Відкрити PDF документ
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Викликати метод accept для обробки всіх сторінок
document.pages[1].accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Визначте шлях до файлу
file_path = "extracted-text.txt"
# Відкрийте файл у режимі запису та запишіть витягнутий текст
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Парсинг тексту з конкретного регіону в PDF
Іноді нам може знадобитися витягнути текст з певної частини сторінки PDF, а не отримувати вміст з усього документа. Щоб націлитися на конкретну ділянку, використовуй властивість Rectangle
у TextSearchOptions
. Ця властивість приймає об’єкт Rectangle
, який визначає координати бажаного регіону. Вказуючи цю межу, ми можемо витягувати текст лише з вибраної ділянки, ігноруючи решту вмісту сторінки.
Кроки для витягання тексту з конкретної області сторінки
- Завантажте PDF-документ, використовуючи клас
Document
. - Створіть екземпляр класу
TextAbsorber
для захоплення тексту з документа. - Визначте цільовий регіон, використовуючи
TextSearchOptions.Rectangle
, який вказує область для витягування тексту. - Застосуйте вилучення тексту до конкретної сторінки, викликавши метод
accept()
на вибраній сторінці. - Отримайте вилучений текст з властивості
Text
класуTextAbsorber
. - Process the output as needed.
Наведений нижче приклад коду демонструє, як парсити текст з конкретної області сторінки PDF у Python.
# Цей приклад коду демонструє, як витягти текст з певної області сторінки в документі PDF, використовуючи Python.
import aspose.pdf as ap
# Відкрити PDF документ
document = ap.Document("sample.pdf")
# Створіть об'єкт TextAbsorber для вилучення тексту
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)
# Прийміть абсорбер для першої сторінки
document.pages[1].accept(absorber)
# Отримати витягнений текст
extracted_text = absorber.text
# Визначте шлях до файлу
file_path = "extracted-text.txt"
# Відкрийте файл у режимі запису та запишіть витягнутий текст
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Цей підхід дозволяє вам точно вилучати текст з комірок таблиці, полів форм або будь-якої визначеної секції сторінки, що робить його ідеальним для автоматизації документів та аналізу даних.
Витягування тексту з багатокOLUMNних PDF-файлів
PDF документи часто містять суміш елементів, таких як текст, зображення, анотації, вкладення та графіки. Під час роботи з мультиязиковими PDF важко видобувати текст, зберігаючи оригінальне оформлення.
Aspose.PDF for Python спростить цей процес, дозволяючи розробникам маніпулювати властивостями тексту перед витягненням. Налаштувавши розміри шрифтів і потім витягнувши текст, ви можете досягти чистішого та структурованішого виходу. Наступні кроки демонструють, як застосувати цей метод для точного витягнення тексту з багатосторінкових PDF-документів.
Кроки для видобування тексту з багатостовпчастого PDF у Python
- Завантажте PDF документ за допомогою класу
Document
. - Створіть екземпляр
TextFragmentAbsorber
, щоб знайти та витягти окремі фрагменти тексту з документа. - Отримайте всі виявлені фрагменти тексту та зменште їхній розмір шрифту на 70%, щоб покращити точність витягання.
- Збережіть змінений документ у потоці пам’яті, щоб уникнути збереження проміжного файлу.
- Завантажте PDF з пам’яті потоку для обробки відкоригованого тексту.
- Використовуйте
TextAbsorber
, щоб отримати структурований текст з модифікованого документа. - Збережіть витягнутий текст у файл
.txt
для подальшого використання.
Наступний приклад коду показує, як витягти текст з PDF з декількома стовпцями, зберігаючи макет.
# Цей кодовий приклад показує, як витягти текст з багатостовпчастого PDF у Python
import io
import aspose.pdf as ap
# Відкрити PDF документ
document = ap.Document("multi-column-sample.pdf")
# Створіть об'єкт TextFragmentAbsorber для вилучення тексту
text_fragment_absorber = ap.text.TextFragmentAbsorber()
# Прийміть поглинач для першої сторінки
document.pages.accept(text_fragment_absorber)
# Отримати колекцію витягнутих фрагментів тексту
text_fragment_collection = text_fragment_absorber.text_fragments
# Зменшіть розмір шрифту не менше ніж на 70%, щоб покращити екстракцію тексту.
for text_fragment in text_fragment_collection:
text_fragment.text_state.font_size *= 0.7
# Збережіть модифікований документ у потоці в пам'яті
source_stream = io.BytesIO()
document.save(source_stream)
# Перезавантажте документ з потоку пам'яті
source_stream.seek(0)
dest_document = ap.Document(source_stream)
# Ініціалізуйте TextAbsorber для вилучення оновленого тексту
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text
# Збережіть витягнений текст у файл
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Цей метод забезпечує, що текст, витягнутий з багатоколонкових PDF-файлів, зберігає своє оригінальне оформлення якнайточніше.
Покращений парсинг тексту з ScaleFactor
Aspose.PDF for Python дозволяє вам парсити PDF-файли та витягувати текст з конкретної сторінки з розширеними опціями витягування тексту, такими як режим форматування тексту та коефіцієнт масштабування. Ці опції допомагають точно витягувати текст з комплексних PDF, включаючи багатосторінкові документи.
Використовуючи опцію ScaleFactor, ми можемо тонко налаштувати внутрішню текстову сітку для досягнення кращої точності. Фактор масштабу між 1 та 0.1 функціонує як зменшення шрифту, допомагаючи правильно вирівняти витягнутий текст. Значення між 0.1 та -0.1 розглядаються як нуль, що дозволяє автоматичне масштабування на основі середньої ширини літер найбільш використовуваного шрифту на сторінці. Якщо FactorScale не встановлено, застосовується значення за замовчуванням 1.0, що забезпечує відсутність коригувань масштабу. Для масштабного витягування тексту рекомендується авто-масштабування (ScaleFactor = 0
), але ручне встановлення ScaleFactor =
Кроки для витягування тексту зі специфічної сторінки з коефіцієнтом масштабування
- Завантажте PDF-документ, використовуючи клас
Document
. - Створіть екземпляр
TextAbsorber
для витягнення тексту. - Встановіть
TextExtractionOptions
в режим чистого форматування для точного вилучення. - Відрегулюйте
scalefactor
, щоб оптимізувати розпізнавання тексту у багато колонкових PDF-файлах. - Викличте
accept()
на колекціїpages
, щоб витягти текст. - Збережіть витягнутий вміст у текстовому файлі.
# Цей приклад коду показує, як витягти текст з певної області сторінки в документі PDF, використовуючи Python
import aspose.pdf as ap
# Відкрити PDF документ
document = ap.Document("sample.pdf")
# Ініціалізуйте TextAbsorber з параметрами вилучення тексту
text_absorber = ap.text.TextAbsorber()
# Встановити параметри витягування
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5 # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options
# Витягти текст зі зазначеної сторінки
document.pages.accept(text_absorber)
# Get extracted text
extracted_text = text_absorber.text
# Зберегти витягнутий текст у файл
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Парсинг тексту в PDF: альтернативний підхід
Aspose.PDF for Python також пропонує альтернативний спосіб витягнення тексту за допомогою класу TextDevice
. Будь ласка, читайте більше про extracting text from PDF using the TextDevice.
Як аналізувати таблиці з PDF у Python
Парсинг таблиць з PDF є важливим для аналізу даних, автоматизації та звітності. PDF часто містять структуровані дані у табличній формі, які можуть бути складними для отримання за допомогою стандартних методів витягування тексту. Щастя, Aspose.PDF for Python пропонує потужний спосіб витягувати таблиці з високою точністю, зберігаючи їх структуру та зміст.
Клас TableAbsorber
спеціально розроблений для виявлення та вилучення таблиць з PDF-сторінок. Він обробляє кожну сторінку, ідентифікує таблиці та отримує окремі рядки і клітини, зберігаючи їхню структуру. Нижче наведені кроки для вилучення таблиць з PDF-документа за допомогою Aspose.PDF for Python.
Кроки для парсингу таблиць з PDF у Python
- Завантажте PDF-файл, що містить таблиці, за допомогою класу
Document
. - Переберіть колекцію
pages
документа, щоб обробити кожну сторінку окремо. - Створіть екземпляр класу
TableAbsorber
для виявлення та вилучення таблиць. - Викличте метод
visit()
, щоб ідентифікувати таблиці на поточній сторінці. - Ітерація через список витягнених таблиць та отримання рядків і комірок.
- Доступ до
textfragments
кожної клітини та витягнення тексту за допомогою властивостіsegments
. - Збережіть витягнуті дані таблиці для подальшого аналізу або відобразіть їх у консолі.
# Цей приклад коду показує, як витягувати таблиці з PDF-документів у Python.
import aspose.pdf as ap
# Завантажити PDF файл
document = pdf.Document("sample.pdf")
# Обробити всі сторінки
for page in document.pages:
# Ініціалізуйте об'єкт TableAbsorber
absorber = ap.text.TableAbsorber()
# Визначте таблиці на поточній сторінці
absorber.visit(page)
# Переберіть витягнуті таблиці
for table in absorber.table_list:
# Ітерація через усі рядки в таблиці
for row in table.row_list:
# Пройти через всі стовпці в рядку
for cell in row.cell_list:
# Fetch the text fragments
text_fragment_collection = cell.text_fragments
# Ітерація через текстові фрагменти
for fragment in text_fragment_collection:
# Print the text
print(fragment.text)
Дотримуючися цих кроків, ви зможете ефективно витягувати таблиці з PDF-файлів, що полегшить обробку та аналіз структурованих даних.
Розбір метаданих PDF: Отримання інформації про PDF файл у Python
Коли ви працюєте з PDF-файлами, часто необхідно отримати метадані, такі як автор, дата створення, ключові слова та заголовок. Aspose.PDF for Python спрощує це, надаючи доступ до об’єкта DocumentInfo через властивість Info
класу Document
. Це дозволяє вам програмно витягувати основні властивості документа.
Кроки для парсингу метаданих PDF
- Використовуйте клас
Document
, щоб відкрити потрібний PDF-файл. - Отримайте об’єкт DocumentInfo, використовуючи властивість
info
. - Отримайте конкретні деталі, такі як автор, дата створення, назва, тема та ключові слова.
- Друкуйте метадані або зберігайте їх для подальшої обробки.
Наступний скрипт Python демонструє, як отримати та відобразити основні деталі з PDF файлу в Python:
# Цей приклад коду показує, як витягти інформацію про файл у Python
import aspose.pdf as ap
# Завантажте PDF документ
document = ap.Document("Sample.pdf")
# Отримати інформацію про документ
doc_info = document.info
# Відобразити метадані документа
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")
Парсинг зображень з файлу PDF за допомогою Python
Ми можемо аналізувати PDF-документ і ефективно витягувати зображення, вбудовані в документ. Ми можемо витягувати зображення високої якості з конкретних сторінок і зберігати їх окремо для подальшого використання.
Кожна PDF-сторінка зберігає свої зображення в колекції ресурсів, зокрема всередині колекції XImage
. Щоб витягнути зображення, отримайте доступ до бажаної сторінки, витягніть зображення з колекції Images
, використовуючи його індекс, і збережіть його.
Кроки для витягання зображень з PDF в Python
- Завантажте PDF файл, що містить зображення, за допомогою класу
Document
. - Отримайте конкретну сторінку, з якої ви хочете витягти зображення.
- Отримайте доступ до колекції
Images
вresources
сторінки та вкажіть індекс зображення. - Збережіть витягнуте зображення, використовуючи потік.
Наведений кодовий приклад показує, як аналізувати зображення з PDF в Python.
# Цей приклад коду показує, як витягувати зображення з PDF у Python
import aspose.pdf as ap
# Відкрити документ
document = ap.Document("Sample.pdf")
# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]
# Визначте шлях до вихідного зображення
output_image_path = "OutputImage.jpg"
# Збережіть екстраковане зображення
with open(output_image_path, "wb") as output_image:
output_image.write(x_image.to_stream().read())
Цей метод забезпечує легкий та ефективний спосіб витягування зображень з PDF-документів при збереженні їх якості. За допомогою Aspose.PDF for Python ви можете автоматизувати витягування зображень для різних застосувань, таких як обробка документів, архівування даних та аналіз контенту.
Як аналізувати анотації PDF у Python
Анотації у PDF-файлах покращують взаємодію з документом, додаючи виділення, малюнки та наклейки. Кожен тип анотації має певну мету, і Aspose.PDF for Python полегшує їх вилучення для аналізу або обробки.
- Парсинг текстових анотацій з PDF у Python
- Парсити виділений текст з PDF в Python
- Парсинг анотацій фігур PDF у Python
- Як аналізувати анотації посилань у PDF за допомогою Python
Парсинг текстових анотацій з PDF у Python
PDF документи часто містять текстові анотації, які служать коментарями або примітками, що прикріплені до конкретних місць на сторінці. Коли вони згорнуті, ці анотації з`являються як значки, а коли розгорнуті, вони відображають текст у спливаючому вікні. Кожна сторінка в PDF має власну колекцію Анотацій, яка містить усі анотації, специфічні для цієї сторінки. Використовуючи Aspose.PDF for Python, ви можете ефективно витягувати текстові анотації з PDF файлу.
Кроки для парсингу текстових анотацій з PDF
- Завантажте PDF-документ за допомогою класу
Document
. - Отримайте властивість
annotations
конкретної сторінки, щоб отримати всі анотації на цій сторінці. - Ітерація через анотації та фільтрація тих, що мають
AnnotationType.TEXT
. - Отримати відповідну інформацію, таку як позиція анотації (
rect
), для подальшої обробки або відображення.
import aspose.pdf as ap
# Завантажте PDF документ
document = ap.Document("annotations.pdf")
# Перегляньте всі анотації на першій сторінці
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
# Надрукуйте деталі анотації
print(f"Title: {annotation.full_name}")
print(f"Contents: {annotation.contents}")
print(f"Annotation Rectangle: {annotation.rect}")
Дотримуючись цих кроків, ви можете ефективно витягувати та обробляти текстові анотації з PDF-документів у Python.
Досліджуйте більше про роботу з PDF текстовими анотаціями в Python відвідавши офіційний посібник.
Парсити виділений текст з PDF в Python
У багатьох випадках вам може знадобитися витягнути лише виділений текст з PDF, а не весь вміст. Незалежно від того, чи ви аналізуєте важливі нотатки, підсумовуєте ключові моменти або автоматизуєте обробку документів, Aspose.PDF for Python спрощує отримання виділеного тексту ефективно.
Відзначте анотації, щоб підкреслити важливі частини тексту, які зазвичай використовуються для рецензій або конспектів. Ви можете витягти виділений текст та його властивості, такі як колір і позиція, використовуючи клас HighlightAnnotation
.
Ми можемо аналізувати виділені текстові анотації в документі PDF, дотримуючись кроків, згаданих раніше. Однак, нам просто потрібно згадати AnnotationType.HIGHLIGHT
на кроці 3.
Наступний приклад демонструє, як фільтрувати та витягувати виділений текст з PDF.
import aspose.pdf as ap
# Завантажте PDF-документ
document = ap.Document("annotations.pdf")
# Пройдіть через всі анотації на першій сторінці
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
# Надрукувати деталі анотації
print(f"Title: {annotation.full_name}")
print(f"Annotation Rectangle: {annotation.rect}")
Дізнайтеся більше про working with PDF Highlights Annotation in Python відвідавши офіційний посібник.
Парсинг анотацій фігур у PDF в Python
Анотації малюнків включають графічні елементи, такі як фігури, малюнки або штампи, які використовуються для підкреслення або пояснень. Витягнення цих анотацій передбачає ідентифікацію InkAnnotation
або StampAnnotation
об’єктів та отримання їхніх шляхів малювання або зображень.
Щоб розібрати анотації ліній у документі PDF, виконайте раніше викладені кроки. Єдине, що потрібно змінити, - це вказати AnnotationType.LINE
у кроці 3.
Наступний приклад демонструє, як аналізувати анотації рядків у PDF за допомогою Python.
import aspose.pdf as ap
# Завантажте PDF документ
document = ap.Document("annotations.pdf")
# Переберіть всі анотації на першій сторінці
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
# Друк деталей анотації
print(f"Annotation Rectangle: {annotation.rect}")
Read more about working with PDF Figures Annotations in Python here.
Як розбирати анотації посилань PDF у Python
Анотації посилань у PDF-документах дозволяють користувачам безперешкодно переходити в межах документа, відкривати зовнішні файли або відвідувати веб-сторінки безпосередньо з PDF. Ці гіпертекстові посилання підвищують інтерактивність і покращують досвід користувачів, забезпечуючи швидкий доступ до додаткової інформації.
Щоб витягнути анотації посилань з PDF, виконайте ті ж кроки, що й раніше, але на кроці 3 обов’язково вкажіть AnnotationType.LINK
. Це забезпечить отримання лише анотацій посилань.
Наступний приклад коду показує, як розбирати анотації посилань у PDF за допомогою Python.
import aspose.pdf as ap
# Завантажте PDF документ
document = ap.Document("annotations.pdf")
# Пройдіть через всі анотації на першій сторінці
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
# Друк деталей анотації
print(f"Annotation Rectangle: {annotation.rect}")
Використовуючи Aspose.PDF for Python, ви можете ефективно витягувати та маніпулювати анотаціями посилань для різних випадків використання, таких як індексування документів або покращення навігації.
Read the complete details on handling Link Annotations in PDFs here.
Висновок
Aspose.PDF for Python - це найкраща бібліотека парсера PDF для Python для розробників, які потребують надійного, ефективного та багатофункціонального рішення для парсингу PDF. Незалежно від того, чи потрібно вам парсити текст, таблиці, зображення, метадані або анотації, Aspose.PDF надає необхідні інструменти.
Спробуйте наведену демонстрацію коду та почніть парсити PDF-документи, спрощуючи свої завдання з парсингу PDF в Python!
В разі будь-яких запитань або необхідності в подальшій допомозі, будь ласка, не соромтеся звертатися на наш безкоштовний форум підтримки.