איך לפרש PDF בפייתון: מדריך שלב אחר שלב חזק

ניתוח PDF משמעותו חילוץ נתונים מסודרים או לא מסודרים מקובץ PDF. זה יכול להיות אתגרי בגלל מבנה ה-PDF המורכב. בשונה מטקסט פשוט או formats מסודרים כמו JSON ו-XML, קובצי PDF שומרים תוכן בצורה שאינה תמיד עוקבת אחר סדר ליניארי. חילוץ טקסט, טבלאות, תמונות ומטא-נתונים דורש ספריית ניתוח PDF ב-Python שהיא מהימנה, מדויקת ויעילה. במאמר זה, נלמד כיצד לנתח PDF ב-Python באמצעות Aspose.PDF for Python. עד סוף מדריך זה, תוכלו לחלץ טקסט, טבלאות ותמונות מסמכי PDF ב-Python.

מאמר זה עוסק בנושאים הבאים:

Aspose.PDF: הספריה הטובה ביותר לניתוח PDF ב-Python

Aspose.PDF for Python היא אחת מהספריות הטובות ביותר למפרקי PDF בפייתון הזמינות היום. היא מציעה דיוק גבוה, תומכת בהפקת נתונים מובנה, ואפילו פועלת עם PDF שמקורן בסריקות באמצעות תמיכת OCR.

Aspose.PDF בולט בין ספריות ניתוח PDF של פייתון ממספר סיבות:

  • דיוק גבוה: מכריע טקסט וטבלאות בדיוק.
  • תמיכה בנתונים מובנים: עובד עם טבלאות, תמונות, ומטא דאטה.
  • אין תלות חיצונית: ספריה קלילה ועצמאית.
  • פורמטים מרובי פלטים: המרת PDF לטקסט, XLSX, DOCX, HTML, ופורמטים של תמונה.
  • אבטחה ואמינות: מטפל במבנים מורכבים של PDF מבלי לפגוע בנתונים.

ב comparison to open-source alternatives, Aspose.PDF מציע פתרון יותר חזק ו feature-rich solution, מה שהופך אותו לאידיאלי עבור יישומי ארגון ומערכות האוטומציה של מסמכים.

התקנה והגדרה

התקנת Aspose.PDF עבור Python היא פשוטה. הורד אותו מ- releases או הרץ את הפקודה הבאה pip :

pip install aspose-pdf

כדי להתחיל להשתמש ב-Aspose.PDF באפליקציה שלך ב-Python, אימן את המודול הנדרש:

import aspose.pdf as ap

חלצת טקסט: ניתוח PDF בפייתון

ניתוח טקסט מתוך PDF הוא אחד מהמאפיינים המרכזיים של ספריות ניתוח PDF בפייתון. אנו יכולים לחלץ טקסט מכל העמודים של מסמך PDF או מעמוד ספציפי או מאזור של מסמך PDF. בחלקים הקרובים, נלמד כיצד:

ניתוח טקסט מכל הדפים של PDF בפייתון

Aspose.PDF עבור Python מספקת דרך יעילה לחלץ טקסט מתוך מסמכי PDF באמצעות המחלקות Document ו- TextAbsorber. המחלקה Document משמשת לטעינת קובץ ה-PDF, בעוד שהמחלקה TextAbsorber אחראית על חילוץ תוכן הטקסט מכל העמודים. המתודה accept() מעבדת כל עמוד ומחלקת את הטקסט, שניתן לאחסן או להציג לפי הצורך.

צעדים להוצאת טקסט מכל העמודים של PDF ב-Python

  1. טען את מסמך ה-PDF באמצעות מחלקת ה- Document.
  2. צור מופע של מחלקת TextAbsorber כדי לטפל בהפקת טקסט.
  3. קרא למתוד accept() על האוסף pages, תוך מתן אפשרות לTextAbsorber לעבד את כל העמודים.
  4. השג את הטקסט המוצא באמצעות הפר property text של המופע TextAbsorber.
  5. Print the extracted text.

הדוגמה הבאה של קוד מראה איך לנתח טקסט מכל העמודים של קובץ PDF ב-Python.

# דוגמת קוד זו מציגה כיצד לחלץ טקסט מכל העמודים של מסמך PDF ב-Python
import aspose.pdf as ap

# פתח מסמך PDF
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# קרא לשיטת accept כדי לעבד את כל העמודים
document.pages.accept(text_absorber)

# שחזר את הטקסט המופק
extracted_text = text_absorber.text

# גדר את מסלול הקובץ
file_path = "extracted-text.txt"

# פתח את הקובץ במצב כתיבה והשחל את הטקסט שהופק
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

פרוס טקסט מדף ספציפי ב-PDF

אנחנו יכולים גם לחלץ טקסט מדף ספציפי של מסמך PDF על ידי שינוי קל לגישה הקודמת. במקום לעבד את כל המסמך, אתה רק צריך לקרוא למתודה accept() על הדף הרצוי של אובייקט ה- Document. פשוט ציין את מספר הדף באמצעות האינדקס שלו ואספוז.פ"ד יחלץ טקסט רק מהדף הזה. מתודה זו שימושית כאשר אתה מתמודד עם PDF גדולים שבהם אתה צריך רק נתונים מחלק מסוים, מה שמשפר את היעילות והביצועים.

הדוגמה הקודמת מראה איך לנתח טקסט מעמוד ספציפי של PDF בפייתון.

# דוגמה לקוד זו מראה כיצד לחלץ טקסט מעמוד ספציפי של מסמך PDF ב-Python
import aspose.pdf as ap

# פתח מסמך PDF
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# קרא למתודת accept כדי לעבד את כל הדפים
document.pages[1].accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# הגדר את נתיב הקובץ
file_path = "extracted-text.txt"

# פתח את הקובץ במצב כתיבה וכתוב את הטקסט המופק
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

פרס טקסט מאזור ספציפי ב-PDF

לפעמים, אנו עשויים להזדקק לשאוב טקסט מחלק מסוים של עמוד PDF במקום לשחזר תוכן מהמסמך כולו. כדי למקד באזור ספציפי, השתמש במאפיין Rectangle של TextSearchOptions. מאפיין זה מקבל אובייקט Rectangle, שמגדיר את הקואורדינטות של האזור המיוחל. על ידי ציון גבול זה, נוכל לשאוב טקסט רק מהאזור הנבחר, תוך התעלמות משאר תוכן העמוד.

צעדים להפיק טקסט מאזור דף ספציפי

  1. טען את מסמך ה-PDF באמצעות מחלקת ה- Document.
  2. צרו מופע של מחלקת TextAbsorber כדי לקלוט טקסט מהמסמך.
  3. מגדירים את האזור המטרה באמצעות TextSearchOptions.Rectangle, המפרט את האזור שממנו יש לחלץ טקסט.
  4. החל חיבור טקסט לדף ספציפי על ידי קריאה למתודה accept() על דף שנבחר.
  5. שחזר את הטקסט שהוצא מהמאפיין Text של TextAbsorber.
  6. Process the output as needed.

הקוד הבא מדגים כיצד לנתח טקסט מאזורים ספציפיים בדף PDF בשפת פייתון.

# דוגמת הקוד הזו מציגה כיצד לחלץ טקסט מאזור ספציפי בדף במסמך PDF באמצעות Python
import aspose.pdf as ap

# פתח מסמך PDF
document = ap.Document("sample.pdf")

# צור אובייקט TextAbsorber כדי לחלץ טקסט
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)

# קבל את הסופג עבור העמוד הראשון
document.pages[1].accept(absorber)

# Get the extracted text
extracted_text = absorber.text

# תגדיר את מסלול הקובץ
file_path = "extracted-text.txt"

# פתח את הקובץ במצב כתיבה וכתוב את הטקסט שהופק
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

שיטה זו מאפשרת לך לחלץ בדיוק טקסט מתאי טבלה, שדות טופס, או כל חלק מוגדר בדף, מה שהופך אותה לאידיאלית לאוטומציה של מסמכים וניתוח נתונים.

חילוץ טקסט מקבצי PDF עם מספר עמודים

מסמכי PDF מכילים לעתים קרובות תמהילים של אלמנטים כמו טקסט, תמונות, הערות, קבצים מצורפים וגרפים. כאשר מטפלים ב-PDFs עם כמה טורים, חילוץ טקסט תוך שמירה על פריסת המקור יכול להיות מאתגר.

Aspose.PDF for Python מפשטת את התהליך הזה על ידי כך שהיא מאפשרת למפתחים למניפולט את נכסי הטקסט לפני ההוצאה. על ידי התאמת גדלי הגופן ואז הוצאת הטקסט, אתה יכול להשיג פלט נקי ומסודר יותר. השלבים הבאים מדגימים כיצד ליישם שיטה זו להוצאה מדויקת של טקסט מ-PDFs מרובי עמודים.

שלבים להוצאת טקסט מקובץ PDF עם כמה עמודות ב-Python

  1. טען את מסמך ה-PDF באמצעות מחלקת Document .
  2. צור מופע של TextFragmentAbsorber על מנת למקם ולהפיק קטעי טקסט בודדים מהמסמך.
  3. Retrieve all detected text fragments and reduce their font size by 70% to enhance extraction accuracy.
  4. שמור את המסמך המותאם בזרם זיכרון כדי למנוע שמירה של קובץ ביניים.
  5. טען את ה-PDF מזרם הזיכרון כדי לעבד את הטקסט המכוונן.
  6. השתמש ב TextAbsorber כדי לשלוף טקסט מובנה מהמסמך שעודכן.
  7. שמור את הטקסט המוצא בקובץ .txt לשימוש נוסף.

הדוגמה הבאה של קוד מראה כיצד לחלץ טקסט מקובץ PDF מרובה עמודות תוך שמירה על הפריסה.

# דוגמת קוד זו מראה כיצד לחלץ טקסט מקובץ PDF רב-עמודי בפייתון
import io
import aspose.pdf as ap

# פתח מסמך PDF
document = ap.Document("multi-column-sample.pdf")

# צור אובייקט TextFragmentAbsorber כדי לחלץ טקסט
text_fragment_absorber = ap.text.TextFragmentAbsorber()

# נהל את המגנט על הדף הראשון
document.pages.accept(text_fragment_absorber)

# שיג את האוסף של קטעי טקסט שהופקו
text_fragment_collection = text_fragment_absorber.text_fragments

# קטן את גודל הפונט לפחות ב- 70% כדי לשפר את חילוץ הטקסט
for text_fragment in text_fragment_collection:
    text_fragment.text_state.font_size *= 0.7

# שמור את המסמך המונחה במבנה זיכרון.
source_stream = io.BytesIO()
document.save(source_stream)

# טען מחדש את המסמך מזרם הזיכרון
source_stream.seek(0)
dest_document = ap.Document(source_stream)

# אתחל את TextAbsorber כדי לחלץ את הטקסט המעודכן
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text

# שמור את הטקסט החולץ לקובץ
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

השיטה הזו מבטיחה שהטקסט שנמשך מה-PDFים רבי עמודים שומר על העיצוב המקורי שלו בצורה מדויקת ככל האפשר.

שיפור ניתוח טקסט עם ScaleFactor

Aspose.PDF for Python מאפשרת לך לנתח PDFים ולהוציא טקסט מעמוד ספציפי עם אפשרויות מתקדמות להוצאת טקסט, כגון מצב עיצוב טקסט ופקטור קנה מידה. אפשרויות אלו עוזרות בהוצאה מדויקת של טקסט מ-PDFים מורכבים, כולל מסמכים מרובי עמודים.

באמצעות אפשרות ה- ScaleFactor, אנו יכולים לכוון את רשת הטקסט הפנימית עבור דיוק טוב יותר. גורם הסקלה בין 1 ל- 0.1 פועל כמו הפחתת גופנים, ועוזר למקם את הטקסט המופק נכון. ערכים בין 0.1 ל- -0.1 מת扱ים כאפס, מאפשרים סקלציה אוטומטית על בסיס רוחב הגליף הממוצע של הגופן הנפוץ ביותר בדף. אם לא הוגדר ScaleFactor, ברירת המחדל 1.0 חלה, ומבטיחה שאין התאמות סקלציה. עבור הנפקת טקסט בקנה מידה גדול, מומלץ להשאיר את הסקלה אוטומטית (ScaleFactor = 0), אך קביעת ScaleFactor = 0.5 באופן ידני יכולה לשפר

צעדים להוצאת טקסט מעמוד ספציפי עם מקדם סקלה

  1. טען את מסמך ה-PDF באמצעות מחלקת ה- Document.
  2. צור מופע של TextAbsorber כדי לחלץ טקסט.
  3. הגדר את TextExtractionOptions למצב עיצוב PURE כדי להפקת מידע מדויק.
  4. כוונן את scalefactor כדי לשפר את זיהוי הטקסט ב-PDFs עם מספר עמודות.
  5. קרא accept() על האוסף pages כדי לחלץ טקסט.
  6. שמור את התוכן המופק בקובץ טקסט.
# דוגמה לקוד זו מראה כיצד לחלץ טקסט מאלח באזור מסוים של עמוד במסמך PDF באמצעות Python
import aspose.pdf as ap

# פתח מסמך PDF
document = ap.Document("sample.pdf")

# לְהַתְחִיל TextAbsorber עם אפשרויות חליצת טקסט
text_absorber = ap.text.TextAbsorber()

# הגדר אפשרויות חיפוש
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5  # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options

# להוציא טקסט מהעמוד שצוין
document.pages.accept(text_absorber)

# Get extracted text
extracted_text = text_absorber.text

# שמור טקסט מחולץ לקובץ
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

חילוץ טקסט בפורמט PDF: גישה חלופית

Aspose.PDF for Python גם מציע גישה חלופית לחלץ טקסט באמצעות מחלקת TextDevice. אנא קראו עוד על extracting text from PDF using the TextDevice.

איך לנתח טבלאות מקובץ PDF בפייתון

חילוץ טבלאות מקבצי PDF הוא חיוני לניתוח נתונים, אוטומציה ודיווח. קבצי PDF מכילים לעיתים קרובות נתונים מובנים בצורה טבלאית, דבר שיכול להיות מאתגר לשלוף באמצעות שיטות חילוץ טקסט סטנדרטיות. למרבה המזל, Aspose.PDF for Python מספקת דרך עוצמתית לחלץ טבלאות בדיוק גבוה, תוך שמירה על המבנה והכנסתן.

המחלקה TableAbsorber מיועדת במיוחד לזיהוי וחילוץ טבלאות מעמודי PDF. היא מעבדת כל עמוד, מזהה טבלאות, ומביאה שורות ותאים בודדים תוך שמירה על המבנה שלהן. להלן הצעדים לחלץ טבלאות ממסמך PDF באמצעות Aspose.PDF עבור Python.

צעדים לפירParsing טבלאות מקובץ PDF ב-Python

  1. טען את קובץ ה-PDF שמכיל טבלאות באמצעות מחלקת Document.
  2. עבור בלולאת הpages של המסמך כדי לעבד כל עמוד בנפרד.
  3. צור מופע של מחלקת TableAbsorber כדי לזהות ולחלץ טבלאות.
  4. קרא לשיטת visit() כדי לזהות טבלאות בעמוד הנוכחי.
  5. חזור על רשימת הטבלאות המופקות ושלוף שורות ותאים.
  6. גשת ל textfragments של כל תא והצע טקסט באמצעות המאפיינים segments.
  7. שמור את נתוני הטבלה שהוצגו לניתוח נוסף או הצג אותם בקונסולה.
# דוגמת קוד זו מראה איך לחלץ טבלאות מתוך מסמך PDF בפייתון
import aspose.pdf as ap

# טען קובץ PDF
document = pdf.Document("sample.pdf")

# Process all pages
for page in document.pages:
    # אתחל אובייקט TableAbsorber
    absorber = ap.text.TableAbsorber()
    # זהה טבלאות בדף הנוכחי
    absorber.visit(page)
    # לולאה דרך טבלאות שצוינו
   for table in absorber.table_list:
        # חוזר על כל השורות בטבלה
       for row in table.row_list:
            # חזור על כל העמודות בשורה
           for cell in row.cell_list:
                # Fetch the text fragments
                text_fragment_collection = cell.text_fragments
                # חזור דרך קטעי הטקסט
               for fragment in text_fragment_collection:
                    # Print the text
                    print(fragment.text)

על ידי ביצוע שלבים אלה, אתה יכול להוציא בצורה יעילה טבלאות מקבצי PDF, מה שמקל על עיבוד וניתוח נתונים מובנים.

חילוץ מטה-נתוני PDF: קבלת מידע על קובץ PDF בפייתון

כשעובדים עם PDFים, לעיתים קרובות יש צורך לשלוף מטא דאטה כגון מחבר, תאריך יצירה, מילות מפתח וכותרת. Aspose.PDF עבור Python מקלה על כך על ידי מתן גישה לאובייקט DocumentInfo דרך המאפיין Info של מחלקת Document. זה מאפשר לך לחלץ נכסי מסמך חיוניים בצורה מתוכנת.

צעדים לניתוח מטא-דאטה של PDF

  1. השתמש במעמד Document כדי לפתוח את קובץ ה-PDF הרצוי.
  2. אסוף את אובייקט DocumentInfo באמצעות תכונת info.
  3. גֵּשׁ לְפְרָטִים ספֶצִיפִיים כמו סוּג, תַּכְנִית תאריך, יוֹצֵר, כּוֹתֶרֶת, נוֹשֵׂא ומילות מפתח.
  4. Print the metadata or save it for further processing.

הסקריפט הבא ב-Python מדגים כיצד לשחזר ולהציג פרטים מרכזיים מקובץ PDF ב-Python:

# דוגמה לקוד זו מראה כיצד לשלוף מידע על קבצים בפייתון
import aspose.pdf as ap

# טען את מסמך ה-PDF
document = ap.Document("Sample.pdf")

# שחזר מידע על מסמך
doc_info = document.info

# הצג מטא-דאטה של מסמך
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")

מניפולציית תמונות מקובץ PDF באמצעות פייתון

אנחנו יכולים לנתח מסמך PDF ולחלץ ביעילות תמונות שהוטמעו במסמך. אנחנו יכולים לחלץ תמונות באיכות גבוהה מדפים מסוימים ולשמור אותן בנפרד לשימוש נוסף.

כל עמוד PDF שומר את התמונות שלו בתוך אוסף המשאבים, במיוחד בתוך אוסף ה- XImage. כדי לחלץ תמונה, גש לעמוד הרצוי, שלוף את התמונה מאוסף ה- Images באמצעות האינדקס שלה, ושמור אותה.

צעדים לחילוץ תמונות מקובץ PDF ב-Python

  1. טען את קובץ ה-PDF המכיל תמונה באמצעות מחלקת Document.
  2. שחזר את הדף הספציפי ממנו אתה רוצה לחלץ תמונה.
  3. גש לאוסף Images של המשאבים של הדף וציין את אינדקס התמונה.
  4. שמור את התמונה המופקת באמצעות הזרם.

הדוגמה הבאה של הקוד מראה איך להבין תמונות מקובץ PDF ב-Python.

# דוגמה זו של קוד מראה כיצד לחלץ תמונות מקובץ PDF בפייתון
import aspose.pdf as ap

# פתח מסמך
document = ap.Document("Sample.pdf")

# Extract a particular image (first image from the first page)
x_image = document.pages[1].resources.images[1]

# הגדר את נתיב התמונה המוצגת
output_image_path = "OutputImage.jpg"

# שמור את התמונה שהופקה
with open(output_image_path, "wb") as output_image:
    output_image.write(x_image.to_stream().read())

שיטה זו מספקת דרך קלה ויעילה לחלץ תמונות מקבצי PDF תוך שמירה על האיכות שלהן. עם Aspose.PDF עבור פייתון, ניתן לשדרג את תהליך החילוץ של תמונות עבור יישומים שונים, כמו עיבוד מסמכים , ארכוב נתונים, וניתוח תוכן.

איך לנתח הערות PDF בפייתון

Annotations in PDFs enhance document interaction by adding highlights, figures, and sticky notes. Each annotation type serves a specific purpose, and Aspose.PDF for Python makes it easy to extract them for analysis or processing.

ניתוח הערות טקסט מתוך PDF בפייתון

PDF documents often contain text annotations, which serve as comments or notes attached to specific locations on a page. When collapsed, these annotations appear as icons, and when expanded, they display text inside a pop-up window. Each page in a PDF has its own Annotations collection, which holds all annotations specific to that page. By leveraging Aspose.PDF for Python, you can efficiently extract text annotations from a PDF file.

צעדים לחלץ הערות טקסט מקובץ PDF

  1. טען את מסמך ה-PDF עם מחלקת ה- Document.
  2. שחזר את המאפיין annotations של עמוד ספציפי כדי לקבל את כל ההערות בעמוד זה.
  3. חזור על ההערות וסנן את אלה עם AnnotationType.TEXT.
  4. שחזר מידע רלוונטי כגון מיקום ההערה (rect) לעיבוד נוסף או להצגה.
import aspose.pdf as ap

# טען את מסמך ה-PDF
document = ap.Document("annotations.pdf")

# עבור על כל ההערות בדף הראשון
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
        # הדפס פרטי הערה
        print(f"Title: {annotation.full_name}")
        print(f"Contents: {annotation.contents}")
        print(f"Annotation Rectangle: {annotation.rect}")

באמצעות צעדים אלה, אתה יכול לחלץ ולהתמודד ביעילות עם הערות טקסט ממסמכי PDF בפייתון.

Explore more about working with PDF Text Annotation in Python by visiting the official guide.

נְתָח טֶקֶסט מְדֹגָּשׁ מִקּוֹד PDF ב-Python

במקרים רבים, ייתכן שתצטרך לחלץ רק את הטקסט המודגש מקובץ PDF ולא את כל התוכן. בין אם אתה מנתח הערות חשובות, מסכם נקודות מפתח או מאוטם עיבוד מסמכים, Aspose.PDF עבור Python מקל עליך לאחזר טקסט מודגש ביעילות.

הדגשות משמשות לסימון קטעי טקסט חשובים, בדרך כלל עבור ביקורות או פתקים ללימוד. ניתן לחלץ טקסט מודגש ומאפיינים שלו, כגון צבע ומיקום, באמצעות מחלקת HighlightAnnotation.

אנחנו יכולים לנתח הערות טקסט מודגש במסמך PDF על ידי ביצוע הצעדים שהוזכרו קודם לכן. עם זאת, אנחנו רק צריכים להזכיר AnnotationType.HIGHLIGHT בשלב 3.

הדוגמה הבאה מדגימה כיצד לסנן ולהוציא טקסט מודגש מקובץ PDF.

import aspose.pdf as ap

# טען את מסמך ה-PDF
document = ap.Document("annotations.pdf")

# עבור על כל ההערות בעמוד הראשון
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
        # הדפס פרטי הערה
        print(f"Title: {annotation.full_name}")
        print(f"Annotation Rectangle: {annotation.rect}")

Learn more about working with PDF Highlights Annotation in Python by visiting the official guide.

ניתוח הערות של דמויות PDF בפייתון

הערות בפיגור כוללות אלמנטים גרפיים כמו צורות, ציורים או חותמות הנמצאים בשימוש להדגשה או להסברים. חילוץ ההערות הללו כולל זיהוי של אובייקטים InkAnnotation או StampAnnotation ושליפה שלPaths ציור או תמונות שלהם.

כדי לנתח הערות קו במסמך PDF, יש לעקוב אחר השלבים המתוארים לעיל. השינוי היחיד הנדרש הוא לציין AnnotationType.LINE בשלב 3.

דוגמה הבאה מדגימה כיצד לנתח הערת שורה ב- PDF באמצעות Python.

import aspose.pdf as ap

# טען את מסמך ה-PDF
document = ap.Document("annotations.pdf")

# עבור על כל ההערות בעמוד הראשון
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
        # הדפס פרטי הערה
        print(f"Annotation Rectangle: {annotation.rect}")

קרא עוד על working with PDF Figures Annotations in Python here.

הערות קישור ב-PDFs מאפשרות למשתמשים לנווט ללא תקלות בתוך מסמך, לפתוח קבצים חיצוניים, או לבקר בדפי אינטרנט ישירות מה-PDF. היפר-קישורים אלו משפרים את האינטראקטיביות ומשפרים את חווית המשתמש על ידי מתן גישה מהירה למידע נוסף.

כדי לחלץ הערות קישור מקובץ PDF, עקוב אחר אותם צעדים כמו לפני, אך בשלב 3, הקפד לציין AnnotationType.LINK. זה מבטיח שרק הערות קישור יחולצו.

הקוד הבא מציג דוגמה כיצד לנתח הערות קישור ב-PDF באמצעות פייתון.

import aspose.pdf as ap

# טען את מסמך ה-PDF
document = ap.Document("annotations.pdf")

# עבור על כל ההערות בעמוד הראשון
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
        # הדפס פרטי הערה
        print(f"Annotation Rectangle: {annotation.rect}")

על ידי ניצול Aspose.PDF עבור Python, תוכל לחלץ ול-manipulate אנוטציות קישור בצורה יעילה עבור ש_cases שונים, כגון אינדוקס של מסמכים או שיפור הניווט.

קראו את הפרטים המלאים על handling Link Annotations in PDFs here.

סיכום

Aspose.PDF עבור Python היא הספרייה הטובה ביותר לניתוח PDF ב-Python עבור מפתחים הזקוקים לפתרון אמין, יעיל ועשיר תכונות לניתוח PDFs. בין אם אתה זקוק לניתוח טקסט, טבלאות, תמונות, מטא-נתונים או הערות, Aspose.PDF מספקת את הכלים הנדרשים.

נסה את דוגמאות הקוד שסופקו והתחל לנתח PDF ולפשט את משימות ניתוח ה-PDF שלך ב-Python!

במקרה של שאלות או צורך בעזרה נוספת, אל תהסס לפנות אלינו בפורום התמיכה שלנו free support forum.

ראה גם