PDF'yi Python'da Ayrıştırma: Güçlü Adım Adım Rehberi

PDF'yi Python'da Ayrıştırma: Güçlü Adım-Adım Kılavuz

PDF’yi PDF ayrıştırmak, bir PDF dosyasından yapılandırılmış veya yapılandırılmamış verileri çıkarmak anlamına gelir. PDF’lerin karmaşık yapısı nedeniyle bu zorlayıcı olabilir. Düz metin veya JSON ve XML gibi yapılandırılmış formatların aksine, PDF’ler içeriği her zaman lineer bir sırayı takip etmeyen bir şekilde depolar. Metin, tablolar, görseller ve meta verileri çıkarmak, güvenilir, doğru ve verimli bir Python PDF ayrıştırıcı kütüphanesi gerektirir. Bu makalede, Aspose.PDF for Python kullanarak Python’da PDF’yi nasıl ayrıştıracağımızı öğreneceğiz. Bu kılavuzun sonunda, Python’da PDF belgelerinden met

Bu makale aşağıdaki konuları kapsamaktadır:

Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi
PDF’yi Ayrıştırma ve Metin Çıkarma Python’da
PDF’den Tablo Nasıl Ayrıştırılır Python’da
PDF Meta Verilerini Çözümle: Python’da PDF Dosya Bilgilerini Alın
PDF’den Python ile Resimlerin Ayrıştırılması
PDF Notlarını Python’da Nasıl Ayrıştırılır

Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi

Aspose.PDF for Python günümüzde mevcut olan en iyi Python PDF ayrıştırma kütüphanelerinden biridir. Yüksek doğruluk sunar, yapılandırılmış veri çıkarımını destekler ve hatta OCR desteği ile taranmış PDF’lerle çalışır.

Aspose.PDF, Python PDF ayrıştırma kütüphaneleri arasında birkaç neden için öne çıkıyor:

Yüksek Hassasiyet: Metin ve tabloları hassasiyetle çıkarır.
Yapılandırılmış Veriler için Destek: Tablo, resim ve meta verilerle çalışır.
No External Dependencies: Hafif, kendi içinde barındıran bir kütüphane.
Birden Fazla Çıktı Formatı: PDF’leri metin, XLSX, DOCX, HTML ve resim formatlarına dönüştür.
Güvenlik ve Güvenilirlik: Karmaşık PDF yapılarıyla veri bozulmadan başa çıkar.

Karşılaştırıldığında açık kaynak alternatifleri, Aspose.PDF daha sağlam ve özellik açısından zengin bir çözüm sunarak, kurumsal uygulamalar ve belge otomasyon sistemleri için ideal hale getiriyor.

Kurulum & Ayar

Aspose.PDF için Python yüklemek basittir. Bunu releases adresinden indirebilir veya aşağıdaki pip komutunu çalıştırabilirsiniz:

pip install aspose-pdf

Aspose.PDF’yi Python uygulamanızda kullanmaya başlamak için gerekli modülü içe aktarın:

import aspose.pdf as ap

Metin Çıkarma: Python’da PDF Ayrıştırma

PDF’den metin ayıklamak, Python PDF ayrıştırıcı kütüphanelerinin temel özelliklerinden biridir. Bir PDF belgesinin tüm sayfalarından veya belirli bir sayfasından veya bir bölgesinden metin çıkarabiliriz. Önümüzdeki bölümlerde şunları öğreneceğiz:

PDF’deki Tüm Sayfalardan Metin Ayıklama Python’da
PDF’deki Belirli Bir Sayfadan Metin Ayrıştırma
Belirli Bir Bölgeden PDF’den Metin Ayrıştırma
Çok Sütunlu PDF’lerden Metin Çıkarma
Ölçek Faktörü ile Geliştirilmiş Metin Ayrıştırma
PDF’deki Metni Ayıklamak: Alternatif Yaklaşım

Tüm Sayfalardan PDF’de Metin Analizi Yapmak için Python’da

Aspose.PDF for Python, PDF belgelerinden metin çıkarmak için Document ve TextAbsorber sınıflarını kullanarak verimli bir yol sunar. Document sınıfı PDF dosyasını yüklemek için kullanılırken, TextAbsorber sınıfı tüm sayfalardan metin içeriğini çıkarmaktan sorumludur. accept() yöntemi her sayfayı işler ve metni çıkarır; bu metin daha sonra gerektiğinde saklanabilir veya görüntülenebilir.

PDF dosyasının tüm sayfalarından metin çıkarmak için adımlar:

PDF belgesini Document sınıfını kullanarak yükleyin.
TextAbsorber sınıfının bir örneğini oluşturarak metin çıkarımını yönetin.
pages koleksiyonunda accept() metodunu çağırın, TextAbsorber‘ın tüm sayfaları işlemesine izin verin.
TextAbsorber örneğinin text özelliğini kullanarak çıkarılan metni alın.
Print the extracted text.

Aşağıdaki kod örneği, Python’da bir PDF’nin tüm sayfalarındaki metni nasıl ayrıştıracağınızı göstermektedir.

# Bu kod örneği, Python'da bir PDF belgesinin tüm sayfalarından metin çıkarmayı nasıl yapacağınızı göstermektedir.
import aspose.pdf as ap

# Open PDF document
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# Tüm sayfaları işlemek için accept yöntemini çağırın.
document.pages.accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# Dosya yolunu tanımlayın
file_path = "extracted-text.txt"

# Dosyayı yazma modunda açın ve çıkartılan metni yazın
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Belirli Bir Sayfadan PDF’den Metin Ayrıştırma

Aynı yaklaşımı hafifçe değiştirerek bir PDF belgesinin belirli bir sayfasından metin de çıkarabiliriz. Tüm belgeyi işlemek yerine, yalnızca Document nesnesinin istenen sayfasında accept() yöntemini çağırmanız gerekir. Sayfa numarasını indeksini kullanarak belirtin ve Aspose.PDF yalnızca o sayfadan metin çıkartacaktır. Bu yöntem, yalnızca belirli bir bölümden veri almanız gereken büyük PDF’lerle çalışırken verimlilik ve performansı artırır.

Aşağıdaki kod örneği, Python’da bir PDF’nin belirli bir sayfasından metni nasıl ayrıştıracağınızı göstermektedir.

# Bu kod örneği, Python'da bir PDF belgesinin belirli bir sayfasından metin çıkarmanın nasıl yapılacağını göstermektedir.
import aspose.pdf as ap

# PDF belgesini açın
document = ap.Document("AddText.pdf")

# Create text absorber
text_absorber = ap.text.TextAbsorber()

# Tüm sayfaları işlemek için accept yöntemini çağırın.
document.pages[1].accept(text_absorber)

# Retrieve the extracted text
extracted_text = text_absorber.text

# Dosya yolunu tanımlayın
file_path = "extracted-text.txt"

# Dosyayı yazma modunda açın ve çıkarılan metni yazın
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Belirli Bir Bölgedeki PDF’den Metin Parçala

Bazen, bir PDF sayfasının belirli bir bölümünden metin çıkarmamız gerekebilir; tüm belgeden içerik almak yerine. Belirli bir alanı hedeflemek için TextSearchOptions‘ın Rectangle özelliğini kullanın. Bu özellik, istenen alanın koordinatlarını tanımlayan bir Rectangle nesnesi alır. Bu sınırı belirleyerek, yalnızca seçilen alandan metin çıkarabiliriz; sayfanın geri kalan içeriğini göz ardı edebiliriz.

Belirli Bir Sayfa Bölgesinden Metin Çıkartma Adımları

PDF belgesini Document sınıfını kullanarak yükleyin.
TextAbsorber sınıfının bir örneğini oluşturun ve belge içindeki metni yakalayın.
Hedef bölgeyi, metin almak için alanı belirten TextSearchOptions.Rectangle kullanarak tanımlayın.
Belirli bir sayfada metin çıkarmak için, seçilen sayfadaki accept() yöntemini çağırın.
TextAbsorber‘in Text özelliğinden çıkarılan metni al.
Process the output as needed.

Aşağıdaki kod örneği, Python’da bir PDF sayfasının belirli bir bölgesinden metni nasıl ayrıştıracağınızı göstermektedir.

# Bu kod örneği, Python kullanarak bir PDF belgesindeki belirli bir bölgeden metin çıkarmayı göstermektedir.
import aspose.pdf as ap

# PDF belgesini açın
document = ap.Document("sample.pdf")

# TextAbsorber nesnesi oluşturun, metin çıkarmak için.
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)

# Absorberin ilk sayfa için kabul edin.
document.pages[1].accept(absorber)

# Get the extracted text
extracted_text = absorber.text

# Dosya yolunu tanımlayın
file_path = "extracted-text.txt"

# Dosyayı yazma modunda açın ve çıkarılan metni yazın
with open(file_path, "w", encoding="utf-8") as tw:
    tw.write(extracted_text + "\n")  # Write the extracted text with a newline

Bu yaklaşım, metni tablo hücrelerinden, form alanlarından veya bir sayfanın herhangi bir tanımlı bölümünden hassas bir şekilde çıkarmanıza olanak tanır, bu da onu belge otomasyonu ve veri analizi için ideal hale getirir.

Çok Sütunlu PDF’lerden Metin Çıkartma

PDF belgeleri genellikle metin, resimler, notlar, ekler ve grafikler gibi unsurların bir karışımını içerir. Çok sütunlu PDF’lerle çalışırken, orijinal düzeni korurken metin çıkarmak zor olabilir.

Aspose.PDF for Python, bu süreci basitleştirerek geliştiricilerin metin özelliklerini çıkarmadan önce değiştirmesine olanak tanır. Yazı tipi boyutlarını ayarlayarak ve ardından metni çıkararak, daha temiz ve daha yapılandırılmış bir çıktı elde edebilirsiniz. Aşağıdaki adımlar, çok sütunlu PDF’lerden doğru metin çıkarımı uygulamak için bu yöntemi nasıl uygulayacağınızı göstermektedir.

Python’da Çok Sütunlu PDF’den Metin Çıkartma Adımları

PDF belgesini Document sınıfını kullanarak yükleyin.
TextFragmentAbsorber örneğini oluşturun ve belgedeki bireysel metin parçalarını bulup çıkarmak için kullanın.
Tüm tespit edilen metin parçalarını alıp, çıkartım doğruluğunu artırmak için yazı tipini %70 oranında küçültün.
Değiştirilmiş belgeyi, ara bir dosya kaydetmemek için bellek akışında saklayın.
Hafıza akışından PDF’yi yükleyin ve ayarlanmış metni işleyin.
TextAbsorber kullanarak değiştirilmiş belgede yapılandırılmış metni alın.
Save the extracted text to a .txt file for further use.

Aşağıdaki kod örneği, düzeni koruyarak çok sütunlu bir PDF’den metin nasıl çıkarılacağını göstermektedir.

# Bu kod örneği, Python'da çok sütunlu bir PDF'den metin nasıl çıkarılacağını göstermektedir.
import io
import aspose.pdf as ap

# Açık PDF belgesi
document = ap.Document("multi-column-sample.pdf")

# TextFragmentAbsorber nesnesi oluşturun ve metni çıkarın.
text_fragment_absorber = ap.text.TextFragmentAbsorber()

# İlk sayfa için absorbanı kabul etin.
document.pages.accept(text_fragment_absorber)

# Çıkarılan metin parçalarının koleksiyonunu alın
text_fragment_collection = text_fragment_absorber.text_fragments

# Yazı çıkarımını geliştirmek için font boyutunu en az %70 azaltın.
for text_fragment in text_fragment_collection:
    text_fragment.text_state.font_size *= 0.7

# Değiştirilmiş belgeyi bellekteki bir akışa kaydet.
source_stream = io.BytesIO()
document.save(source_stream)

# Hafıza akışından belgeyi yeniden yükleyin
source_stream.seek(0)
dest_document = ap.Document(source_stream)

# TextAbsorber'ı güncellenmiş metni çıkarmak için başlatın
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text

# Çıkarılan metni bir dosyaya kaydedin
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

Bu yöntem, çok sütunlu PDF’lerden çıkarılan metnin, mümkün olduğunca orijinal düzenini korumasını sağlar.

Geliştirilmiş Metin Ayrıştırma ile ScaleFactor

Aspose.PDF for Python, PDF’leri analiz etmenize ve belirli bir sayfadan metin çıkarmanıza olanak tanır; metin biçimlendirme modu ve ölçek faktörü gibi gelişmiş metin çıkarma seçenekleri ile. Bu seçenekler, çok sütunlu belgeler de dahil olmak üzere karmaşık PDF’lerden metni doğru bir şekilde çıkarmaya yardımcı olur.

ScaleFactor seçeneğini kullanarak, iç metin ızgarasını daha iyi bir doğruluk için ince ayar yapabiliriz. 1 ile 0.1 arasındaki bir ölçek faktörü, font küçültmesi gibi çalışır ve çıkarılan metnin doğru bir şekilde hizalanmasına yardımcı olur. 0.1 ile -0.1 arasındaki değerler sıfır olarak değerlendirilir ve sayfadaki en çok kullanılan fontun ortalama glif genişliğine dayalı otomatik ölçekleme sağlar. Hiçbir ScaleFactor ayarlanmamışsa, varsayılan 1.0 uygulanır ve bu da ölçeklendirme ayarlarının yapılmadığını garanti eder. Büyük ölçekli metin çıkarımı için otomatik ölçekleme (ScaleFactor = 0) önerilmektedir, ancak manuel olarak ScaleFactor = 0.5 ayarlamak, karmaşık düzenler için sonuçları iyileştirebilir.

Belirli bir Sayfadan Ölçek Faktörü ile Metin Çıkartma Adımları

PDF belgesini Document sınıfını kullanarak yükleyin.
TextAbsorber örneğini oluşturun ve metni çıkartın.
TextExtractionOptions‘ı doğru çıkarım için SAF biçimlendirme moduna ayarlayın.
scalefactor değerini çok sütunlu PDF’lerde metin tanımayı optimize etmek için ayarlayın.
pages koleksiyonunda metni çıkarmak için accept() çağrısı yapın.
Çıkarılan içeriği bir metin dosyasına kaydedin.

# Bu kod örneği, Python kullanarak bir PDF belgesindeki belirli bir alanından metin çıkarmanın nasıl yapılacağını göstermektedir.
import aspose.pdf as ap

# PDF belgesini açın
document = ap.Document("sample.pdf")

# TextAbsorber'ı metin çıkarım seçenekleri ile başlatın
text_absorber = ap.text.TextAbsorber()

# Ayrıştırma seçeneklerini ayarlayın
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5  # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options

# Belirtilen sayfadan metin çıkarın
document.pages.accept(text_absorber)

# Get extracted text
extracted_text = text_absorber.text

# Metin çıktısını bir dosyaya kaydet
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
    file.write(extracted_text)

PDF’deki Metni Ayrıştır: Alternatif Yaklaşım

Aspose.PDF for Python ayrıca TextDevice sınıfını kullanarak metin çıkarmanın alternatif bir yolunu sunmaktadır. Lütfen TextDevice kullanarak PDF’den metin çıkarma hakkında daha fazla bilgi edinin.

PDF’den Python’da Tabloları Nasıl Ayrıştırılır

PDF’lerden tabloları ayrıştırmak, veri analizi, otomasyon ve raporlama için esastır. PDF’ler genellikle yapılandırılmış veriyi tablo biçiminde içerir, bu da standart metin çıkarım yöntemlerini kullanarak elde etmeyi zorlaştırabilir. Neyse ki, Aspose.PDF for Python, yapılarını ve içeriklerini koruyarak yüksek doğrulukla tabloları çıkarmanın güçlü bir yolunu sağlar.

TableAbsorber sınıfı, PDF sayfalarından tabloları tespit etmek ve çıkarmak için özel olarak tasarlanmıştır. Her sayfayı işler, tabloları tanımlar ve bireysel satırları ve hücreleri yapılarını koruyarak alır. Aşağıda, Aspose.PDF for Python kullanarak bir PDF belgesinden tabloları çıkarmak için adımlar verilmiştir.

PDF’den Python’da Tablo Parse Etme Adımları

PDF dosyasını tablolar içeren Document sınıfını kullanarak yükleyin.
Belgenin pages koleksiyonunda döngü yaparak her sayfayı tek tek işleyin.
TableAbsorber sınıfının bir örneğini oluşturarak tabloları tespit edin ve çıkarın.
visit() metodunu çağırarak mevcut sayfadaki tabloları tanımlayın.
Çıkarılmış tablolar listesini yineleyin ve satırları ve hücreleri alın.
textfragments‘ın her hücresine erişin ve metni segments özelliğini kullanarak çıkarın.
Verilen tablo verilerini daha fazla analiz için kaydedin veya konsolda görüntüleyin.

# Bu kod örneği, Python'da bir PDF belgesinden tabloları nasıl çıkaracağınızı göstermektedir.
import aspose.pdf as ap

# PDF dosyasını yükle
document = pdf.Document("sample.pdf")

# Tüm sayfaları işleyin
for page in document.pages:
    # TableAbsorber nesnesini başlatın
    absorber = ap.text.TableAbsorber()
    # Geçerli sayfadaki tabloları tanımlayın
    absorber.visit(page)
    # Çıkarılan tablolarda döngü yapın
   for table in absorber.table_list:
        # Tablodaki tüm satırlarda yinele.
       for row in table.row_list:
            # Tüm sütunları sırada yineleyin.
           for cell in row.cell_list:
                # Fetch the text fragments
                text_fragment_collection = cell.text_fragments
                # Metin parçalarını yinele.
               for fragment in text_fragment_collection:
                    # Print the text
                    print(fragment.text)

Bu adımları takip ederek, PDF’lerden tabloları verimli bir şekilde çıkarabilir, yapılandırılmış verileri işlemek ve analiz etmek daha kolay hale getirebilirsiniz.

PDF Meta Verilerini Ayrıştır: Python’da PDF Dosya Bilgilerini Al

PDF’lerle çalışırken, genellikle yazar, oluşturma tarihi, anahtar kelimeler ve başlık gibi meta verileri almak gerekir. Aspose.PDF for Python, Document sınıfının Info özelliği aracılığıyla DocumentInfo nesnesine erişim sağlayarak bunu kolaylaştırır. Bu, belge özelliklerini programlı olarak çıkarmanıza olanak tanır.

PDF Meta Verilerini Ayrıştırma Adımları

Document sınıfını kullanarak istenen PDF dosyasını açın.
info özelliğini kullanarak DocumentInfo nesnesini al.
Belirli ayrıntılara, yazar, oluşturma tarihi, başlık, konu ve anahtar kelimeler gibi, erişin.
Metadata’yı yazdırın veya daha fazla işleme için kaydedin.

Aşağıdaki Python betiği, bir PDF dosyasından temel ayrıntıları nasıl alıp göstereceğinizi göstermektedir:

# Bu kod örneği, Python'da dosya bilgilerini nasıl çıkaracağınızı göstermektedir.
import aspose.pdf as ap

# PDF belgesini yükleyin
document = ap.Document("Sample.pdf")

# Belgeleri geri al bilgi
doc_info = document.info

# Belge meta verilerini görüntüle
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")

PDF Dosyasından Görüntüleri Ayrıştırma Python Kullanarak

PDF belgesini analiz edebilir ve belgede yer alan gömülü görüntüleri verimli bir şekilde alabiliriz. Belirli sayfalardan yüksek kaliteli görüntüler çıkarabilir ve bunları daha ileri kullanım için ayrı olarak kaydedebiliriz.

Her PDF sayfası, görüntülerini kaynaklar koleksiyonunda, özellikle XImage koleksiyonu içinde saklar. Bir resmi çıkarmak için, istenen sayfaya erişin, Images koleksiyonundan indeksini kullanarak resmi alın ve kaydedin.

PDF’den Görüntüleri Ayrıştırmak için Python’da Adımlar

PDF dosyasını içeren bir resmi Document sınıfını kullanarak yükleyin.
Belirli bir sayfayı alınız, görüntü çekmek istediğiniz.
Sayfanın resources koleksiyonundaki Images koleksiyonuna erişin ve resim indisini belirtin.
Akışı kullanarak çıkarılan resmi kaydedin.

Aşağıdaki kod örneği, Python’da bir PDF’den resimleri nasıl ayrıştıracağını göstermektedir.

# Bu kod örneği, Python'da bir PDF'den resimleri nasıl çıkaracağınızı göstermektedir.
import aspose.pdf as ap

# Open document
document = ap.Document("Sample.pdf")

# Belirli bir resmi çıkar (ilk sayfadaki ilk resmi)
x_image = document.pages[1].resources.images[1]

# Çıktı resim yolunu tanımlayın
output_image_path = "OutputImage.jpg"

# Açılan resmi kaydedin
with open(output_image_path, "wb") as output_image:
    output_image.write(x_image.to_stream().read())

Bu yöntem, PDF’lerden resim çıkarmanın kolay ve verimli bir yolunu sunarak kaliteyi korur. Aspose.PDF for Python ile, document processing gibi çeşitli uygulamalar için resim çıkarımını otomatikleştirebilirsiniz, veri arşivleme ve içerik analizi.

PDF Notasyonlarını Python’da Nasıl Ayrıştırılır

PDF’lerdeki anotasyonlar, vurgular, şekiller ve yapışkan notlar ekleyerek belge etkileşimini artırır. Her anotasyon türü belirli bir amacı yerine getirir ve Aspose.PDF for Python, bunları analiz veya işleme için kolayca çıkarma imkanı sağlar.

PDF’den Metin Notlarını Ayrıştırma Python’da
PDF’den Vurgulanan Metni Parçalama Python’da
PDF Figürlerinin Anotasyonunu Python’da Ayrıştırma
PDF Bağlantı Anotasyonlarını Python’da Nasıl Ayrıştırılır

PDF’den Python’da Metin Açıklamaları Ayrıştırma

PDF belgeleri genellikle bir sayfadaki belirli konumlara eklenmiş yorumlar veya notlar olarak hizmet eden metin anotasyonları içerir. Küçültüldüğünde, bu anotasyonlar simge olarak görünür ve genişletildiğinde, bir açılır pencerede metin gösterir. Bir PDF’deki her sayfanın kendine ait Anotasyonlar koleksiyonu vardır, bu koleksiyon o sayfaya özgü tüm anotasyonları tutar. Aspose.PDF for Python’u kullanarak, bir PDF dosyasından metin anotasyonlarını verimli bir şekilde çıkarabilirsiniz.

PDF’den Metin Notlarını Ayrıştırma Adımları

Document sınıfıyla PDF belgesini yükleyin.
Belirli bir sayfanın tüm notlarını almak için annotations özelliğini al.
Açıklamaları döngüye al ve AnnotationType.TEXT olanları filtrele.
İlgili bilgileri, örneğin anotasyon konumu (rect), daha fazla işleme veya görüntüleme için alın.

import aspose.pdf as ap

# PDF belgesini yükleyin
document = ap.Document("annotations.pdf")

# İlk sayfadaki tüm notları döngüye al.
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
        # Yorum detaylarını yazdırın
        print(f"Title: {annotation.full_name}")
        print(f"Contents: {annotation.contents}")
        print(f"Annotation Rectangle: {annotation.rect}")

Bu adımları izleyerek, PDF belgelerinden Python’da metin açıklamalarını verimli bir şekilde çıkarabilir ve işleyebilirsiniz.

PDF Metin Anotasyonu ile working with PDF Text Annotation in Python hakkında daha fazla bilgi edinmek için resmi kılavuzu ziyaret edin.

PDF’den Vurgulanan Metni Python ile Ayrıştırın

Birçok durumda, PDF’den yalnızca vurgulanan metni çıkarmanız gerekebilir, tüm içeriği değil. Önemli notları analiz ederken, ana noktaları özetlerken veya belge işlemeyi otomatikleştirirken, Aspose.PDF for Python, vurgulanan metni verimli bir şekilde almayı kolaylaştırır.

Vurgulama notları, önemli metin parçalarını işaretlemek için kullanılır ve genellikle incelemeler veya çalışma notları için kullanılır. HighlightAnnotation sınıfını kullanarak vurgulanan metni ve özelliklerini, örneğin renk ve konum gibi, çıkarabilirsiniz.

PDF belgesindeki vurgulanan metin eklerini, daha önce bahsedilen adımları izleyerek ayrıştırabiliriz. Ancak, yalnızca adım 3’te AnnotationType.HIGHLIGHT‘ı belirtmemiz gerekiyor.

Aşağıdaki örnek, bir PDF’den vurgulanan metni nasıl filtreleyeceğinizi ve çıkaracağınızı göstermektedir.

import aspose.pdf as ap

# PDF belgesini yükleyin
document = ap.Document("annotations.pdf")

# İlk sayfadaki tüm notlara göz atın
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
        # Yorum ayrıntılarını yazdırın
        print(f"Title: {annotation.full_name}")
        print(f"Annotation Rectangle: {annotation.rect}")

Learn more about working with PDF Highlights Annotation in Python resmi kılavuzu ziyaret ederek.

PDF Figürleri Notlama Analizi Python’da

Şekil notları, vurgulama veya açıklamalar için kullanılan şekiller, çizimler veya damgalar gibi grafik unsurları içerir. Bu notların çıkarılması, InkAnnotation veya StampAnnotation nesnelerinin tanımlanmasını ve bunların çizim yollarının veya görüntülerinin alınmasını gerektirir.

PDF belgesindeki çizgi anotasyonlarını ayrıştırmak için, daha önce belirtilen adımları izleyin. Tek gereken değişiklik, adım 3’te AnnotationType.LINE belirtmektir.

Aşağıdaki örnek, bir PDF’deki satır anotasyonlarının nasıl ayrıştırılacağını Python kullanarak göstermektedir.

import aspose.pdf as ap

# PDF belgesini yükleyin
document = ap.Document("annotations.pdf")

# İlk sayfadaki tüm notları döngüye al.
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
        # Print annotation details
        print(f"Annotation Rectangle: {annotation.rect}")

PDF Figürleri Notları ile Python’da çalışma hakkında daha fazla bilgi için working with PDF Figures Annotations in Python here.

PDF Bağlantı Notlarını Python’da Nasıl Ayrıştırılır

PDF’lerdeki bağlantı notları, kullanıcıların bir belgede sorunsuz bir şekilde gezinmesine, dış dosyaları açmasına veya PDF’den doğrudan web sayfalarına gitmesine olanak tanır. Bu köprüler, etkileşimi artırır ve ek bilgilere hızlı erişim sağlayarak kullanıcı deneyimini iyileştirir.

PDF’den bağlantı açıklamalarını çıkarmak için daha önceki adımları izlemeye devam edin, ancak 3. adımda AnnotationType.LINK belirtmeyi unutmayın. Bu, yalnızca bağlantı açıklamalarının alınmasını sağlar.

Aşağıdaki kod örneği, Python kullanarak bir PDF’deki bağlantı açıklamalarını nasıl ayrıştıracağınızı göstermektedir.

import aspose.pdf as ap

# PDF belgesini yükle
document = ap.Document("annotations.pdf")

# İlk sayfadaki tüm notları döngüye al.
for annotation in document.pages[1].annotations:
    if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
        # Yorum detaylarını yazdır
        print(f"Annotation Rectangle: {annotation.rect}")

Aspose.PDF for Python’ı kullanarak, belgeleri dizinlemek veya navigasyonu geliştirmek gibi çeşitli kullanım durumları için bağlantı anotasyonlarını verimli bir şekilde çıkartıp manipüle edebilirsiniz.

Read the complete details on handling Link Annotations in PDFs here.

Sonuç

Aspose.PDF for Python, PDF’leri ayrıştırmak için güvenilir, verimli ve zengin özelliklere sahip bir çözüme ihtiyaç duyan geliştiriciler için en iyi Python PDF ayrıştırıcı kütüphanesidir. Metin, tablolar, görseller, meta veriler veya açıklamaları ayrıştırmanız gerekiyorsa, Aspose.PDF gerekli araçları sağlar.

Sağlanan kod örneklerini deneyin ve PDF’leri okumaya başlayarak Python’daki PDF okuma görevlerinizi basitleştirin!

Herhangi bir sorunuz varsa veya daha fazla yardıma ihtiyaç duyuyorsanız, lütfen free support forum üzerinden bizimle iletişime geçmekten çekinmeyin.

PDF'leri Python'da Nasıl Ayrıştırılır: Güçlü Bir Aşamalı Rehber

Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi

Kurulum & Ayar

Metin Çıkarma: Python’da PDF Ayrıştırma

Tüm Sayfalardan PDF’de Metin Analizi Yapmak için Python’da

PDF dosyasının tüm sayfalarından metin çıkarmak için adımlar:

Belirli Bir Sayfadan PDF’den Metin Ayrıştırma

Belirli Bir Bölgedeki PDF’den Metin Parçala

Belirli Bir Sayfa Bölgesinden Metin Çıkartma Adımları

Çok Sütunlu PDF’lerden Metin Çıkartma

Python’da Çok Sütunlu PDF’den Metin Çıkartma Adımları

Geliştirilmiş Metin Ayrıştırma ile ScaleFactor

Belirli bir Sayfadan Ölçek Faktörü ile Metin Çıkartma Adımları

PDF’deki Metni Ayrıştır: Alternatif Yaklaşım

PDF’den Python’da Tabloları Nasıl Ayrıştırılır

PDF’den Python’da Tablo Parse Etme Adımları

PDF Meta Verilerini Ayrıştır: Python’da PDF Dosya Bilgilerini Al

PDF Meta Verilerini Ayrıştırma Adımları

PDF Dosyasından Görüntüleri Ayrıştırma Python Kullanarak

PDF’den Görüntüleri Ayrıştırmak için Python’da Adımlar

PDF Notasyonlarını Python’da Nasıl Ayrıştırılır

PDF’den Python’da Metin Açıklamaları Ayrıştırma

PDF’den Metin Notlarını Ayrıştırma Adımları

PDF’den Vurgulanan Metni Python ile Ayrıştırın

PDF Figürleri Notlama Analizi Python’da

PDF Bağlantı Notlarını Python’da Nasıl Ayrıştırılır

Sonuç

Ayrıca Bakınız

Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi#

Kurulum & Ayar#

Metin Çıkarma: Python’da PDF Ayrıştırma#

Tüm Sayfalardan PDF’de Metin Analizi Yapmak için Python’da#

PDF dosyasının tüm sayfalarından metin çıkarmak için adımlar:#

Belirli Bir Sayfadan PDF’den Metin Ayrıştırma#

Belirli Bir Bölgedeki PDF’den Metin Parçala#

Belirli Bir Sayfa Bölgesinden Metin Çıkartma Adımları#

Çok Sütunlu PDF’lerden Metin Çıkartma#

Python’da Çok Sütunlu PDF’den Metin Çıkartma Adımları#

Geliştirilmiş Metin Ayrıştırma ile ScaleFactor#

Belirli bir Sayfadan Ölçek Faktörü ile Metin Çıkartma Adımları#

PDF’deki Metni Ayrıştır: Alternatif Yaklaşım#

PDF’den Python’da Tabloları Nasıl Ayrıştırılır#

PDF’den Python’da Tablo Parse Etme Adımları#

PDF Meta Verilerini Ayrıştır: Python’da PDF Dosya Bilgilerini Al#

PDF Meta Verilerini Ayrıştırma Adımları#

PDF Dosyasından Görüntüleri Ayrıştırma Python Kullanarak#

PDF’den Görüntüleri Ayrıştırmak için Python’da Adımlar#

PDF Notasyonlarını Python’da Nasıl Ayrıştırılır#

PDF’den Python’da Metin Açıklamaları Ayrıştırma#

PDF’den Metin Notlarını Ayrıştırma Adımları#

PDF’den Vurgulanan Metni Python ile Ayrıştırın#

PDF Figürleri Notlama Analizi Python’da#

PDF Bağlantı Notlarını Python’da Nasıl Ayrıştırılır#

Sonuç#

Ayrıca Bakınız#

Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi

Kurulum & Ayar

Metin Çıkarma: Python’da PDF Ayrıştırma

Tüm Sayfalardan PDF’de Metin Analizi Yapmak için Python’da

PDF dosyasının tüm sayfalarından metin çıkarmak için adımlar:

Belirli Bir Sayfadan PDF’den Metin Ayrıştırma

Belirli Bir Bölgedeki PDF’den Metin Parçala

Belirli Bir Sayfa Bölgesinden Metin Çıkartma Adımları

Çok Sütunlu PDF’lerden Metin Çıkartma

Python’da Çok Sütunlu PDF’den Metin Çıkartma Adımları

Geliştirilmiş Metin Ayrıştırma ile ScaleFactor

Belirli bir Sayfadan Ölçek Faktörü ile Metin Çıkartma Adımları

PDF’deki Metni Ayrıştır: Alternatif Yaklaşım

PDF’den Python’da Tabloları Nasıl Ayrıştırılır

PDF’den Python’da Tablo Parse Etme Adımları

PDF Meta Verilerini Ayrıştır: Python’da PDF Dosya Bilgilerini Al

PDF Meta Verilerini Ayrıştırma Adımları

PDF Dosyasından Görüntüleri Ayrıştırma Python Kullanarak

PDF’den Görüntüleri Ayrıştırmak için Python’da Adımlar

PDF Notasyonlarını Python’da Nasıl Ayrıştırılır

PDF’den Python’da Metin Açıklamaları Ayrıştırma

PDF’den Metin Notlarını Ayrıştırma Adımları

PDF’den Vurgulanan Metni Python ile Ayrıştırın

PDF Figürleri Notlama Analizi Python’da

PDF Bağlantı Notlarını Python’da Nasıl Ayrıştırılır

Sonuç

Ayrıca Bakınız