
PDF’yi PDF ayrıştırmak, bir PDF dosyasından yapılandırılmış veya yapılandırılmamış verileri çıkarmak anlamına gelir. PDF’lerin karmaşık yapısı nedeniyle bu zorlayıcı olabilir. Düz metin veya JSON ve XML gibi yapılandırılmış formatların aksine, PDF’ler içeriği her zaman lineer bir sırayı takip etmeyen bir şekilde depolar. Metin, tablolar, görseller ve meta verileri çıkarmak, güvenilir, doğru ve verimli bir Python PDF ayrıştırıcı kütüphanesi gerektirir. Bu makalede, Aspose.PDF for Python kullanarak Python’da PDF’yi nasıl ayrıştıracağımızı öğreneceğiz. Bu kılavuzun sonunda, Python’da PDF belgelerinden met
Bu makale aşağıdaki konuları kapsamaktadır:
- Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi
- PDF’yi Ayrıştırma ve Metin Çıkarma Python’da
- PDF’den Tablo Nasıl Ayrıştırılır Python’da
- PDF Meta Verilerini Çözümle: Python’da PDF Dosya Bilgilerini Alın
- PDF’den Python ile Resimlerin Ayrıştırılması
- PDF Notlarını Python’da Nasıl Ayrıştırılır
Aspose.PDF: En İyi Python PDF Ayrıştırıcı Kütüphanesi
Aspose.PDF for Python günümüzde mevcut olan en iyi Python PDF ayrıştırma kütüphanelerinden biridir. Yüksek doğruluk sunar, yapılandırılmış veri çıkarımını destekler ve hatta OCR desteği ile taranmış PDF’lerle çalışır.
Aspose.PDF, Python PDF ayrıştırma kütüphaneleri arasında birkaç neden için öne çıkıyor:
- Yüksek Hassasiyet: Metin ve tabloları hassasiyetle çıkarır.
- Yapılandırılmış Veriler için Destek: Tablo, resim ve meta verilerle çalışır.
- No External Dependencies: Hafif, kendi içinde barındıran bir kütüphane.
- Birden Fazla Çıktı Formatı: PDF’leri metin, XLSX, DOCX, HTML ve resim formatlarına dönüştür.
- Güvenlik ve Güvenilirlik: Karmaşık PDF yapılarıyla veri bozulmadan başa çıkar.
Karşılaştırıldığında açık kaynak alternatifleri, Aspose.PDF daha sağlam ve özellik açısından zengin bir çözüm sunarak, kurumsal uygulamalar ve belge otomasyon sistemleri için ideal hale getiriyor.
Kurulum & Ayar
Aspose.PDF için Python yüklemek basittir. Bunu releases adresinden indirebilir veya aşağıdaki pip komutunu çalıştırabilirsiniz:
pip install aspose-pdf
Aspose.PDF’yi Python uygulamanızda kullanmaya başlamak için gerekli modülü içe aktarın:
import aspose.pdf as ap
Metin Çıkarma: Python’da PDF Ayrıştırma
PDF’den metin ayıklamak, Python PDF ayrıştırıcı kütüphanelerinin temel özelliklerinden biridir. Bir PDF belgesinin tüm sayfalarından veya belirli bir sayfasından veya bir bölgesinden metin çıkarabiliriz. Önümüzdeki bölümlerde şunları öğreneceğiz:
- PDF’deki Tüm Sayfalardan Metin Ayıklama Python’da
- PDF’deki Belirli Bir Sayfadan Metin Ayrıştırma
- Belirli Bir Bölgeden PDF’den Metin Ayrıştırma
- Çok Sütunlu PDF’lerden Metin Çıkarma
- Ölçek Faktörü ile Geliştirilmiş Metin Ayrıştırma
- PDF’deki Metni Ayıklamak: Alternatif Yaklaşım
Tüm Sayfalardan PDF’de Metin Analizi Yapmak için Python’da
Aspose.PDF for Python, PDF belgelerinden metin çıkarmak için Document
ve TextAbsorber
sınıflarını kullanarak verimli bir yol sunar. Document
sınıfı PDF dosyasını yüklemek için kullanılırken, TextAbsorber
sınıfı tüm sayfalardan metin içeriğini çıkarmaktan sorumludur. accept()
yöntemi her sayfayı işler ve metni çıkarır; bu metin daha sonra gerektiğinde saklanabilir veya görüntülenebilir.
PDF dosyasının tüm sayfalarından metin çıkarmak için adımlar:
- PDF belgesini
Document
sınıfını kullanarak yükleyin. TextAbsorber
sınıfının bir örneğini oluşturarak metin çıkarımını yönetin.pages
koleksiyonundaaccept()
metodunu çağırın,TextAbsorber
‘ın tüm sayfaları işlemesine izin verin.TextAbsorber
örneğinintext
özelliğini kullanarak çıkarılan metni alın.- Print the extracted text.
Aşağıdaki kod örneği, Python’da bir PDF’nin tüm sayfalarındaki metni nasıl ayrıştıracağınızı göstermektedir.
# Bu kod örneği, Python'da bir PDF belgesinin tüm sayfalarından metin çıkarmayı nasıl yapacağınızı göstermektedir.
import aspose.pdf as ap
# Open PDF document
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Tüm sayfaları işlemek için accept yöntemini çağırın.
document.pages.accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Dosya yolunu tanımlayın
file_path = "extracted-text.txt"
# Dosyayı yazma modunda açın ve çıkartılan metni yazın
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Belirli Bir Sayfadan PDF’den Metin Ayrıştırma
Aynı yaklaşımı hafifçe değiştirerek bir PDF belgesinin belirli bir sayfasından metin de çıkarabiliriz. Tüm belgeyi işlemek yerine, yalnızca Document
nesnesinin istenen sayfasında accept()
yöntemini çağırmanız gerekir. Sayfa numarasını indeksini kullanarak belirtin ve Aspose.PDF yalnızca o sayfadan metin çıkartacaktır. Bu yöntem, yalnızca belirli bir bölümden veri almanız gereken büyük PDF’lerle çalışırken verimlilik ve performansı artırır.
Aşağıdaki kod örneği, Python’da bir PDF’nin belirli bir sayfasından metni nasıl ayrıştıracağınızı göstermektedir.
# Bu kod örneği, Python'da bir PDF belgesinin belirli bir sayfasından metin çıkarmanın nasıl yapılacağını göstermektedir.
import aspose.pdf as ap
# PDF belgesini açın
document = ap.Document("AddText.pdf")
# Create text absorber
text_absorber = ap.text.TextAbsorber()
# Tüm sayfaları işlemek için accept yöntemini çağırın.
document.pages[1].accept(text_absorber)
# Retrieve the extracted text
extracted_text = text_absorber.text
# Dosya yolunu tanımlayın
file_path = "extracted-text.txt"
# Dosyayı yazma modunda açın ve çıkarılan metni yazın
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Belirli Bir Bölgedeki PDF’den Metin Parçala
Bazen, bir PDF sayfasının belirli bir bölümünden metin çıkarmamız gerekebilir; tüm belgeden içerik almak yerine. Belirli bir alanı hedeflemek için TextSearchOptions
‘ın Rectangle
özelliğini kullanın. Bu özellik, istenen alanın koordinatlarını tanımlayan bir Rectangle
nesnesi alır. Bu sınırı belirleyerek, yalnızca seçilen alandan metin çıkarabiliriz; sayfanın geri kalan içeriğini göz ardı edebiliriz.
Belirli Bir Sayfa Bölgesinden Metin Çıkartma Adımları
- PDF belgesini
Document
sınıfını kullanarak yükleyin. TextAbsorber
sınıfının bir örneğini oluşturun ve belge içindeki metni yakalayın.- Hedef bölgeyi, metin almak için alanı belirten
TextSearchOptions.Rectangle
kullanarak tanımlayın. - Belirli bir sayfada metin çıkarmak için, seçilen sayfadaki
accept()
yöntemini çağırın. TextAbsorber
‘inText
özelliğinden çıkarılan metni al.- Process the output as needed.
Aşağıdaki kod örneği, Python’da bir PDF sayfasının belirli bir bölgesinden metni nasıl ayrıştıracağınızı göstermektedir.
# Bu kod örneği, Python kullanarak bir PDF belgesindeki belirli bir bölgeden metin çıkarmayı göstermektedir.
import aspose.pdf as ap
# PDF belgesini açın
document = ap.Document("sample.pdf")
# TextAbsorber nesnesi oluşturun, metin çıkarmak için.
absorber = ap.text.TextAbsorber()
absorber.text_search_options.limit_to_page_bounds = True
absorber.text_search_options.rectangle = ap.Rectangle(100, 200, 250, 350, True)
# Absorberin ilk sayfa için kabul edin.
document.pages[1].accept(absorber)
# Get the extracted text
extracted_text = absorber.text
# Dosya yolunu tanımlayın
file_path = "extracted-text.txt"
# Dosyayı yazma modunda açın ve çıkarılan metni yazın
with open(file_path, "w", encoding="utf-8") as tw:
tw.write(extracted_text + "\n") # Write the extracted text with a newline
Bu yaklaşım, metni tablo hücrelerinden, form alanlarından veya bir sayfanın herhangi bir tanımlı bölümünden hassas bir şekilde çıkarmanıza olanak tanır, bu da onu belge otomasyonu ve veri analizi için ideal hale getirir.
Çok Sütunlu PDF’lerden Metin Çıkartma
PDF belgeleri genellikle metin, resimler, notlar, ekler ve grafikler gibi unsurların bir karışımını içerir. Çok sütunlu PDF’lerle çalışırken, orijinal düzeni korurken metin çıkarmak zor olabilir.
Aspose.PDF for Python, bu süreci basitleştirerek geliştiricilerin metin özelliklerini çıkarmadan önce değiştirmesine olanak tanır. Yazı tipi boyutlarını ayarlayarak ve ardından metni çıkararak, daha temiz ve daha yapılandırılmış bir çıktı elde edebilirsiniz. Aşağıdaki adımlar, çok sütunlu PDF’lerden doğru metin çıkarımı uygulamak için bu yöntemi nasıl uygulayacağınızı göstermektedir.
Python’da Çok Sütunlu PDF’den Metin Çıkartma Adımları
- PDF belgesini
Document
sınıfını kullanarak yükleyin. TextFragmentAbsorber
örneğini oluşturun ve belgedeki bireysel metin parçalarını bulup çıkarmak için kullanın.- Tüm tespit edilen metin parçalarını alıp, çıkartım doğruluğunu artırmak için yazı tipini %70 oranında küçültün.
- Değiştirilmiş belgeyi, ara bir dosya kaydetmemek için bellek akışında saklayın.
- Hafıza akışından PDF’yi yükleyin ve ayarlanmış metni işleyin.
TextAbsorber
kullanarak değiştirilmiş belgede yapılandırılmış metni alın.- Save the extracted text to a
.txt
file for further use.
Aşağıdaki kod örneği, düzeni koruyarak çok sütunlu bir PDF’den metin nasıl çıkarılacağını göstermektedir.
# Bu kod örneği, Python'da çok sütunlu bir PDF'den metin nasıl çıkarılacağını göstermektedir.
import io
import aspose.pdf as ap
# Açık PDF belgesi
document = ap.Document("multi-column-sample.pdf")
# TextFragmentAbsorber nesnesi oluşturun ve metni çıkarın.
text_fragment_absorber = ap.text.TextFragmentAbsorber()
# İlk sayfa için absorbanı kabul etin.
document.pages.accept(text_fragment_absorber)
# Çıkarılan metin parçalarının koleksiyonunu alın
text_fragment_collection = text_fragment_absorber.text_fragments
# Yazı çıkarımını geliştirmek için font boyutunu en az %70 azaltın.
for text_fragment in text_fragment_collection:
text_fragment.text_state.font_size *= 0.7
# Değiştirilmiş belgeyi bellekteki bir akışa kaydet.
source_stream = io.BytesIO()
document.save(source_stream)
# Hafıza akışından belgeyi yeniden yükleyin
source_stream.seek(0)
dest_document = ap.Document(source_stream)
# TextAbsorber'ı güncellenmiş metni çıkarmak için başlatın
text_absorber = ap.text.TextAbsorber()
dest_document.pages.accept(text_absorber)
extracted_text = text_absorber.text
# Çıkarılan metni bir dosyaya kaydedin
with open("ExtractColumnsText_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
Bu yöntem, çok sütunlu PDF’lerden çıkarılan metnin, mümkün olduğunca orijinal düzenini korumasını sağlar.
Geliştirilmiş Metin Ayrıştırma ile ScaleFactor
Aspose.PDF for Python, PDF’leri analiz etmenize ve belirli bir sayfadan metin çıkarmanıza olanak tanır; metin biçimlendirme modu ve ölçek faktörü gibi gelişmiş metin çıkarma seçenekleri ile. Bu seçenekler, çok sütunlu belgeler de dahil olmak üzere karmaşık PDF’lerden metni doğru bir şekilde çıkarmaya yardımcı olur.
ScaleFactor seçeneğini kullanarak, iç metin ızgarasını daha iyi bir doğruluk için ince ayar yapabiliriz. 1 ile 0.1 arasındaki bir ölçek faktörü, font küçültmesi gibi çalışır ve çıkarılan metnin doğru bir şekilde hizalanmasına yardımcı olur. 0.1 ile -0.1 arasındaki değerler sıfır olarak değerlendirilir ve sayfadaki en çok kullanılan fontun ortalama glif genişliğine dayalı otomatik ölçekleme sağlar. Hiçbir ScaleFactor ayarlanmamışsa, varsayılan 1.0 uygulanır ve bu da ölçeklendirme ayarlarının yapılmadığını garanti eder. Büyük ölçekli metin çıkarımı için otomatik ölçekleme (ScaleFactor = 0
) önerilmektedir, ancak manuel olarak ScaleFactor = 0.5 ayarlamak, karmaşık düzenler için sonuçları iyileştirebilir.
Belirli bir Sayfadan Ölçek Faktörü ile Metin Çıkartma Adımları
- PDF belgesini
Document
sınıfını kullanarak yükleyin. TextAbsorber
örneğini oluşturun ve metni çıkartın.TextExtractionOptions
‘ı doğru çıkarım için SAF biçimlendirme moduna ayarlayın.scalefactor
değerini çok sütunlu PDF’lerde metin tanımayı optimize etmek için ayarlayın.pages
koleksiyonunda metni çıkarmak içinaccept()
çağrısı yapın.- Çıkarılan içeriği bir metin dosyasına kaydedin.
# Bu kod örneği, Python kullanarak bir PDF belgesindeki belirli bir alanından metin çıkarmanın nasıl yapılacağını göstermektedir.
import aspose.pdf as ap
# PDF belgesini açın
document = ap.Document("sample.pdf")
# TextAbsorber'ı metin çıkarım seçenekleri ile başlatın
text_absorber = ap.text.TextAbsorber()
# Ayrıştırma seçeneklerini ayarlayın
extraction_options = ap.text.TextExtractionOptions(ap.text.TextExtractionOptions.TextFormattingMode.PURE)
extraction_options.scale_factor = 0.5 # Adjusts text recognition for better column detection
text_absorber.extraction_options = extraction_options
# Belirtilen sayfadan metin çıkarın
document.pages.accept(text_absorber)
# Get extracted text
extracted_text = text_absorber.text
# Metin çıktısını bir dosyaya kaydet
with open("ExtractTextUsingScaleFactor_out.txt", "w", encoding="utf-8") as file:
file.write(extracted_text)
PDF’deki Metni Ayrıştır: Alternatif Yaklaşım
Aspose.PDF for Python ayrıca TextDevice
sınıfını kullanarak metin çıkarmanın alternatif bir yolunu sunmaktadır. Lütfen TextDevice kullanarak PDF’den metin çıkarma hakkında daha fazla bilgi edinin.
PDF’den Python’da Tabloları Nasıl Ayrıştırılır
PDF’lerden tabloları ayrıştırmak, veri analizi, otomasyon ve raporlama için esastır. PDF’ler genellikle yapılandırılmış veriyi tablo biçiminde içerir, bu da standart metin çıkarım yöntemlerini kullanarak elde etmeyi zorlaştırabilir. Neyse ki, Aspose.PDF for Python, yapılarını ve içeriklerini koruyarak yüksek doğrulukla tabloları çıkarmanın güçlü bir yolunu sağlar.
TableAbsorber
sınıfı, PDF sayfalarından tabloları tespit etmek ve çıkarmak için özel olarak tasarlanmıştır. Her sayfayı işler, tabloları tanımlar ve bireysel satırları ve hücreleri yapılarını koruyarak alır. Aşağıda, Aspose.PDF for Python kullanarak bir PDF belgesinden tabloları çıkarmak için adımlar verilmiştir.
PDF’den Python’da Tablo Parse Etme Adımları
- PDF dosyasını tablolar içeren
Document
sınıfını kullanarak yükleyin. - Belgenin
pages
koleksiyonunda döngü yaparak her sayfayı tek tek işleyin. TableAbsorber
sınıfının bir örneğini oluşturarak tabloları tespit edin ve çıkarın.visit()
metodunu çağırarak mevcut sayfadaki tabloları tanımlayın.- Çıkarılmış tablolar listesini yineleyin ve satırları ve hücreleri alın.
textfragments
‘ın her hücresine erişin ve metnisegments
özelliğini kullanarak çıkarın.- Verilen tablo verilerini daha fazla analiz için kaydedin veya konsolda görüntüleyin.
# Bu kod örneği, Python'da bir PDF belgesinden tabloları nasıl çıkaracağınızı göstermektedir.
import aspose.pdf as ap
# PDF dosyasını yükle
document = pdf.Document("sample.pdf")
# Tüm sayfaları işleyin
for page in document.pages:
# TableAbsorber nesnesini başlatın
absorber = ap.text.TableAbsorber()
# Geçerli sayfadaki tabloları tanımlayın
absorber.visit(page)
# Çıkarılan tablolarda döngü yapın
for table in absorber.table_list:
# Tablodaki tüm satırlarda yinele.
for row in table.row_list:
# Tüm sütunları sırada yineleyin.
for cell in row.cell_list:
# Fetch the text fragments
text_fragment_collection = cell.text_fragments
# Metin parçalarını yinele.
for fragment in text_fragment_collection:
# Print the text
print(fragment.text)
Bu adımları takip ederek, PDF’lerden tabloları verimli bir şekilde çıkarabilir, yapılandırılmış verileri işlemek ve analiz etmek daha kolay hale getirebilirsiniz.
PDF Meta Verilerini Ayrıştır: Python’da PDF Dosya Bilgilerini Al
PDF’lerle çalışırken, genellikle yazar, oluşturma tarihi, anahtar kelimeler ve başlık gibi meta verileri almak gerekir. Aspose.PDF for Python, Document
sınıfının Info
özelliği aracılığıyla DocumentInfo nesnesine erişim sağlayarak bunu kolaylaştırır. Bu, belge özelliklerini programlı olarak çıkarmanıza olanak tanır.
PDF Meta Verilerini Ayrıştırma Adımları
Document
sınıfını kullanarak istenen PDF dosyasını açın.info
özelliğini kullanarak DocumentInfo nesnesini al.- Belirli ayrıntılara, yazar, oluşturma tarihi, başlık, konu ve anahtar kelimeler gibi, erişin.
- Metadata’yı yazdırın veya daha fazla işleme için kaydedin.
Aşağıdaki Python betiği, bir PDF dosyasından temel ayrıntıları nasıl alıp göstereceğinizi göstermektedir:
# Bu kod örneği, Python'da dosya bilgilerini nasıl çıkaracağınızı göstermektedir.
import aspose.pdf as ap
# PDF belgesini yükleyin
document = ap.Document("Sample.pdf")
# Belgeleri geri al bilgi
doc_info = document.info
# Belge meta verilerini görüntüle
print(f"Author: {doc_info.author}")
print(f"Creation Date: {doc_info.creation_date}")
print(f"Keywords: {doc_info.keywords}")
print(f"Modify Date: {doc_info.mod_date}")
print(f"Subject: {doc_info.subject}")
print(f"Title: {doc_info.title}")
PDF Dosyasından Görüntüleri Ayrıştırma Python Kullanarak
PDF belgesini analiz edebilir ve belgede yer alan gömülü görüntüleri verimli bir şekilde alabiliriz. Belirli sayfalardan yüksek kaliteli görüntüler çıkarabilir ve bunları daha ileri kullanım için ayrı olarak kaydedebiliriz.
Her PDF sayfası, görüntülerini kaynaklar koleksiyonunda, özellikle XImage
koleksiyonu içinde saklar. Bir resmi çıkarmak için, istenen sayfaya erişin, Images
koleksiyonundan indeksini kullanarak resmi alın ve kaydedin.
PDF’den Görüntüleri Ayrıştırmak için Python’da Adımlar
- PDF dosyasını içeren bir resmi
Document
sınıfını kullanarak yükleyin. - Belirli bir sayfayı alınız, görüntü çekmek istediğiniz.
- Sayfanın
resources
koleksiyonundakiImages
koleksiyonuna erişin ve resim indisini belirtin. - Akışı kullanarak çıkarılan resmi kaydedin.
Aşağıdaki kod örneği, Python’da bir PDF’den resimleri nasıl ayrıştıracağını göstermektedir.
# Bu kod örneği, Python'da bir PDF'den resimleri nasıl çıkaracağınızı göstermektedir.
import aspose.pdf as ap
# Open document
document = ap.Document("Sample.pdf")
# Belirli bir resmi çıkar (ilk sayfadaki ilk resmi)
x_image = document.pages[1].resources.images[1]
# Çıktı resim yolunu tanımlayın
output_image_path = "OutputImage.jpg"
# Açılan resmi kaydedin
with open(output_image_path, "wb") as output_image:
output_image.write(x_image.to_stream().read())
Bu yöntem, PDF’lerden resim çıkarmanın kolay ve verimli bir yolunu sunarak kaliteyi korur. Aspose.PDF for Python ile, document processing gibi çeşitli uygulamalar için resim çıkarımını otomatikleştirebilirsiniz, veri arşivleme ve içerik analizi.
PDF Notasyonlarını Python’da Nasıl Ayrıştırılır
PDF’lerdeki anotasyonlar, vurgular, şekiller ve yapışkan notlar ekleyerek belge etkileşimini artırır. Her anotasyon türü belirli bir amacı yerine getirir ve Aspose.PDF for Python, bunları analiz veya işleme için kolayca çıkarma imkanı sağlar.
- PDF’den Metin Notlarını Ayrıştırma Python’da
- PDF’den Vurgulanan Metni Parçalama Python’da
- PDF Figürlerinin Anotasyonunu Python’da Ayrıştırma
- PDF Bağlantı Anotasyonlarını Python’da Nasıl Ayrıştırılır
PDF’den Python’da Metin Açıklamaları Ayrıştırma
PDF belgeleri genellikle bir sayfadaki belirli konumlara eklenmiş yorumlar veya notlar olarak hizmet eden metin anotasyonları içerir. Küçültüldüğünde, bu anotasyonlar simge olarak görünür ve genişletildiğinde, bir açılır pencerede metin gösterir. Bir PDF’deki her sayfanın kendine ait Anotasyonlar koleksiyonu vardır, bu koleksiyon o sayfaya özgü tüm anotasyonları tutar. Aspose.PDF for Python’u kullanarak, bir PDF dosyasından metin anotasyonlarını verimli bir şekilde çıkarabilirsiniz.
PDF’den Metin Notlarını Ayrıştırma Adımları
Document
sınıfıyla PDF belgesini yükleyin.- Belirli bir sayfanın tüm notlarını almak için
annotations
özelliğini al. - Açıklamaları döngüye al ve
AnnotationType.TEXT
olanları filtrele. - İlgili bilgileri, örneğin anotasyon konumu (
rect
), daha fazla işleme veya görüntüleme için alın.
import aspose.pdf as ap
# PDF belgesini yükleyin
document = ap.Document("annotations.pdf")
# İlk sayfadaki tüm notları döngüye al.
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.TEXT:
# Yorum detaylarını yazdırın
print(f"Title: {annotation.full_name}")
print(f"Contents: {annotation.contents}")
print(f"Annotation Rectangle: {annotation.rect}")
Bu adımları izleyerek, PDF belgelerinden Python’da metin açıklamalarını verimli bir şekilde çıkarabilir ve işleyebilirsiniz.
PDF Metin Anotasyonu ile working with PDF Text Annotation in Python hakkında daha fazla bilgi edinmek için resmi kılavuzu ziyaret edin.
PDF’den Vurgulanan Metni Python ile Ayrıştırın
Birçok durumda, PDF’den yalnızca vurgulanan metni çıkarmanız gerekebilir, tüm içeriği değil. Önemli notları analiz ederken, ana noktaları özetlerken veya belge işlemeyi otomatikleştirirken, Aspose.PDF for Python, vurgulanan metni verimli bir şekilde almayı kolaylaştırır.
Vurgulama notları, önemli metin parçalarını işaretlemek için kullanılır ve genellikle incelemeler veya çalışma notları için kullanılır. HighlightAnnotation
sınıfını kullanarak vurgulanan metni ve özelliklerini, örneğin renk ve konum gibi, çıkarabilirsiniz.
PDF belgesindeki vurgulanan metin eklerini, daha önce bahsedilen adımları izleyerek ayrıştırabiliriz. Ancak, yalnızca adım 3’te AnnotationType.HIGHLIGHT
‘ı belirtmemiz gerekiyor.
Aşağıdaki örnek, bir PDF’den vurgulanan metni nasıl filtreleyeceğinizi ve çıkaracağınızı göstermektedir.
import aspose.pdf as ap
# PDF belgesini yükleyin
document = ap.Document("annotations.pdf")
# İlk sayfadaki tüm notlara göz atın
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.HIGHLIGHT:
# Yorum ayrıntılarını yazdırın
print(f"Title: {annotation.full_name}")
print(f"Annotation Rectangle: {annotation.rect}")
Learn more about working with PDF Highlights Annotation in Python resmi kılavuzu ziyaret ederek.
PDF Figürleri Notlama Analizi Python’da
Şekil notları, vurgulama veya açıklamalar için kullanılan şekiller, çizimler veya damgalar gibi grafik unsurları içerir. Bu notların çıkarılması, InkAnnotation
veya StampAnnotation
nesnelerinin tanımlanmasını ve bunların çizim yollarının veya görüntülerinin alınmasını gerektirir.
PDF belgesindeki çizgi anotasyonlarını ayrıştırmak için, daha önce belirtilen adımları izleyin. Tek gereken değişiklik, adım 3’te AnnotationType.LINE
belirtmektir.
Aşağıdaki örnek, bir PDF’deki satır anotasyonlarının nasıl ayrıştırılacağını Python kullanarak göstermektedir.
import aspose.pdf as ap
# PDF belgesini yükleyin
document = ap.Document("annotations.pdf")
# İlk sayfadaki tüm notları döngüye al.
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINE:
# Print annotation details
print(f"Annotation Rectangle: {annotation.rect}")
PDF Figürleri Notları ile Python’da çalışma hakkında daha fazla bilgi için working with PDF Figures Annotations in Python here.
PDF Bağlantı Notlarını Python’da Nasıl Ayrıştırılır
PDF’lerdeki bağlantı notları, kullanıcıların bir belgede sorunsuz bir şekilde gezinmesine, dış dosyaları açmasına veya PDF’den doğrudan web sayfalarına gitmesine olanak tanır. Bu köprüler, etkileşimi artırır ve ek bilgilere hızlı erişim sağlayarak kullanıcı deneyimini iyileştirir.
PDF’den bağlantı açıklamalarını çıkarmak için daha önceki adımları izlemeye devam edin, ancak 3. adımda AnnotationType.LINK
belirtmeyi unutmayın. Bu, yalnızca bağlantı açıklamalarının alınmasını sağlar.
Aşağıdaki kod örneği, Python kullanarak bir PDF’deki bağlantı açıklamalarını nasıl ayrıştıracağınızı göstermektedir.
import aspose.pdf as ap
# PDF belgesini yükle
document = ap.Document("annotations.pdf")
# İlk sayfadaki tüm notları döngüye al.
for annotation in document.pages[1].annotations:
if annotation.annotation_type == ap.annotations.AnnotationType.LINK:
# Yorum detaylarını yazdır
print(f"Annotation Rectangle: {annotation.rect}")
Aspose.PDF for Python’ı kullanarak, belgeleri dizinlemek veya navigasyonu geliştirmek gibi çeşitli kullanım durumları için bağlantı anotasyonlarını verimli bir şekilde çıkartıp manipüle edebilirsiniz.
Read the complete details on handling Link Annotations in PDFs here.
Sonuç
Aspose.PDF for Python, PDF’leri ayrıştırmak için güvenilir, verimli ve zengin özelliklere sahip bir çözüme ihtiyaç duyan geliştiriciler için en iyi Python PDF ayrıştırıcı kütüphanesidir. Metin, tablolar, görseller, meta veriler veya açıklamaları ayrıştırmanız gerekiyorsa, Aspose.PDF gerekli araçları sağlar.
Sağlanan kod örneklerini deneyin ve PDF’leri okumaya başlayarak Python’daki PDF okuma görevlerinizi basitleştirin!
Herhangi bir sorunuz varsa veya daha fazla yardıma ihtiyaç duyuyorsanız, lütfen free support forum üzerinden bizimle iletişime geçmekten çekinmeyin.