
1993 yılında Adobe tarafından geliştirilen PDF formatı, belgelerin her cihazda aynı görünmesini sağlama vaadiyle dijital dünyanın en kalıcı standartlarından biri haline geldi. Otuz yılı aşkın süredir kamu kurumlarından akademiye, hukuk bürolarından şirket arşivlerine kadar milyarlarca belge bu formatta üretiliyor. Ancak bugün aynı özellik, yapay zeka sistemleri için ciddi bir engele dönüşmüş durumda.
Sorunun temelinde basit ama kritik bir gerçek yatıyor. PDF, bir metin formatı değil, bir sayfa çizim talimatıdır.
HTML gibi formatlar metni mantıksal bir sırayla saklarken PDF, her harfi ve her öğeyi sayfa üzerindeki belirli koordinatlara yerleştirir. Yani dosya, “önce şu başlık gelir, ardından paragraf başlar” gibi yapısal bir hiyerarşi taşımaz. Bunun yerine “şu noktaya şu karakteri çiz” komutları içerir. İnsan gözü için kusursuz olan bu sistem, metni satır satır ve soldan sağa işlemeye alışkın büyük dil modelleri için karmaşık bir bulmacaya dönüşür.
Editoryal yapıyı göremiyorlar
Yapay zekaların PDF’lerde zorlanmasının en önemli nedeni editoryal yapıyı doğrudan görememeleri.
Bir insan için iki paragraf arasındaki boşluk yeni bir düşünceyi, girinti alt başlığı, büyük punto bir başlığı ifade eder. Ancak PDF dosyasında bu anlam katmanları açıkça işaretlenmez. Model, başlıkla gövde metnini, dipnotla ana paragrafı ya da çok kolonlu akademik makalelerdeki metin akışını ayırt etmekte zorlanabilir.
Bu durum pratikte ciddi hatalara yol açar. Çok kolonlu bir bilimsel makale soldan sağa düz okunursa anlamsız bir metin ortaya çıkar. Dipnotlar ana metne karışabilir. Tablolar satır ve sütun bütünlüğünü kaybedebilir. Sonuçta model yanlış özetler üretebilir veya eksik bağlamdan dolayı “halüsinasyon” olarak adlandırılan uydurma içerikler oluşturabilir ve oluşturuyor.
OCR her zaman çözüm değil
PDF içindeki metin bazen doğrudan seçilebilir değildir. Özellikle taranmış belgelerde metin aslında bir görüntüdür. Bu durumda devreye OCR (Optik Karakter Tanıma) girer. Ancak OCR araçları da sınırsız değildir.
Çok kolonlu sayfalar, karmaşık tablolar, grafikler, el yazıları, diyagramlar ve formlar OCR sistemlerini zorlar. Yapay zeka asistanları PDF’yi işlerken birden fazla aracı art arda kullanabilir. Kimi zaman görsel-dil modelleriyle yeniden okumaya çalışır, kimi zaman metni özetlemeye yönelir. Bu süreç hem hesaplama maliyetini artırır hem de tutarsız sonuçlar doğurabilir.
Üstelik modeller tarihsel olarak PDF’ler üzerinde yoğun biçimde eğitilmedi. Oysa yüksek kaliteli içeriklerin önemli bir bölümü – akademik makaleler, ders kitapları, kamu raporları – PDF formatında saklanıyor. Son dönemde geliştiriciler bu açığı kapatmaya başladı.
PDF’yi çözmeye çalışan yeni modeller
Allen Institute for AI tarafından geliştirilen olmOCR adlı görsel-dil modeli yaklaşık 100 bin PDF üzerinde eğitildi. Amaç, başlıkları, tabloları ve sayfa düzenini daha doğru tespit edebilmekti. Benzer şekilde Hugging Face araştırmacıları milyarlarca PDF’den oluşan bir veri seti oluşturarak zorlu belgeleri işlemek üzere özelleştirilmiş modeller geliştirdi ve trilyonlarca token’ı model eğitimine kazandırdı. PDF çözümlemeye odaklanan Reducto ise çok aşamalı bir yaklaşım benimsiyor. Sistem önce sayfayı bölümlere ayırıyor. Eğer tablo tespit edilirse ayrı bir tablo modeli devreye giriyor, grafik algılanırsa eksen ve açıklamaları farklı modeller işliyor. Ardından görsel-dil modeli çıktıyı kontrol ederek hataları azaltmaya çalışıyor. Bu yöntem özellikle finans ve hukuk gibi yüksek doğruluk gerektiren alanlarda dikkat çekiyor.
Buna rağmen sorun tamamen çözülmüş değil. İç içe geçmiş PDF dosyaları, el yazısıyla düzenlenmiş belgeler, karmaşık yasal metinler ve alışılmadık tasarımlar halen modeller için ciddi sınamalar yaratıyor.
Sorun PDF’de mi, yapay zekada mı?
Bu noktada tartışma ikiye ayrılıyor. Bazı girişimler PDF’nin AI çağına uygun olmadığını savunuyor. İsrailli girişim Factify, büyük dil modelleriyle doğal biçimde çalışabilecek yeni bir belge formatı geliştirmeye odaklanmış durumda. Şirket, mevcut PDF yapısını kapalı ve verimsiz buluyor ve akıllı, bağlantılı belgeler için sıfırdan tasarım gerektiğini öne sürüyor.
Diğer tarafta ise PDF savunucuları var. PDF Association Başkanı Duff Johnson’a göre sorun formatta değil, araçlarda. PDF’nin temel gücü hangi cihazda, hangi tarihte açılırsa açılsın aynı görünümü koruması. Mühendislik şirketleri, hukuk büroları ve kamu kurumları için bu tutarlılık vazgeçilmez.
Gerçek dünyada ise tablo bu kadar net değil. En nihayetinde PDF, insan merkezli bir standart olarak tasarlandı. Büyük dil modelleri ise lineer metin akışı üzerinden eğitildi. Bugün yaşanan sorun, iki farklı tasarım felsefesinin çarpışmasından kaynaklanıyor. Kısacası yapay zekaların PDF okumakta zorlanmasının nedeni zekalarının yetersiz olması değil, metni temsil etme biçimi ile metni anlama biçimi arasındaki uyumsuzluk.