Deepseek’in teknik raporuna göre bu sistem, metin verilerini doğrudan işlemek yerine görüntü biçiminde analiz ediyor. Bu yaklaşım, işlem yükünü önemli ölçüde azaltıyor. Yeni OCR sistemi, metinleri 10 kata kadar sıkıştırırken bilgilerin yüzde 97’sini koruyabiliyor.
Bilindiği üzere büyük dil modelleri metni token’lar halinde temsil eder, her token birkaç karakter içerir. Kısa kelimeler genellikle tek bir token ile gösterilir (“the”, “it”), uzun kelimeler ise birden fazla token’a bölünebilir (“indivisible” → “ind”, “iv”, “isible”). Araştırmacılar milyonlarca token’ı aşan uzun belgeleri ve konuşmaları işleyebilen modeller geliştirmek için çalışıyor. Bu sayede bağlam penceresini geniş tutabiliyorlar. Ancak aynı anda işlenebilen token sayısı arttıkça hesaplama maliyetleri de ona göre artış gösteriyor. Dolayısıyla büyük token kapasitesi uzun belgelerde bile modelin belleğinin dolmamasını sağlar ama maliyeti artırır. Deepseek’in OCR çözümü ise çok uzun içerikleri bir görselmiş gibi işliyor. Bu sayede içerikler esasında pikseller olarak görülmüş oluyor.
Uzun yazıları pikselleri haline görüyor
Günde 33 milyon sayfa işliyor
Gerçek dünya kullanımında ise Deepseek OCR oldukça yüksek bir işlem kapasitesine ulaşıyor. Sistem, tek bir Nvidia A100 GPU üzerinde günde 200.000 sayfadan fazla belgeyi işleyebiliyor. 20 sunucuda, her biri sekiz A100 GPU barındırdığında bu kapasite günde 33 milyon sayfaya çıkıyor. Bu hız, yeni yapay zeka modelleri için eğitim verisi üretimini büyük ölçüde kolaylaştırma potansiyeli taşıyor. Modelin hem kod hem de model ağırlıkları halka açık durumda. Kaynakça kısmından erişebilirsiniz.
Kaynakça https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input https://github.com/deepseek-ai/DeepSeek-OCR Bu haberi ve diğer DH içeriklerini, gelişmiş mobil uygulamamızı kullanarak görüntüleyin: