Vision Transformer (ViT), görüntü işleme görevlerinde kullanılan ve klasik konvolüsyonel sinir ağları (CNN) yerine Transformer mimarisine dayanan bir derin öğrenme modelidir.
Vision Transformer (ViT), giriş görüntüsünü sabit boyutlu küçük yama (patch) bloklarına ayırarak her yamanın doğrusal olarak gömülen temsillerini bir dizi olarak işler. Bu diziler, NLP'den uyarlanan self-attention temelli Transformer blokları aracılığıyla analiz edilerek, sınıflandırma gibi görsel görevlerde kullanılır.
- CNN değildir.
- ViT, Transformer mimarisi üzerine kurulu bir görüntü işleme modelidir.
- Görüntüyü küçük parçalara ("patch") ayırır ve bu parçaları dizi (sequence) gibi işler; tıpkı doğal dil işleme (NLP) modellerindeki kelime dizileri gibi.
- Bu yönüyle, konvolüsyon (convolution) işlemi içermez; yani klasik CNN'den tamamen farklıdır.
ViT Nasıl Çalışır?
- Görüntü parçalara (patches) ayrılır: Örneğin, 224×224 piksellik bir görüntü 16×16 boyutunda küçük parçalara bölünür → toplamda 196 adet patch olur.
- Her patch bir vektöre dönüştürülür (embedding).
- Pozisyon bilgisi (position encoding) eklenir → çünkü Transformer, konum bilgisi taşımadığı için her patch'in yeri önemlidir.
- Bu vektör dizisi, Transformer encoder katmanlarına verilir.
- Sonuçta, belirli bir [CLS] sınıflandırma token’ı, görüntünün temsilini taşır ve sınıflandırma başlığına yönlendirilir.