t-SNE (t-Distributed Stochastic Neighbor Embedding)

Makine öğrenmesinde t-SNE (açılımı: t-Distributed Stochastic Neighbor Embedding) yüksek boyutlu verileri 2D veya 3D gibi daha düşük boyutlara indirgemek için kullanılan, özellikle veri görselleştirme amacıyla tercih edilen güçlü bir boyut indirgeme yöntemidir. t-SNE, 2008 yılında Laurens van der Maaten ve Geoffrey Hinton tarafından geliştirilmiş bir algoritmadır.

Nasıl Çalışır?

Yüksek boyutlu uzayda her bir veri noktası etrafında bir olasılık dağılımı oluşturulur (yakın komşulara yüksek olasılık verilir).
Bu benzerlik bilgisi çiftler arasındaki benzerlik ölçüleri olarak tutulur.
Daha sonra, düşük boyutlu bir uzayda (örneğin 2D) benzer bir dağılım oluşturulmaya çalışılır.
Aradaki farkı minimize etmek için Kullback-Leibler divergence (KL divergence) adı verilen bir maliyet fonksiyonu kullanılır.
Bu maliyet fonksiyonu, benzerlik yapılarını koruyacak şekilde düşük boyutlu yerleştirme yapar.

Neden Kullanılır?

Yüksek boyutlu verilerin (örneğin 50, 100, 300 boyutlu) daha iyi anlaşılması ve görselleştirilmesi için.
Kümeleme sonuçlarını 2 boyutlu grafikle yorumlamak için.
Görselleştirme yoluyla anlamlı yapılar, gruplar, anomaliler veya aykırı değerleri tespit etmek için.

Nerelerde Kullanılır?

Görüntü sınıflandırma sonrası özellik haritalarını incelemek (örneğin CNN son katman çıkışları)
Doğal dil işleme (NLP) çalışmalarında kelime gömme (word embedding) vektörlerini görselleştirmek
K-means, DBSCAN, GMM gibi kümeleme yöntemlerinin sonuçlarını anlamak
Anomali tespiti için görsel analiz

Özetle: t-SNE, yüksek boyutlu verilerin düşük boyutlu uzayda görselleştirilmesi için kullanılan, benzerlikleri korumaya çalışan güçlü bir non-lineer boyut indirgeme algoritmasıdır.

PCA vs t-SNE: Temel Farklar

Özellik	PCA	t-SNE
Amaç	Boyut indirirken varyansı korumak	Boyut indirirken benzerlik yapısını korumak
Tür	Doğrusal (Linear) boyut indirgeme	Doğrusal olmayan (Non-linear) boyut indirgeme
Yöntem	Özdeğer (eigenvalue) ve özvektör (eigenvector) analizi	Olasılıklı komşuluk benzerliği ve KL divergence minimizasyonu
Çıkış	Bileşenler orijinal verinin lineer birleşimi	Yeni bir uzayda göreli benzerliklere göre konumlandırma
Hız	Çok hızlı, büyük verilerde bile kolayca çalışır	Yavaş, özellikle büyük veri kümelerinde maliyetli
Tutarlılık	Sonuçlar tekrar edilebilir, kararlıdır	Sonuçlar rastgele başlatmaya göre değişebilir
Uygulama	Veri ön işleme, modelleme öncesi boyut indirgeme	Veri görselleştirme için en uygun yöntem
Yorumlanabilirlik	Bileşenler yorumlanabilir (PC1: en çok varyans vs.)	Bileşenler yorumlanamaz (görsellik amaçlı)

Ne zaman hangisini kullanmalı?

Veri görselleştirme ve veri içi gizli kümeleri keşfetmek için t-SNE kullanılır. Model eğitimi öncesi boyut indirgeme ve Bileşenleri yorumlamak istiyorsan PCA kullanabilirsin.

UMAP

Kaynaklar

https://www.instagram.com/p/DZvB_ZBl5-F/?igsh=MXBndjVoc2luMm4zYw%3D%3D

t-SNE

Bilişim dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..