Bilişim dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

t-SNE (t-Distributed Stochastic Neighbor Embedding)

Makine öğrenmesinde t-SNE (açılımı: t-Distributed Stochastic Neighbor Embedding) yüksek boyutlu verileri 2D veya 3D gibi daha düşük boyutlara indirgemek için kullanılan, özellikle veri görselleştirme amacıyla tercih edilen güçlü bir boyut indirgeme yöntemidir. t-SNE, 2008 yılında Laurens van der Maaten ve Geoffrey Hinton tarafından geliştirilmiş bir algoritmadır.

Nasıl Çalışır?

  1. Yüksek boyutlu uzayda her bir veri noktası etrafında bir olasılık dağılımı oluşturulur (yakın komşulara yüksek olasılık verilir).
  2. Bu benzerlik bilgisi çiftler arasındaki benzerlik ölçüleri olarak tutulur.
  3. Daha sonra, düşük boyutlu bir uzayda (örneğin 2D) benzer bir dağılım oluşturulmaya çalışılır.
  4. Aradaki farkı minimize etmek için Kullback-Leibler divergence (KL divergence) adı verilen bir maliyet fonksiyonu kullanılır.
  5. Bu maliyet fonksiyonu, benzerlik yapılarını koruyacak şekilde düşük boyutlu yerleştirme yapar.

Neden Kullanılır?

  1. Yüksek boyutlu verilerin (örneğin 50, 100, 300 boyutlu) daha iyi anlaşılması ve görselleştirilmesi için.
  2. Kümeleme sonuçlarını 2 boyutlu grafikle yorumlamak için.
  3. Görselleştirme yoluyla anlamlı yapılar, gruplar, anomaliler veya aykırı değerleri tespit etmek için.

Nerelerde Kullanılır?

  1. Görüntü sınıflandırma sonrası özellik haritalarını incelemek (örneğin CNN son katman çıkışları)
  2. Doğal dil işleme (NLP) çalışmalarında kelime gömme (word embedding) vektörlerini görselleştirmek
  3. K-means, DBSCAN, GMM gibi kümeleme yöntemlerinin sonuçlarını anlamak
  4. Anomali tespiti için görsel analiz

Özetle: t-SNE, yüksek boyutlu verilerin düşük boyutlu uzayda görselleştirilmesi için kullanılan, benzerlikleri korumaya çalışan güçlü bir non-lineer boyut indirgeme algoritmasıdır.

PCA vs t-SNE: Temel Farklar

Özellik PCA t-SNE
Amaç Boyut indirirken varyansı korumak Boyut indirirken benzerlik yapısını korumak
Tür Doğrusal (Linear) boyut indirgeme Doğrusal olmayan (Non-linear) boyut indirgeme
Yöntem Özdeğer (eigenvalue) ve özvektör (eigenvector) analizi Olasılıklı komşuluk benzerliği ve KL divergence minimizasyonu
Çıkış Bileşenler orijinal verinin lineer birleşimi Yeni bir uzayda göreli benzerliklere göre konumlandırma
Hız Çok hızlı, büyük verilerde bile kolayca çalışır Yavaş, özellikle büyük veri kümelerinde maliyetli
Tutarlılık Sonuçlar tekrar edilebilir, kararlıdır Sonuçlar rastgele başlatmaya göre değişebilir
Uygulama Veri ön işleme, modelleme öncesi boyut indirgeme Veri görselleştirme için en uygun yöntem
Yorumlanabilirlik Bileşenler yorumlanabilir (PC1: en çok varyans vs.) Bileşenler yorumlanamaz (görsellik amaçlı)

Ne zaman hangisini kullanmalı?

Veri görselleştirme ve veri içi gizli kümeleri keşfetmek için t-SNE kullanılır. Model eğitimi öncesi boyut indirgeme ve Bileşenleri yorumlamak istiyorsan PCA kullanabilirsin.

UMAP

Kaynaklar

  1. https://www.instagram.com/p/DZvB_ZBl5-F/?igsh=MXBndjVoc2luMm4zYw%3D%3D
t-SNE
0 Beğeni
Makine Öğrenmesi
Önceki Yazı

SQL to Python

31 Tem. 2025 tarihinde yayınlandı.
Sonraki Yazı

QGIS

31 Tem. 2025 tarihinde yayınlandı.
arrow