Dengesiz veri seti, farklı sınıflardaki gözlem sayısının eşit olmadığı sınıflandırma problemlerindeki durumları tanımlar. Gerçek dünya verilerinde, bu kategoriler neredeyse hiçbir zaman aynı sayıda değildir.
Dengesiz veri seti, sınıflar arasında çok farklı sayılarda örneklem içeren bir veri setidir. Bu durumda, az sayıda örneklem içeren sınıflar "azınlık sınıfları"((minority class)) olarak adlandırılırken, diğer sınıflar "çoğunluk sınıfları" olarak adlandırılır. Dengesiz veri setleri, makine öğrenimi modelleri için birçok zorluk oluşturabilir, çünkü az sayıda örneklem içeren sınıfların doğru şekilde sınıflandırılması zor olabilir. Bu nedenle, dengesiz veri setlerinde doğru sonuçlar elde etmek için özel teknikler gerekebilir.
Dengesiz veri setleri(imbalanced datasets) için kullanılabilecek bazı teknikler şunlardır:
- Alt örneklem alma (undersampling): Çoğunluk sınıflarından rastgele örnekler çıkartarak azınlık sınıfları ile orantılı hale getirilmesi sağlanır.
- Arttırılmış örneklem (oversampling): Azınlık sınıflarından örneklerin kopyalanması veya sentetik veri üretimi gibi tekniklerle azınlık sınıflarının örneklem sayısı çoğaltılır.
- Sentetik örneklem üretimi: Azınlık sınıflarında bulunan örnekleri kullanarak yeni örneklerin üretilmesi yöntemidir. Bu yöntem özellikle az sayıda örneklem içeren sınıfların sayısını artırmak için kullanılır.
- Sınıf ağırlıklarının dengelenmesi: Makine öğrenimi algoritmalarında kullanılan sınıf ağırlıkları, azınlık sınıflarına daha yüksek ağırlık vererek modelin bu sınıfları daha iyi öğrenmesini sağlar.
- Hiyerarşik sınıflandırma: Sınıfların birbirine benzer olanlar bir arada ele alınır ve belli bir düzeye kadar bölümlere ayrılır.
Bu tekniklerden hangisinin kullanılacağı, veri setinin özelliklerine ve makine öğrenimi modelinin türüne göre değişebilir. Ayrıca bu tekniklerin tek tek veya bir arada kullanılarak sonuçların daha iyi olabileceği unutulmamalıdır.