İlk olarak 1970'lerde Amerikan istatistikçi John Tukey tarafından ortaya atılan Keşifsel Veri Analizi (EDA: Exploratory Data Analysis), veri setlerini genellikle görsel yöntemlerle anlama , inceleme, özetleme ve analize hazır hale getirme işlemlerini kapsamaktadır.
Veri biliminde EDA çoğunlukla çeşitli görselleştirme yöntemlerini kullanarak temel özellikleri, yapıları ve ilişkileri keşfetmek için yapılır. ML algoritmalarını çalıştırmadan önce eksik gözlemleri ve aykırı değerleri saptama gibi veri önişleme adımlarını kapsadığı gibi değişkenlerin arasındaki ilişkileri bütüncül şekilde görmek ve buna bağlı olarak hipotezleri ortaya koymak amacıyla yürütülür.
Veri yapısındaki grupları ve ilişkileri keşfetmeyi, hipotezlerle ilgili varsayımları kontrol etmeyi sağlar. Böylece veriye uygun ML algoritmalarını belirlemeye yardımcı olur. Sonuç olarka EDA veriden bilgiye gidiş sürecinde yaygın olarak kullanılan keşifsel bir ön adım olarak görülebilir.
Kaynaklar
- Veri Biliminde R ile Veri Önişleme | Prof. Dr. Zeynel Cebeci