CHAID, veri setindeki değişkenler arasındaki ilişkileri ki-kare testi kullanarak inceleyen ve buna göre karar ağacı (decision tree) oluşturan bir yöntemdir. Hem istatistik dünyasına ait hem de makine öğrenmesi içinde kullanılan bir araçtır.
Buradaki temel fikir şu:
- Bağımlı değişken (örneğin: hasta / sağlıklı) ile
- Bağımsız değişkenler (yaş, gelir, eğitim vs.)
arasındaki ilişkiyi test eder ve en anlamlı ayrımları bularak veriyi dallara ayırır. Bu süreçte kullanılan temel istatistiksel kavram: Ki-kare testi'dir.
Başka neler söylenebilir:
- CHAID, denetimli öğrenme (supervised learning) kapsamında kullanılır
- Özellikle sınıflandırma problemlerinde tercih edilir
- Ancak modern ML algoritmaları (Random Forest, XGBoost gibi) kadar “öğrenen” bir yapıya sahip değildir
- Bir karar ağacı yöntemidir
- Temeli istatistiksel testlere dayanır
- Makine öğrenmesi içinde kullanılır, ama saf ML algoritması değildir

