Pearson ve Spearman korelasyon katsayısı, iki değişken arasındaki bağlantıyı ölçmek için kullanılan yöntemlerdir. Ancak bu iki yöntem arasında bazı farklılıklar bulunmaktadır.
Normal dağılımsa, Pearson korelasyon testi; Normal dağılım değilse, Spearman korelasyon testi yapılır
Pearson Korelasyon Katsayısı
Pearson korelasyon katsayısı, iki değişken arasındaki doğrusal bağıntıyı ölçer ve -1 ile 1 arasında değer alır. Bu katsayı, belli bir deney veya gözlem setindeki değişen oranlarının büyüklüğünü ölçer. Varsayımlara uyulduğunda ve doğrusal bir ilişki var olduğunda başarılı bir şekilde kullanılabilir. Pearson korelasyon katsayısı, özellikle sürekli veya normal olarak dağılmış veriler için kullanışlıdır.
Spearman Korelasyon Katsayısı
Spearman korelasyon katsayısı, iki değişken arasındaki monotonik bir ilişkiyi ölçer ve -1 ile 1 arasında değer alır. Pearson korelasyonunda olduğu gibi bir doğrusal ilişki varsayımına ihtiyaç duyulmaz. Spearman korelasyonu, özellikle verinin normal dağılım göstermediği zamanlarda veya yapısal bir ilişki yoksa, daha uygun bir seçimdir. Ayrıca sıralı veriler için de kullanışlıdır.
Bu nedenle, bir deney veya araştırma çalışması sırasında hangi korelasyon katsayısı yöntemi kullanılacağına karar vermek, veri seti ve değişkenlerin özellikleri göz önüne alınarak yapılmalıdır.
import pandas as pd
A = [1,2,3,4,5,6,7,8,9,10]
B = [36,37,38,39,40,41,42,43,43,44]
# Pandas DataFrame objesi hazırlayalım
df = pd.DataFrame({'A': A, 'B': B})
# Pearson Korelasyon katsayısı
corr = df['A'].corr(df['B'], method='pearson')
print(f"Pearson korelasyon katsayısı: {corr}")
#Spearman Korelasyon katsayısı
corr = df['A'].corr(df['B'], method='spearman')
print(f"Spearman korelasyon katsayısı: {corr}")
Pearson korelasyon katsayısı: 0.9939298702702971
Spearman korelasyon katsayısı: 0.996965091635306