Kolmogorov-Smirnov sınaması: Revizyonlar arasındaki fark

[kontrol edilmiş revizyon][kontrol edilmiş revizyon]
İçerik silindi İçerik eklendi
Nebra (mesaj | katkılar)
Değişiklik özeti yok
Bilgi Bot (mesaj | katkılar)
k Yazım hataları ve genel düzenlemeler, değiştirildi: rasgele → rastgele
1. satır:
[[İstatistik]] bilim dalında, '''Kolmogorov-Smirnov (K-S) sınaması''' [[parametrik olmayan istatistik]] olup iki değişik problem için [[hipotez sınaması]] olarak kullanılır:
* ''Tek örneklem K-S sınaması'': Hedef, verilmiş olan bir deneysel olasılık dağılımı gösteren örneklem verilerinin, dağılım parametreleri tam olarak bilinen tam tanımlanmış bir teorik anakitle olasılık dağılımına uyum gösterip göstermediğini sınamak. Bu tip problemde ''sıfır hipotez Ho'' örneklem verilerin deneysel dağılımının tam tanımlanmış bir anakitle olasılık dağılımından gelmiş olduğudur.
* ''İki örneklem K-S sınaması'': Hedef, verilmis iki tane değişik deneysel olasılık dağılımı gösteren iki orneklem veri serisinin aynı tek bir teorik anakitle olasılık dağılımından gelip gelmediğini sınamak. Bu tip problemde ''sıfır hipotez Ho'' ise iki orneklem verilerin deneysel dağılımlarının tek bir anakitle olasılık dağılımindan gelmiş olduğudur.
 
''Tek örneklem K-S sınaması'' çok popüler olarak olarak bir [[normallik sınamaları|normallik sınaması]] olarak, yani örneklem verilerinin tanımlanmış bir anakitle normal olasılık dağılımına uyumluluk gösterip göstermemesini sınamak için kullanılır. Örneklem verileri standardize edilerek (yani her bir veri değerinden teorik anakitle olasılığı için verilmiş ortalama çıkartıp sonucu verilmiş teorik yığın [[varyans|varyansına]]ına bölerek) elde edilen normalize veriler [[standart normal dağılım]] ile karşılaştırılır. Fakat bu türlü dönüşüm yapmanın sınamanın gücünü azalttığı isbat edilmiştir. Bu taraflılığın düzeltilmesi [[Lilliefors sınaması]]nı ortaya çıkartır. Fakat, [[Anderson-Darling sınaması]] veya [[Shapiro-Wilk sınaması]] normallik sınaması olarak hem Lilliefors sınaması hem de K-S tek örneklem normallık sınamasından daha güçlüdür. K-S tek örneklem sınaması, gözlenen ve beklenen kümülatif frekans dağılış arasındaki mutlak farklılıklar dikkate alınarak geliştirilmiştir. Örneklem hacmi küçük olduğu için [[ki-kare sınaması]] uygulanamadığı durumlarda Kolmogorov-Simirnov testi kullanılabilir.
 
"İki örneklem K-S sınaması" hem genel olarak uygulanabilen hem de çok kullanışlı olan bir "parametrik olmayan sınama" yöntemidir çünkü bu sinama hem konum hem de dağılım şekline duyarlıdır ve bu türlü problem cozumu için popüler olarak kullanılır.
11. satır:
Bu test örneklem deneysel dağılım fonksiyonunun özelliklerine bağlıdır. n örneklem hacmi büyüklüğüde örneklem verilerinin; yani
:<math>(x_1,\dots,x_n)</math>
değerlerinin n tane birbirinden bağımsız ve reel değerli rasgelerastgele değişken olduğunu kabul edelim. Bu halde örnekleme deneysel dağılım fonksiyonu şöyle tanımlanabilir:
<math>F_n(x)={1 \over n}\sum_{i=1}^n \delta_{x_i\leq x}</math>
burada
21. satır:
2\sum_{r=1}^{+\infty} (-1)^{r-1}\exp(-2r^2c^2)
</math>
Eğer <math>c=1.36</math> ise <math>\alpha(c)</math> teriminin değeri <math>0.05</math> ne yakınsar. Dikkat edilirse sağa doğru limit <math>F</math>'ye dayanmadığı görülür.
 
'''Kolmogorov dağılımı''' şu rassal değişkenin dağılımıdır:
33. satır:
:<math>\sqrt{n}D_n\xrightarrow{n\to\infty}\sup_t |B(F(t))|</math>
 
burada ''B''(''t'') "Brown tipi köprü" olur.
 
Eğer sıfır hipotezinde verilen ''F'' sürekli ise
47. satır:
Bu testin asimptotik "istatistik gücü" 1e eşittir. Eğer ''F''(''x'') fonksiyonunun şekli veya parametreleri örneklem
:<math>(x_1,\dots,x_n)</math>
verileri ile bulunursa, yukarıda verilen kritik değerler uygun değildir. Bu hallerde Monte Carlo simulasyon yöntemi veya benzer sayısal yöntemler kullanılması gerekir. Ama bazı haller için özel tablolar kurulmuştur. Pearson ve Hartley (1957) Tablo 54de [[normal dağılım]] ve [[tekdüze (sürekli)|tekdüze dağılım]] için kritik değerleri ve test istatistiğini vermektedir.
 
== Örnek problemler ==
 
Örnek verilerini vermek ve K-S sınamalarını uygulamak için "[[R]]" adı altında hazırlanmış olan ve standart olarak uygulanan ve telif hakkı gerektirmeyen serbest kullanılma hakları verilmiş bir istatistik yazılım paketi kullanılacaktır.
 
=== Simulasyonla üretilen veriler ===
 
Önce üç değişik veri serisi üretilmiştir.<ref>'''R''' kullanılarak simulasyonla üç veri serisi üretme ve gereken sınamaların yapılıp ekranda sonuç alma için kaynak Fransizca Wikipedia maddesidir.</ref> İstenilen gözlem sayısında ve istenilen olasılık dağılımında, simulasyonla R istatistik paketi ozel simulasyon ile veri üretme komutası kullanılmıştır:
* X veri serisi için 50 gözlem üretilmiştir ve bunların (ortalaması 0 ve varyansı 1 olan) bir ''standart normal'' dağılıma sahip olarak (R yazılım paketi için ''X ← rnorm(50)'' komutası ile) simulasyonla elde edilmişlerdir.
* Y veri serisi için 40 gözlem ''standart normal'' dağılıma sahip olarak (R yazılım paketi icin ''Y ← rnorm(40)'' komutası ile) simulasyonla elde edilmişlerdir.
62. satır:
=== Tek örneklem Kolmogorov-Smirnov sınaması örnek problemleri ===
 
Örnek problem 1:</br />
Örneklem veri serilerinin nasıl ortaya çıktığının bilinmediğini düşünelim ve 50 gözlemli bir gerçek örneklem X veri serisi "(0-1) arasında sürekli tekdüze dağılım gösteren bir anakitle yığından gelmiş midir yoksa gelmemiş midir?" sorunu problem olsun. Bu soruna yanıt "tek örneklem Kolmogorov-Smirnov sınaması" ile bulunur:
 
Önce hipotezler verilir:</br />
H<sub>0</sub> : Bu n=50 örneklem serisi verilen U(0,1) (yani 0 ile 1 arasında sürekli tekdüze) dağılımlı bir anakitleden gelmektedir.
H<sub>1</sub> : Bu n=50 örneklem serisi verilen U(0,1) (yani 0 ile 1 arasında sürekli tekdüze) dağılımlı anakitleden gelmemektedir.
 
Bu sınama için alternatif hipotezde pozitif bir dağılım ifadesi bulunmaz ve anakitle dağılımının ne olmadığına dair negatif bir hipotezdir. Tek örneklem K-S sınaması iki-kuyruklu testtir.
 
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değerini bulmak için ''R'' paketine özel bir komuta kullanılır; bu komuta şudur: '''ks.test(X, "punif") '''. Bundan sonra kompüter programı hesaplar başlar ve bir çıktı sonucunu (İngilizce olarak) ekrana verir. Bunu şu tabloda özetliyelim:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
79. satır:
|-
!width="50%" | Ekranda gösterilen sonuç
|One-sample Kolmogorov-Smirnov test data: X </br />
D = 0.5501, p-value = 1.033e-14 </br />
alternative hypothesis: two-sided
|}
 
Burada 0.5551 olarak hesaplanan D istatistiğine tekabül eden kritik sınır p-değeri 1.033x10<sup>-14−14</sup> çok küçük bir değerdir. Bu p-değeri istatistikçilerin kullandığı %5 veya %1'den çok daha küçük olduğundan red etme alanındır. Bu nedenle X veri serisinin bir (0-1) arasında tekdüze dağılımlı anakitleden gelmediği sonucuna varılması gerekir. Ama görüldüğü gibi sıfır hipotez rededildigi zaman X veri serisinin hangi anakitle dağılımından geldiği bilinmez. Onun için yeni bir hipotez kurmak ve yeni bir sınama yapmak gerekir.
 
Örnek problem 2:</br />
Yine X örneklem veri serilerinin nasıl elde edildiğini bilmediğimizi kabul edelim. 50 gözlemli bir X örneklem veri serisinin "standart normal dağılım gösteren bir yığından gelmiş midir yoksa gelmemiş midir?" sorununu problem olarak seçelim. Bu soruna yanıt "örneklemin veri serisinin verilmiş olan bir standart normal dağılımına uyum sınaması" yani "tek örneklem Kolmogorov-Smirnov sınaması" ile bulunur:
 
Hipotezler şunlardır:</br />
H<sub>0</sub> : Bu n=50 örneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmektedir.
H<sub>1</sub> : Bu n=50 örneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmemektedir.
 
Tek örneklem K-S sınaması iki-kuyruklu bir testtir.
 
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Bunları hesaplamak için gereken formüller yukarıda verilmiştir. Burada hesaplama için '''R''' paketi kullanılmaktadır. Bu paketle ''tek örneklem K-S testi için gereken D istatistiğini ve bunun p değerini bulmak için şu özel komuta kullanılır: '''ks.test(x, "pnorm")'''. Bunu kullanan kompüter programı bir çıktı sonucunu ekrana verir ve sonucu şöyle özetleyelim:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
103. satır:
|-
!width="50%" | Ekranda gösterilen sonuç
|One-sample Kolmogorov-Smirnov test data: X</br />
D = 0.0824, p-value = 0.8586</br />
alternative hypothesis: two-sided
|}
112. satır:
=== İki örneklem Kolmogorov-Smirnov sınaması örnek problemleri ===
 
Örnek problem 3:</br />
Bu problemde sorun 50 gözlemli X örneklem veri serisi ile 40 gözlemli Y örneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelenir. Bu soruna yanıt "iki örneklem Kolmogorov-Smirnov sınaması" ile bulunur. Hipotezler şunlardır:
H<sub>0</sub> : Bu n=50 gözlemli verilen X örneklem serisi ile n=40 gözlemli örneklem Y serisi aynı anakitle dağılımından gelmektedir.
H<sub>1</sub> : X örneklem serisi ile Y örneklem serisi aynı anakitle dağılımından gelmemektedir.
 
İki orneklem K-S sınaması da iki-kuyruklu bir testtir.
 
İkinci aşamada da Kolmogorov-Smirnov istatistiği D-değeri ve bunun karşıtı olan olasılık p-değeri bulunur. Burada hesaplama için ''R'' paketi kullanılmakta ve paketle ''iki örneklem K-S testi'' için gereken D istatistiğini ve bunun p-değerini bulmak için özel komuta şudur: '''ks.test(X, Y)'''. Ekrana verilen çıktı sonucunu şöyle özetlenir:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
127. satır:
|-
!width="50%" | Ekranda gösterilen sonuç
|Two-sample Kolmogorov-Smirnov test data: X and Y</br />
D = 0.135, p-value = 0.7652</br />
alternative hypothesis: two-sided
|}
 
Burada bulunan D istatistiği 0.135 olup buna tekabül eden kritik sınır p-değeri 0.7652. Bu p-değeri istatistikçilerce kullanılan 0.05 veya 0.01 değerlerinden çok büyüktür ve açıkca H<sub>0</sub> kabul alanındadır. Sonuç olarak X ve Y serilerinin aynı anakitle dağılımından geldiği kabul edilir.
 
Örnek problem 4:</br />
Bu problemde sorun olarak 50 gözlemli X örneklem veri serisi ile 30 gözlemli Z örneklem veri serisinin aynı anakitle dağılımından mı yoksa değişik anakitle dağılımından mı geldikleri incelensin. Bu "iki örneklem K-S sınaması" için hipotezler şunlardır.
H<sub>0</sub> : X örneklem serisi ile Z örneklem serisi ayni anakitle dağılımından gelmektedir.
147. satır:
|-
!width="50%" | Ekranda gösterilen sonuç
|Two-sample Kolmogorov-Smirnov test data: X and Z </br />
D = 0.48, p-value = 0.0002033</br />
alternative hypothesis: two-sided
|}
154. satır:
Burada D istatistiği 0.48 olarak hesaplanmıştır ve buna tekabül eden kritik sınır p-değeri 0.0002033 küçük bir değerdir. Bu p-değeri istatistikçilerin kullandığı %5 veya %1'den çok daha küçük olduğundan red etme alanındadır. Bu nedenle X ve Z orneklem veri serilerinin aynı dağılımlı anakitleden gelmediği sonucuna varılır.
 
Örnek problem 5:</br />
Son örnek problem icin 40 gözlemli Y örneklem veri serisi ile 30 gözlemli Z örneklem veri serisinin aynı anakitle dağılımından mı geldikleri incelensin. Bu "iki örneklem K-S sınamasi " için hipotezler şunlardır.
H<sub>0</sub> : Y ve Z örneklem serileri ayni anakitle dağılımından gelmektedir.
166. satır:
|-
!width="50%" | Ekranda gösterilen sonuç
|Two-sample Kolmogorov-Smirnov test data: Y and Z</br />
D = 0.55, p-value = 2.889e-05</br />
alternative hypothesis: two-sided
|}
 
Burada 0.55 olarak bulunan D istatistiği ve buna tekabül eden kritik sınır p-değeri 2.889x10<sup>-5−5</sup> küçük değerdir ve p-değeri istatistikçilerin kullandığı %5 veya %1'den çok daha küçük ve red etme alanındadır. Bu nedenle Y ve Z örneklem veri serilerinin aynı dağılımlı anakitleden gelmediği sonucuna varılır.
 
== Ayrıca bakınız ==
183. satır:
 
== Dış kaynaklar ==
 
* [http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test İngilizce Wikipedia "Kolmogorov–Smirnov test" maddesi] {{ing}} (Erişim:4.10.2009)
* [http://www.physics.csbsju.edu/stats/KS-test.html Kısa bir giriş] {{ing}} (Erişim:4.10.2009)
Satır 189 ⟶ 188:
* [http://www.ciphersbyritter.com/JAVASCRP/NORMCHIK.HTM Bir- veya iki-kuyruklu sınamalarda kullanılmak için JavaScript uygulaması] {{ing}} (Erişim:4.10.2009)
* [http://jumk.de/statistic-calculator/ K-S sınaması için Online hesaplayıcı] {{ing}} (Erişim:4.10.2009)
* [http://root.cern.ch/root/html/TMath.html#TMath:KolmogorovProb Kolmogorov dağılımı] nı hesaplamak ve [http://root.cern.ch/root/html/TMath.html#TMath:KolmogorovTest K-S sınaması] yapmak için açık-kaynaklı C++ yazılım kodu. {{ing}} (Erişim:4.10.2009)
 
{{İstatistik}}