Kolmogorov-Smirnov sınaması: Revizyonlar arasındaki fark

[kontrol edilmemiş revizyon][kontrol edilmemiş revizyon]
İçerik silindi İçerik eklendi
Noyder (mesaj | katkılar)
Değişiklik özeti yok
Noyder (mesaj | katkılar)
Değişiklik özeti yok
47. satır:
Bu testin asimptotik "istatistik gücü" 1e eşittir. Eğer ''F''(''x'') fonksiyonunun şekli veya parametreleri örneklem
:<math>(x_1,\dots,x_n)</math>
verileri ile bulunursa, yukarıda verilen kritik değerler uygun değildir. Bu hallerde Monte Carlo simulasyon yöntemi veya benzer sayısal yöntemler kullanılması gerekir. Ama bazı haller için özel tablolar kurulmuştur. Pearson ve Hartley (1957) Tablo 54de [[normal dağılım]] ve [[tekdüze (sürekli)|tekdüze]] dağılım]] için kritik değerleri ve test istatistiğini vermektedir.
 
== Örnek problemler==
<!--
 
Ornek verilerini vermek ve K-S sinamalarini uygulamak icin "[[R]]" adi altinda hazirlanmis olan ve standart olarak uygulanan ve telif hakki gerektirmeyen serbet kullanilma haklari verilmis bir istatistik yazilim paketi kullanilacaktir.
 
===Simulasyonla üretilen veriler===
<br>'''Örnek'''
40 kişiye bir su içtirildiğini, bunlara suyun tadı hakkında bir soru sorulduğunu ve bunaların verdikleri cevapların;
 
Once uc degisik veri serisi uretilmistir. Istenilen gozlem sayisinda ve istenilen olasilik dagiliminda simulasyonla R istatistik paketi ozel komutasi kullanilmistir:
Acı: 4 kişi,
*X veri serisi icin 50 gozlem uretilmistir ve bunlarain (ortalam 0 ve varyans 1 olan) bir ''standart normal'' dagilima sahip olarak (R yazilim paketi icin ''X <- rnorm(50)'' komutasi ile) simulasyonla elde edilmislerdir.
Tuzlu:5 kişi,
*Y veri serisi icin 40 gozlem ''standart normal'' dagilima sahip olarak (R yazilim paketi icin ''Y <- rnorm(40)'' komutasi ile) simulasyonla elde edilmislerdir.
Ekşi:10 kişi,
*Z veri serisi icin 30 gozlem (0 ile 1 arasinda) ''surekli tekduze'' dagilima sahip olarak (R yazilimi icin ''Y <- runif(30)'' komutasi ile) simulasyonla elde edilmislerdir.
Tatlı: 16 kişi,
Baharatlı:5 kişi
 
===Tek örneklem Kolmogorov-Smirnov sınaması örnek problemleri===
biçiminde olduğunu varsayalım. Sorunumuz şu olsun: Acaba suyun tadı farklı mı algılanmaktadır?
 
Örnek problem 1:
<br>Buna cevap vermek için "Tek orneklem Kolmogorov-Simirnov test"i uygulanmalıdır. Sonuca göre <i>"İnsanlar suyun tadını farklı algılamaktadır"<i> şeklindeki hipotez ya kabul ya da red edilir.
Örneklem veri serilerinin nasil ortaya ciktigi bilmedigini dusunelim ve 50 gozlemli bir gercek orneklem veri X veri serisinin "(0-1) arasinda surekli tekduze dagilim gosteren bir yigindan gelmis midir yoksa gelmemis midir" sorunu problem olsun. Bu soruna yanit "tek orneklem Kolmogorov-Smirnov sinamasi" ile bulunur:
-->
 
Once hipotezler verilir:
H<sub>0</sub> : Bu n=50 orneklem serisi verilen U(0,1) (yani 0 ile 1 arasinda surekli tekduze) dagilimli bir anakitleden gelmektedir.
H<sub>1</sub> : Bu n=50 orneklem serisi verilen U(0,1) (yani 0 ile 1 arasinda surekli tekduze) dagilimli anakitleden gelmemektedir.
 
Bu sinama icin alternatif hipotezde pozitif bir dagilim ifadesi bulunmaz ve anakitle dagiliminin ne olmadigin dair negatif bir hipotezdir. Tek orneklem K-S sinamasi iki-kuyruklu testtir.
 
Ikinci asamada da Kolmogorov-Smirnov istatistigi D-degeri ve bunun karsiti olan olasilik p-degerini bulmak icin ''R'' paketine ozel bir komuta kullanilir; bu komuta sudur: [ ks.test(X, "punif") ]. Bundan sonra komputer programi hesaplar baslar ve bir cikti sonucunu (İngilizce olarak) ekrana verir. Bunu su tabloda ozetliyelim:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
|- bgcolor="#E0E0FF"
! scope=col width="50%" | R yazilimi komutasi
! scope=col width="50%" | Ekranda gosterilen sonuc
|-
<pre>ks.test(X, "punif")</pre>
|
One-sample Kolmogorov-Smirnov test data: X </br>
D = 0.5501, p-value = 1.033e-14 </br>
alternative hypothesis: two-sided
|}
 
Burada 0.5551 olarak hesaplanan D istatistigine tekabul eden kritik sinir p-degeri 1.033x10<sup>-14</sup> cok kucuk bir degerdir. Bu p-degeri istatistikcilerin kullandigi %5 veya %1'den cok daha oldugundan red etme alanindir. Bu nedenle X veri serisinin bir (0-1) arasinda tekduze dagilimli anakitleden gelmedigi sonucuna varilmasi gerekir. Ama goruldugu gibi sifir hipotez rededildigi zaman X veri serisini hangi anakitle dagilimindna geldigi bilinmez. Onun icin yeni bir hipotez kurmak ve yeni bir sinama yapmak gerekir.
 
Ornek problem 2:
Yine X orneklem veri serilerinin nasil elde edildigini bilmedigimiz kabul edelim. 50 gozlemli bir X orneklem veri serisinin "standart normal dagilim gosteren bir yigindan gelmis midir yoksa gelmemis midir" sorununu problem olarak secelim. Bu soruna yanit "Tek orneklemin verilmis olan bir standart normal dagilimina uyumu sinamasi" yani "tek orneklem Kolmogorov-Smirnov sinamasi" ile bulunur:
 
Hipotezler sunlardir:
H<sub>0</sub> : Bu n=50 orneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmektedir.
H<sub>1</sub> : Bu n=50 orneklem serisi verilen N(0,1) (yani standart normal) anakitleden gelmektedir.
 
Tek orneklem K-S sinamasi iki-kuyruklu testtir.
 
Ikinci asamada da Kolmogorov-Smirnov istatistigi D-degeri ve bunun karsiti olan olasilik p-degeri bulunur. Bunlari bulmak icin gereken formuller yukarida verilmistir. Burada hesaplama icin ''R'' paketi kullanilmaktadir. Bu paketle ''tek orneklem K-S testi icin gereken D istatistigini ve bunun p degerini bulmak icin su ozel komuta kullanilir: (ks.test(x, "pnorm"). bunu kullanan komputer programi bir cikti sonucunu ekrana verir ve sonucu soyle ozetliyelim:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
|- bgcolor="#E0E0FF"
! scope=col width="50%" | R yazilimi komutasi
! scope=col width="50%" | Ekranda gosterilen sonuc
|-
<pre>ks.test(X, "pnorm")</pre>
|
One-sample Kolmogorov-Smirnov test data: X
D = 0.0824, p-value = 0.8586
alternative hypothesis: two-sided
|}
 
Burada hesaplanan D istatistige tekabul eden kritik sinir p-degeri 0.8586 yani %85den daha buyuktur. Bu p-degeri istatistikcilerin kullandigi %5 veya %1'den cok buyuk oldugu icin kritik p-degeri kabul edilme alanindadir ve bu sifir hipotez red edilemez. Bu nedenle X veri serisinin bir standart normal anakitleden geldigi sonucuna varilir.
 
===İki örneklem Kolmogorov-Smirnov sınaması örnek problemleri===
 
Örnek problem 3:
Bu problemde sorun 50 gozlemli X orneklem veri serisi ile 40 gozlemli Y orneklem veri serisinin ayni anakitle dagilimindan mi yoksa degisik anakitle dagilimindan mi geldikler incelenir. Bu soruna yanit "iki orneklem Kolmogorov-Smirnov sinamasi" ile bulunur. Hipotezler sunlardir:
H<sub>0</sub> : Bu n=50 gozlemli verilen X orneklem serisi ile n=40 gozlemli orneklem Y serisi ayni anakitle dagilimindan gelmektedir.
H<sub>1</sub> : X orneklem serisi ile Y orneklem serisi ayni anakitle dagilimindan gelmemektedir.
 
Iki orneklem K-S sinamasi da iki-kuyruklu testtir.
 
Ikinci asamada da Kolmogorov-Smirnov istatistigi D-degeri ve bunun karsiti olan olasilik p-degeri bulunur. Burada hesaplama icin ''R'' paketi kullanilmakta ve paketle ''iki orneklem K-S testi icin gereken D istatistigini ve bunun p degerini bulmak icin ozel komuta sudur: (ks.test(X, Y). Ehrana verilen cikti sonucunu soyle ozetlenir:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
|- bgcolor="#E0E0FF"
!width="50%" | R yazilimi komutasi
| ks.test(X, Y)</pre>
|-
!width="50%" | Ekranda gösterilen sonuc
|Two-sample Kolmogorov-Smirnov test data: X and Y
D = 0.135, p-value = 0.7652
alternative hypothesis: two-sided
|}
 
Burada buluan D istatistigi 0.135 olup buna tekabul kritik sinir p-degeri 0.7652. Bu p-degeri istatistikcilerce kullanilan 0.05 veya 0.01 degerlerinden cok buyuktur ve acikca H<sub>0</sub> kabul alanindadir. Sonuc olarak X ve Y serilerinin ayni anakitle dagilimindan geldigi kabul edilir.
 
Ornek problem 4:
Bu problemde sorun 50 gozlemli X orneklem veri serisi ile 30 gozlemli Z orneklem veri serisinin ayni anakitle dagilimindan mi yoksa degisik anakitle dagilimindan mi geldikleri incelensin. Bu "iki orneklem K-S sinamasi '" icin hipotezler sunlardir.
H<sub>0</sub> : X orneklem serisi ile Z orneklem serisi ayni anakitle dagilimindan gelmektedir.
H<sub>1</sub> : X orneklem serisi ile Z orneklem serisi ayni anakitle dagilimindan gelmemektedir.
 
Iki orneklem K-S sinamasi da iki-kuyruklu testtir. Kolmogorov-Smirnov istatistigi D-degeri ve bunun karsiti olan olasilik p-degeri icin hesaplama ''R'' paketi ile yapilir ve bu test icin komuta ks.test(X, Z) olur. Komuta ve ekrandaki sonuclar soyle ozetlenir:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
|- bgcolor="#E0E0FF"
! scope=col width="50%" | R yazilimi komutasi
! scope=col width="50%" | Ekranda gosterilen sonuc
|<pre>ks.test(X, Z)</pre>
|-
Two-sample Kolmogorov-Smirnov test data: X and Z
D = 0.48, p-value = 0.0002033
alternative hypothesis: two-sided
|
|}
 
Burada D istatistigi 0.48 olarak hesaplanmistir ve buna tekabul eden kritik sinir p-degeri 0.0002033 kucuk bir degerdir. Bu p-degeri istatistikcilerin kullandigi %5 veya %1'den cok daha kucuk oldugundan red etme alanindir. Bu nedenle X ve Z orneklem veri serilerinin ayni dagilimli anakitleden gelmedigi sonucuna varilir.
 
Ornek problem 5:
Son ornek problem icin 40 gozlemli Y orneklem veri serisi ile 30 gozlemli Z orneklem veri serisinin ayni anakitle dagilimindan mi geldikleri incelensin. Bu "iki orneklem K-S sinamasi '" icin hipotezler sunlardir.
H<sub>0</sub> : Y ve Z orneklem serileri ayni anakitle dagilimindan gelmektedir.
H<sub>1</sub> : Y ve Z orneklem serileri ayni anakitle dagilimindan gelmemektedir.
 
Iki orneklem K-S sinamasi da iki-kuyruklu testtir. ''R'' paketi kullanarak Kolmogorov-Smirnov istatistigi D-degeri ve bunun karsiti olan olasilik p-degeri icin hesaplama icin komuta ks.test(Y, Z) olur. Komuta ve ekrandaki sonuclar soyle ozetlenir:
 
{| border="0" align="center" valign="top" cellpadding="2px" style="width:100%; border: 1px solid #999; background-color:#FFFFFF;"
! width="50%" | R yazilimi komutasi
|ks.test(Y, Z)
|-
!width="50%" | Ekranda gosterilen sonuc
|Two-sample Kolmogorov-Smirnov test data: Y and Z
D = 0.55, p-value = 2.889e-05
alternative hypothesis: two-sided
|}
 
Burada 0.55 olarak bulunan D istatistigi ve buna tekabul eden kritik sinir p-degeri 2.889x10<sup>-5</sup> kucuk degerdir ve p-degeri istatistikcilerin kullandigi %5 veya %1'den cok daha kucuk ve red etme alanindir. Bu nedenle Y ve Z orneklem veri serilerinin ayni dagilimli anakitleden gelmedigi sonucuna varilir.
 
 
Satır 83 ⟶ 193:
*[http://jumk.de/statistic-calculator/ K-S sınaması için Online hesaplayıcı] {{ing}} (Erişim:4.10.2009)
*[http://root.cern.ch/root/html/TMath.html#TMath:KolmogorovProb Kolmogorov dağılımı]nı hesaplamak ve [http://root.cern.ch/root/html/TMath.html#TMath:KolmogorovTest K-S sınaması] yapmak için açık-kaynaklı C++ yazılım kodu. {{ing}} (Erişim:4.10.2009)
 
 
 
{{İstatistik}}