Anderson-Darling sınaması

Anderson-Darling sınaması, istatistik bilim dalında, bir parametrik olmayan istatistik sınaması olup örneklem verilerinin belirli bir olasılık dağılımı gösterip göstermediğini sınamak için, yani uygunluk iyiliği sınaması için, kullanılmaktadır. Bu sınama ilk defa 1952'de Amerikan istatistikçileri T.W.Anderson Jr. ile D.A.Darling tarafından yayınlanmıştır.[1] Bu sınama Kolmogorov-Smirnov sınamasının değiştirilmesi ve olasılık dağılımının kuyruklarına daha çok ağırlık verilmesi ile ortaya çıkartılmıştır.

Anderson-Darling sınamasının pratikte veriler için normal dağılımdan ayrılıp ayrılmadığını incelemek için kullanılan normallik sınaması yöntemleri arasında bulunan en güçlü sınamalardan biri olduğu iddia edilmektedir.[2] Hem çok küçük (n le; 25) örneklem sayılı veriler için hem de hacmi 200u aşan sanayi kalite kontrol verileri için başarıyla normallik sınaması için kullanıldığı bildirilmiştir.

Genel uygunluk iyiliği sınamasıDüzenle

Anderson-Darling sınaması bir örneklem verisinin tam olarak belirlenmiş bir olasılık dağılımı gösteren bir anakütleden gelip gelmediğinin sınanması için kullanılır. Verilmiş N büyüklük sayıda bir örneklem veri serisi, yani  , kullanılır. Bu serinin sınanmansı için hangi olasılık dağılımından geldiğinin ve bu olasılık dağılımını tam olarak belirleyen parametre değerinin veya parametreler değerlerinin verilmesi gerekir.

Anderson-Darling sınaması için sıfır hipotez, her türden uygunluk iyiliği sınaması gibi, örneklem verilerin için tüm parametre değerleri ile iyice belirlenen olasılık dağılımlı anakütleden geldiğidir. Bu sıfır hipotezin çok sınırlı olduğuna dikkat çekilmelidir. Ancak verilmiş parametre veya parametreler için olasılık dağılımı uygulanması incelenmektedir. Eğer sıfır hipotez sınama sonucu ret edilirse, verilerin parametre(ler) ile belirlenmiş dağılıma uymadığı sonucuna varılır. Tekrar edilmelidir ki genel olarak belli bir dağılım ret edilmemektedir; sadece belli parametresi olan dağılım ret edilmektedir.

Elde edilen veriler en küçük değerden en büyük değere kadar bir sıraya konulur. Bu sıraya konulmuş veriler, yani  , bir sınama istatistiğinin hesaplanması için kullanılır. Parametresi veya parametreleri verilmiş olasılık dağılımı için birikimli dağılım fonksiyonu kullanılarak bir sıra   değerleri bulununur. Bu iki seri kullanılarak önce şu S toplamı elde edilir.

 

Bu toplam kullanılarak Anderson-Darling istatistiği   değeri yani

 

elde edilir.

Sıfır hipotezde belirtilen olasılık dağılımına göre, elde edilen   değerinin belirli bir sabitle (çok kere örneklem hacmi 'N'e bağlı olarak) çarpılmasi gerektir ve bu değiştirilmiş Anderson-Darling istatistiği   adı altında sınama istatistiği olarak kullanılır.

  sınama istatistiği belirlenen teorik olasılık dağılımı için p-değeri bulmak için kullanılır. Hesaplanmış p-değeri eğer %1 veya %5 olan anlamlılık seviyesinden büyük ise sıfır hipotez kabul edilir ve örneklem verisi belirlenen olasılık dağılımına uyduğu sonucuna varılır. Ancak bu p-değeri bulma işlemi bir olasılık dağılımı simülasyonu gerekeceği için bilgisayarla sayısal hesaplama gerektirir.

Bazı olasılık dağılımları için özel tablolar geliştirilmiş ve değişik parametre değerleri ve belirtilmiş anlamlılık değerleri için (genellikle %1 ve %5) kritik değerler tabloda belirtilmiştir. Normal dağılım, log-normal dağılım, üstel dağılım, Weibull dağılımı, logistik dağılım ve Tip I uçsal değerler için bu tabloların bulunduğu bilinmektedir. Tablodan bulunan kritik değer, hesaplanmış   değeri ile karşılaştırılır. Belirlenmiş olasılık dağılımına uygunluk sıfır hipotezinin kabul edilmesi sonucudur yani hesaplanmış değer tablo kritik değerinden büyükse örneklem verileri belirlenmiş olasılık dağılımına uygunluk gösterir sonucuna varılır.

Normallik sınamasıDüzenle

Anderson-Darling sınamasının bir normallik sınaması olarak kullanılmasındaki genel mantıksal temel, veri serileri ile belirlenmiş normal dağılım arasında bir uzaklık ifade eden empirik dağılım fonksiyonu bulunmasıdır. Bu temel, hipotez olan dağılımın gerçekte bulunduğu kabul edilirse, veri serisinin bir tekdüze dağılıma dönüştürülebilineceği kavramına dayanır. Böylece dönüştürülen örneklem veri serisi bir uzaklık sınaması kullanılarak tekdüze dağılım olup olmadığı test edilir.[3]

Veri serisi yani   için   olarak verilmiştir. İlk etapta bu seri en küçük değerden en büyük değere doğru sıralanır, yani  , hesaplamalar için kullanılır.   icin ortalama   ve standart sapma   bulunur. Sıralı   şöyle normalize edilirek   değişkenine dönüştürülür:

 

Bu dönüştürülmüş veriler hesaplamalar da kullanılır.

Örneklemden bulunan ortalama   ve standart sapma   sıfır hipoteze göre normal varsayılan anakütlenin parametrelerinin yansız kestirimleri sayılır. O zaman dönüştürülmüş veriler kullanıldığı için sıfır hipotez  nin dağılımının standart normal dağılım, yani N(0,1), olduğudur.

Standart normal dağılım için birikimli dağılım fonksiyonu   olarak ifade edilirse, Anderson-Darling istatistigi yani   şöyle yazılır:

 

veya tekrar eden indeksler yazılmazsa

 

Eğer herhangi bir   ise bu   hesaplanamaz ve bu halde   anlamsız olduğu için, hesapların bırakılmasi gerekir.

Eğer   hesaplanabilirse, örneklem hacmi 'N'ye için yaklaşık bir ayarlama yapılarak değiştirilmiş Anderson-Darling istatistiği   olarak, şöyle bulunur:

 

Eğer   değeri 0.752 değerini aşarsa 5% anlamlılık seviyesinde sıfır hipotez olan normallik ret edilir.

Yapılan araştırmalara göre Anderson-Darling sınaması için sınama istatistigi olan  nin normallik sınaması için kullanılan yöntemlerden en güçlü olanlardan biri olduğu bulunmuştur.[3] Buna en yakın güçte yöntemin Cramér von-Mises sınaması için bulunan   olduğu da aynı yazıda açıklanmıştır.

İçsel kaynaklarDüzenle

KaynakçaDüzenle

  1. ^ Anderson Jr.,T.W. ve Darling,D.A. (1952) "Asymptotic theory of certain 'goodness-of-fit' criteria based on stochastic processes' Annals of Mathematical Statistics C.23 say. 193–212
  2. ^ Stephens,M.A. (1974) "EDF Statistics for Goodness of Fit and Some Comparisons" Journal of the American Statistical Association C.69 say.730–737
  3. ^ a b Stephens/

Dışsal kaynaklarDüzenle