Aykırı değer

İstatistikte aykırı değer, diğer gözlemlerden önemli ölçüde farklı olan bir veri noktasıdır. [1] [2] Aykırı değer, ölçümdeki değişkenlikten kaynaklanabilir veya deneysel hatayı gösterebilir; ikincisi bazen veri setinden hariç tutulur. [3] Bir aykırı değer, istatistiksel analizlerde ciddi sorunlara neden olabilir.

Şekil 1. Orta sütunda dört aykırı değerin yanı sıra ilk sütunda bir aykırı değer gösteren Michelson-Morley deneyinden elde edilen verilerin kutu grafiği.

Aykırı değerler herhangi bir dağılımda tesadüfen ortaya çıkabilir, ancak bunlar genellikle ya ölçüm hatasını ya da popülasyonun yoğun bir dağılıma sahip olduğunu gösterir . İlk durumda, bir kişi bunları atmak veya aykırı değerlere karşı sağlam (Güçlü İstatistik) olan istatistikleri kullanmak isterken, ikinci durumda, dağılımın yüksek çarpıklığa sahip olduğunu ve normal bir dağılım varsayan araçları veya sezgileri kullanırken çok dikkatli olunması gerektiğini belirtirler. Aykırı değerlerin sık görülen bir nedeni, iki farklı alt popülasyon olabilen veya 'doğru deneme'ye karşı 'ölçüm hatası' gösterebilen iki dağılımın karışımıdır; bu bir karışım modeli ile modellenmiştir.

Daha büyük veri örneklemelerinin çoğunda, bazı veri noktaları örnek ortalamasından makul sayılandan daha uzak olacaktır. Bunun nedeni, varsayılan bir olasılık dağılımları ailesi oluşturan teorideki tesadüfi sistematik hata veya kusurlar olabilir veya bazı gözlemlerin verilerin merkezinden uzak olması olabilir. Bu nedenle aykırı değerler, hatalı verileri, hatalı prosedürleri veya belirli bir teorinin geçerli olmayabileceği alanları gösterebilir. Bununla birlikte, büyük örneklerde, az sayıda aykırı değer beklenmelidir (ve herhangi bir anormal durumdan dolayı değil).

En uç gözlemler olan aykırı değerler, aşırı yüksek veya düşük olmalarına bağlı olarak maksimum örnek veya minimum örnek veya her ikisini de içerebilir. Bununla birlikte, maksimum örnek ve minimum örnek her zaman aykırı değerler değildir çünkü bunlar diğer gözlemlerden alışılmadık şekilde uzak olmayabilir.

Aykırı değerleri içeren veri kümelerinden elde edilen istatistiklerin naif yorumu yanıltıcı olabilir. Örneğin, bir odadaki 10 nesnenin ortalama sıcaklığı hesaplanıyorsa ve bunlardan dokuzu 20 ila 25 santigrat derece arasındaysa, ancak bir fırın 175°C sıcaklıktaysa, verilerin medyanı 20 ile 25 arasında olacaktır. Ancak ortalama sıcaklık 35.5°C ile 40°C arasında olacaktır. Bu durumda, medyan, rastgele örneklenmiş bir nesnenin sıcaklığını (ama odadaki sıcaklığı değil) ortalamadan daha iyi yansıtır; ortalamayı, medyana eşdeğer "tipik bir örnek" olarak saf bir şekilde yorumlamak yanlıştır. Bu durumun gösterildiği gibi, aykırı değerler, örnek kümenin geri kalanından farklı bir popülasyona ait veri noktalarını gösterebilir.

Aykırı değerlerle başa çıkabilen tahmin edicilerin sağlam olduğu söylenir: medyan sağlam bir merkezi eğilim istatistiği iken, ortalama değildir. Bununla birlikte, ortalama genellikle daha kesin bir tahmin edicidir. [4]

  1. ^ Grubbs (February 1969). "Procedures for detecting outlying observations in samples". Technometrics. 11 (1): 1-21. doi:10.1080/00401706.1969.10490657. An outlying observation, or "outlier," is one that appears to deviate markedly from other members of the sample in which it occurs. 
  2. ^ "Outliers". Introduction to Econometrics. 2nd. New York: MacMillan. 1992. ss. 89. ISBN 978-0-02-374545-4. An outlier is an observation that is far removed from the rest of the observations. 
  3. ^ Grubbs 1969 stating "An outlying observation may be merely an extreme manifestation of the random variability inherent in the data. ... On the other hand, an outlying observation may be the result of gross deviation from prescribed experimental procedure or an error in calculating or recording the numerical value."
  4. ^ Chandan Mukherjee, Howard White, Marc Wuyts, 1998, "Econometrics and Data Analysis for Developing Countries Vol. 1"