Prova de Kruskal-Wallis

En estadística, la prova de Kruskal-Wallis (de William Kruskal i W. Allen Wallis) és un mètode no paramètric per provar si un grup de dades prové de la mateixa població. Intuïtivament, és idèntic a l'ANOVA amb les dades reemplaçades per categories. És una extensió de la prova de la U de Mann-Whitney per a 3 o més grups.

Ja que és una prova que no és paramètrica, no s'assumeix normalitat en les dades, en oposició a l'ANOVA tradicional. Sí assumeix, sota la hipòtesi nul·la, que les dades venen de la mateixa distribució. Una forma comuna en què es viola aquest supòsit és amb dades heterocedàstiques.

Mètode

  1. La prova ve donada per: K = ( N 1 ) i = 1 g n i ( r ¯ i r ¯ ) 2 i = 1 g j = 1 n i ( r i j r ¯ ) 2 {\displaystyle K=(N-1){\frac {\sum _{i=1}^{g}n_{i}({\bar {r}}_{i\cdot }-{\bar {r}})^{2}}{\sum _{i=1}^{g}\sum _{j=1}^{n_{i}}(r_{ij}-{\bar {r}})^{2}}}} , on:
    • n i {\displaystyle n_{i}} és el nombre d'observacions en el grup i {\displaystyle i}
    • r i j {\displaystyle r_{ij}} és el rang (entre totes les observacions) de l'observació j {\displaystyle j} en el grup i {\displaystyle i}
    • N {\displaystyle N} és el nombre total d'observacions entre tots els grups
    • r ¯ i = j = 1 n i r i j n i {\displaystyle {\bar {r}}_{i\cdot }={\frac {\sum _{j=1}^{n_{i}}{r_{ij}}}{n_{i}}}} ,
    • r ¯ = ( N + 1 ) / 2 {\displaystyle {\bar {r}}=(N+1)/2} és la mitjana de r i j {\displaystyle r_{ij}} .
      Noti que el denominador de l'expressió per K {\displaystyle K} és exactament ( N 1 ) N ( N + 1 ) 12 {\displaystyle {\frac {(N-1)N(N+1)}{12}}} . Seguidament K = 12 N ( N + 1 ) i = 1 g n i ( r ¯ i r ¯ ) 2 {\displaystyle K={\frac {12}{N(N+1)}}\sum _{i=1}^{g}n_{i}({\bar {r}}_{i\cdot }-{\bar {r}})^{2}} .
  2. Es pot realitzar una correcció per als valors repetits dividint K {\displaystyle K} per 1 i = 1 G ( t i 3 t i ) N 3 N {\displaystyle 1-{\frac {\sum _{i=1}^{G}(t_{i}^{3}-t_{i})}{N^{3}-N}}} , on G {\displaystyle G} és el nombre de grups de diferents rangs repetits, i t i {\displaystyle t_{i}} és el nombre d'observacions repetides dins del grup i {\displaystyle i} que té observacions repetides per a un determinat valor. Aquesta correcció fa canviar a K {\displaystyle K} molt poc fora que hi hagi un gran nombre d'observacions repetides.
  3. Finalment, el p-value (valor p) és aproximat per Pr ( χ g 1 2 K ) {\displaystyle \Pr(\chi _{g-1}^{2}\geq K)} . Si algun n i {\displaystyle n_{i}} és petit ( < 5 {\displaystyle <5} ) la distribució de K {\displaystyle K} pot ser diferent de khi-quadrat.

Vegeu també

  • prova de la U de Mann-Whitney.

Referències

Article adaptat de la Wikipedia en anglès.

  • William H. Kruskal and W. Allen Wallis. Use of ranks in one-criterion variance analysis. Journal of the American Statistical Association 47 (260): 583–621, December 1952.
  • Sidney Siegel and N. John Castellan, Jr. (1988). Nonparametric Statistics for the Behavioral Sciences (second edition). New York: McGraw-Hill.