Mahalanobis-afstand

De mahalanobis-afstand is binnen de statistiek een afstandsmaat, ontwikkeld in 1936^[1] door de Indiase wetenschapper Prasanta Chandra Mahalanobis. De maat is gebaseerd op correlaties tussen variabelen en het is een bruikbare maat om samenhang tussen twee multivariate steekproeven te bestuderen. De maat verschilt met de euclidische afstand doordat de mahalanobis-afstand afhangt van de correlaties in de dataset. Hierdoor is de maat schaal-invariant.

Definitie

De mahalanobis-afstand $D$ tussen de realisaties van twee als kolomvectoren opgevatte vectoren $x$ en $y$ uit verdelingen met gelijke covariantiematrix $\Sigma$ is gedefinieerd door:

D(x,y)={\sqrt {(x-y)'\,\Sigma ^{-1}(x-y)}}.

De mahalanobis-afstand $D_{V}$ van de realisatie van een als kolomvector opgevatte vector $x$ tot een multivariate verdeling $V$ met vector van verwachtingswaarden $\mu$ en covariantiematrix $\Sigma$ is gedefinieerd als de mahalanobis-afstand tot $\mu ,$ dus:

D_{V}(x)={\sqrt {(x-\mu )'\,\Sigma ^{-1}(x-\mu )}}.

Anders dan de gewone euclidische afstand, meet de mahalanobis-afstand de afstand als het ware in termen van de spreidingen in de verschillende richtingen.

Verband met normale verdeling

De mahalanobis-afstand vindt zijn oorsprong in de multivariate normale verdeling. De dichtheid daarvan wordt gegeven door:

{\frac {1}{\sqrt {(2\pi )^{n}|\Sigma |}}}\exp \left(-{\begin{matrix}{\frac {1}{2}}\end{matrix}}(x-\mu )'\,\Sigma ^{-1}(x-\mu )\right).

Een punt $x$ uit de verdeling ligt dus dichter bij het midden $\mu ,$ naarmate de exponent groter is, dus in essentie naarmate de uitdrukking

(x-\mu )'\,\Sigma ^{-1}(x-\mu )

kleiner is. Omdat deze uitdrukking kwadratisch is in $x,$ ligt het voor de hand om voor de afstand de vierkantswortel te gebruiken.

Toepassingen

Mahalanobis ontwikkelde deze metriek na het bestuderen van een probleem waarbij overeenkomsten tussen schedelmetingen bestudeerd moesten worden^[2], een klassiek voorbeeld in de discriminantanalyse. De metriek wordt verder toegepast in clusteranalyse, classificatiemethoden en multidimensionaal schalen. De mahalanobis-afstand is nauw verbonden met Hotellings T-kwadraat en Cooks afstand.

Bronnen, noten en/of referenties

↑ Mahalanobis, P C (1936). On the generalised distance in statistics. Proceedings of the National Institute of Sciences of India 2 (1): 49–55. Gearchiveerd van origineel op 27 september 2009. Geraadpleegd op 5 februari 2009.
↑ Mahalanobis, P C (1927). Analysis of race mixture in Bengal. J. Proc. Asiatic Soc. of Bengal 23: 301-333.