Simpson-paradoxon

A Simpson-paradoxon a statisztikában ismert antinómia, mely akkor lép fel, ha két csoportot kettébontunk. Ekkor ugyanis a csoportra érvényes megállapítás az ellentétébe fordulhat át.

Példa:

Tegyük fel, hogy egy esélyegyenlőséggel foglalkozó szervezetnél dolgozunk, és azzal bíznak meg minket, hogy Y élelmiszeripari vállalat humánpolitikáját ellenőrizzük, mivel gyanúba keveredett a cég, hogy diszkriminálják a hozzájuk jelentkező cigány származású munkavállalókat. A következő információk állnak rendelkezésünkre:

1999-ben állományba vett munkavállalók Y vállalat Többi élelmiszeripari vállalat
Cigány munkavállalók 110 1532
Nem cigány munkavállalók 125 1202

Mit állapíthatunk meg ezekből az adatokból? Milyen módon végezzünk számításokat?

Könnyen megállapíthatjuk a cigány munkavállalók arányát: ebben az esetben Y vállalatnál az eredmény kisebb, mint 50%, hiszen 110 < 125. Ellentétben a többi élelmiszeripari vállalat esetében kapott eredménnyel, ahol az nagyobb, mint 50%, hiszen 1532 > 1202.

Az eredmény arra késztet minket, hogy vizsgálatot indítsunk a cég humánpolitikai osztályán a cég által alkalmazott felvételi rendszer tisztázása érdekében. Y vállalat elnöke a következő adatokat hozza fel érvként a vádakkal szemben:

Az 1999-ben alkalmazott,
diplomával nem rendelkező munkavállalók:
Y vállalat Többi élelmiszeripari vállalat
Cigány munkavállalók 52 1211
Nem cigány munkavállalók 24 631
Az 1999-ben alkalmazott,
diplomával rendelkező munkavállalók:
Y vállalat Többi élelmiszeripari vállalat
Cigány munkavállalók 58 321
Nem cigány munkavállalók 101 571

Miben védik ezek az adatok Y vállalatot a vádakkal szemben? Milyen módon érdemes számításokat végeznünk?

Y vállalat érvei szerint az ő adataik a diplomások, és a diplomával nem rendelkezők körében is jobb eredményeket mutatnak fel, mint a többi élelmiszeripari vállalat adatai. Y vállalatnál ugyanis a diplomával nem rendelkezők körében 52/(52+24)=68%, míg a többi élelmiszeripari vállalatnál csak 1211/(1211+631)=66% a cigány munkavállalók aránya; míg a diplomások körében Y vállalatnál 58/(58+101)=36,5%, míg a többi élelmiszeripari vállalatnál 321/(321+571)=36,0% a cigány munkavállalók aránya.

Mi lehet az oka annak, hogy az arányok az ellentétükbe fordultak át azáltal, hogy az iskolázottságot is beemeltük a vizsgálatba? Mi a különbség Y és a többi élelmiszeripari vállalat között az iskolázottságot figyelembe véve? Mi a különbség a cigányok és nem cigányok között az iskolázottságot figyelembe véve?

Ha az egyes eredmények nagyon eltérőek, akkor ez a vizsgálatból kimaradt paraméterekre vezethető vissza. Ezért a hamis következtetések elkerülése érdekében ezeket a tényezőket is figyelembe kell venni. Ez megoldható úgy, hogy az egyes csoportokat külön-külön értékeljük ki.

Ábrázolás vektorokkal

A Simpson-paradoxon ábrázolása vektorokkal. A két tengely skálázása különböző

A Simpson-paradoxon ábrázolható a kétdimenziós vektortérben.[1] A sikeres kísérletek p / q {\displaystyle p/q} aránya az A = ( q , p ) {\displaystyle {\overrightarrow {A}}=(q,p)} vektorral ábrázolható, aminek meredeksége p / q {\displaystyle p/q} . Ha kombináljuk a p 1 / q 1 {\displaystyle p_{1}/q_{1}} és a p 2 / q 2 {\displaystyle p_{2}/q_{2}} arányokat, akkor az eredmény reprezentálható a ( q 1 , p 1 ) {\displaystyle (q_{1},p_{1})} és a ( q 2 , p 2 ) {\displaystyle (q_{2},p_{2})} vektorok összegével. A paralelogrammaszabály szerint ez az összeg ( q 1 + q 2 , p 1 + p 2 ) {\displaystyle (q_{1}+q_{2},p_{1}+p_{2})} , aminek meredeksége p 1 + p 2 q 1 + q 2 {\displaystyle {\frac {p_{1}+p_{2}}{q_{1}+q_{2}}}} .

A Simpson-paradoxon állítása szerint a b 1 + b 2 {\displaystyle {\overrightarrow {b_{1}}}+{\overrightarrow {b_{2}}}} (az ábrán +) vektor még mindig meredekebb lehet, mint az r 1 + r 2 {\displaystyle {\overrightarrow {r_{1}}}+{\overrightarrow {r_{2}}}} összegvektor, még akkor is, ha a b 1 {\displaystyle {\overrightarrow {b_{1}}}} (kék) vektor kevésbé meredek, mint az r 1 {\displaystyle {\overrightarrow {r_{1}}}} (piros) vektor, és b 2 {\displaystyle {\overrightarrow {b_{2}}}} kevésbé meredek, mint az r 2 {\displaystyle {\overrightarrow {r_{2}}}} vektor.

Gyakorisága

Ha egy 2 × 2 × 2 {\displaystyle 2\times 2\times 2} -es táblázatot véletlen számokkal töltünk ki, akkor a Simpson-paradoxon 1/60 valószínűséggel lép fel.[2]

Források

  1. Jerzy Kocik (December 2001). Proofs without Words: Simpson's Paradox. Mathematics Magazine. 74 (5), p. 399.
  2. Marios G. Pavlides and Michael D. Perlman (2009. August). „How Likely is Simpson’s Paradox?”. The American Statistician 63 (3), 226–233. o. DOI:10.1198/tast.2009.09007.  

Németh Renáta, Simon Dávid: Társadalomstatisztika. Egyetemi jegyzet, Budapest, Eötvös Loránd Tudományegyetem, 2011

Ez a matematikai tárgyú lap egyelőre csonk (erősen hiányos). Segíts te is, hogy igazi szócikk lehessen belőle!
  • Matematika Matematikaportál • összefoglaló, színes tartalomajánló lap