Základní myšlenka analýzy rozptylu (ANOVA)

John Pezzullo

Při porovnávání tří nebo více skupin čísel se používá tzv. Jednosměrná analýza rozptylu (ANOVA). Při porovnávání pouze dvou skupin (A a B) testujete rozdíl (A - B) mezi těmito dvěma skupinami pomocí Studentova testu. Při porovnávání tří skupin (A, B a C) je tedy přirozené uvažovat o testování každého ze tří možných dvouskupinových srovnání (A - B, A - C a B - C) pomocí t testu.



Ale spuštění vyčerpávající sady dvouskupinových t testů může být riskantní, protože s rostoucím počtem skupin se zvyšuje ještě více srovnání se dvěma skupinami. Obecným pravidlem je, že N skupiny lze spárovat v N ( N - 1) / 2 různými způsoby, takže ve studii se šesti skupinami byste měli 6 × 5/2 nebo 15 různých srovnání ve dvou skupinách.



Když provádíte mnoho testů významnosti, máte větší šanci udělat Chyba typu I. - falešně závěrečný význam, když není přítomen žádný skutečný účinek. Tento typ chyby se také nazývá alfa inflace . Takže pokud chcete vědět, zda má celá skupina skupin shodné prostředky nebo zda se jedna nebo více z nich liší od jedné nebo více dalších, potřebujete singl test produkující a singl Hodnota p, která odpovídá na tuto otázku.

Jednosměrná ANOVA je přesně takový druh testu. Nezohledňuje rozdíly mezi dvojicemi skupinových prostředků; místo toho se podívá na to, jak je rozložena celá sbírka skupinových prostředků, a porovnává to s tím, kolik byste očekávali, že se tyto prostředky rozloží, pokud by všechny skupiny byly vzorkovány ze stejné populace (tj. kdyby mezi nimi nebyly skutečné rozdíly skupiny).



Výsledek tohoto výpočtu je vyjádřen v testovací statistice zvané Poměr F. (označeno jednoduše jako F ), poměr mezi variabilitou mezi skupiny vzhledem k tomu, kolik jich je v rámci skupiny.

Pokud je nulová hypotéza pravdivá (jinými slovy, pokud mezi skupinami neexistuje skutečný rozdíl), měl by být poměr F blízký 1 a jeho výkyvy vzorkování by se měly řídit Fisherova distribuce , což je vlastně rodina distribučních funkcí charakterizovaných dvěma čísly:

  • Stupně volnosti čitatele: Toto číslo je často označováno jako df N nebo df 1 , což je o jednu méně než počet skupin.



  • Jmenovatel stupně volnosti: Toto číslo je označeno jako df D nebo df dva , což je celkový počet pozorování minus počet skupin.

Hodnotu p lze vypočítat z hodnot F , df 1 , a df dva a software provede tento výpočet za vás. Pokud je hodnota p z ANOVA významná (méně než 0,05 nebo vámi zvolená hladina alfa), můžete usoudit, že skupiny jsou ne všechny stejné (protože prostředky se od sebe lišily příliš velkým množstvím).