Hur man beräknar variansen

Variansen är en indikator på variablerna i en dataset. Ett lågt värde innebär att data grupperas mycket nära varandra, medan en hög variant indikerar mer distribuerad data. Detta är ett koncept som har många applikationer i statistik. Att jämföra variansen mellan två uppsättningar data (till exempel manliga och kvinnliga patienter) är till exempel ett sätt att förstå vilken variabel som ger en uppenbar effekt. Variansen är också användbar när man skapar statistiska modeller, för när den är låg indikerar den ett för grupperat prov.

Metod 1

Beräkna variansen för en prov

Skriv data som utgör provet. I de flesta fall har statistiker endast tillgång till ett urval eller en grupp av befolkningen som de analyserar. Till exempel istället för att analysera den globala uppsättningen av "Kostnaden för varje bil i Tyskland", en lärare beräknar det av ett slumpmässigt prov bestående av några tusen bilar. På så sätt kan du använda provet för att uppskatta maskinkostnaderna i Tyskland, även om värdet inte sammanfaller exakt med de reella siffrorna.

exempel: analyserar antalet croissanter som säljs varje dag i en cafeteria, du kommer att få detta slumpmässiga prov samlat på sex dagar: 17-15- 23-7-9-13. Det här är bara ett urval och inte en befolkning, eftersom du inte äger försäljningsuppgifterna för varje dag där baren har öppnats.
Om du har allt befolkningsdata, gå direkt till nästa metod.

Skriv formeln för variansen av ett prov. Detta värde ger dig en uppfattning om fördelningen av data. Ju mer variansen närmar sig noll, desto mer data grupperas ihop. När du arbetar med ett prov använder du följande formel:

{ displaystyle s ^ {2}}

= ^{Σ [( ${ displaystyle x_ {i}}$ - x) ${ displaystyle ^ {2}}$ ]}/_{(n - 1)};

{ displaystyle s ^ {2}}

det är den varians som alltid mäts i kvadratenheter;

{ displaystyle x_ {i}}

representerar en provdata;

Σ betyder "summering" och indikerar att du måste beräkna följande termer för varje värde av

{ displaystyle x_ {i}}

och lägg sedan till dem ihop;

xiod är medelvärdet av provet;

n är antalet data som utgör det hela.

Beräkna provmedlet. Symbolen x symbol anger medeltalet av datasatsen. Fortsätt med beräkningen som du normalt skulle: Summa alla värden bland dem och dela med antalet data.

exempel: Först summa alla data som utgör provet - då: 17 + 15 + 23 + 7 + 9 + 13 = 84
Därefter dela resultatet med antalet värden, vilket i detta fall är lika med 6: 84 ÷ 6 = 14.
Provvärdet är x = 14.

Du kan överväga genomsnittet som "central punkt" av provet. Om data är grupperade runt medeln betyder det att variansen är låg. Om värdena flyttar sig och är mycket fördelade runt genomsnittet är variansen hög.

Subtrahera genomsnittet från varje värde som utgör hela. Nu är det dags att fortsätta med denna beräkning

{ displaystyle x_ {i}}

- xiod, var

{ displaystyle x_ {i}}

representerar alla data som utgör provet. Varje skillnad informerar dig om avvikelsen av data från medelvärdet eller med andra ord hur mycket värdet flyttar bort från genomsnittet.

exempel:

{ displaystyle x_ {1}}

- x = 17 - 14 = 3

{ displaystyle x_ {2}}

- x = 15 - 14 = 1

{ displaystyle x_ {3}}

- x = 23 - 14 = 9

{ displaystyle x_ {4}}

- x = 7 - 14 = -7

{ displaystyle x_ {5}}

- x = 9 - 14 = -5

{ displaystyle x_ {6}}

- x = 13 - 14 = -1.

Det är inte svårt att kontrollera beräkningarna, eftersom summan av resultaten måste ge noll. Detta fenomen beror på själva definitionen av medelvärdet, eftersom de negativa värdena (medelvärdet från de mindre talen) måste helt och hållet avbryta de positiva värdena (medelvärdet från de större siffrorna).

Höj varje resultat. Som redan angivits ovan är summan av avvikelser (

{ displaystyle x_ {i}}

- xiod) är noll. Detta innebär att "genomsnittlig avvikelse" Det måste vara noll och ger därför ingen ytterligare information om fördelningen av provet. För att eliminera detta problem, hitta kvadraten för varje avvikelse. På detta sätt får du bara positiva värden och de negativa kan inte avbryta de andra.

exempel:
(

{ displaystyle x_ {1}}

- x)

{ displaystyle ^ {2} = 3 ^ {2} = 9}

{ displaystyle (x_ {2}}

- x)

{ displaystyle ^ {2} = 1 ^ {2} = 1}

9² = 81
(-7)² = 49
(-5)² = 25
(-1)² = 1;

Nu har du värdet (

{ displaystyle x_ {i}}

- x)

{ displaystyle ^ {2}}

för varje provdata.

Hitta summan av rutorna. Vid denna tidpunkt måste du beräkna täljaren av formeln: Σ [(

{ displaystyle x_ {i}}

- x)

{ displaystyle ^ {2}}

]. Den grekiska bokstaven sigma, Σ, indikerar att du måste lägga till alla värden som nästa term förutsätter för varje

{ displaystyle x_ {i}}

. Du har redan beräknat (

{ displaystyle x_ {i}}

- x)

{ displaystyle ^ {2}}

för varje värde av

{ displaystyle x_ {i}}

av provet, så vad du behöver göra är att gå vidare till en enkel summa.

exempel: 9 + 1 + 81 + 49 + 25 + 1 = 166.

Dela resultatet med n - 1, där n är antalet data i uppsättningen. Tidigare delades statistikerna endast av n under beräkningen av variansen. På så sätt fick de medelvärdet av standardavvikelsen som perfekt matchar provvarianansen. Du måste dock komma ihåg att provet endast är en uppskattning av en större befolkning. Om du anser ett annat slumpmässigt prov och utför samma beräkningar, hittar du olika resultat. Av denna anledning ger uppdelning av n-1 i stället för n en bättre uppskattning av variationen hos en större befolkning, vilket är vad som verkligen betyder för statistiker. Denna korrigering är så vanlig och allmänt accepterad att den ingår i definitionen av varians.

exempel: det finns sex data i provet, så n = 6.
Provets varians är =

{ displaystyle s ^ {2} = { frac {166} {6-1}} =}

33,2.

Förstå variansen och standardavvikelsen. Eftersom det finns ström i täljaren, kom ihåg att variansen uttrycks med den ursprungliga måttenheten i kvadrat. Detta gör det svårt att snabbt förstå dess mening - för detta ändamål används standardavvikelsen mer. Du har inte slösat bort alla insatser som gjorts hittills, eftersom standardavvikelsen definieras som kvadratroten av variansen. Därför uttrycks variansen av ett prov som

{ displaystyle s ^ {2}}

, medan standardavvikelsen som

{ displaystyle s}

Exempelvis är standardavvikelsen för det prov som tagits tidigare under betraktning s = √33.2 = 5,76.

Metod 2

Beräkna variationen för en befolkning

Tänk på en datapopulation. Termen "population" Hänvisar till hela gruppen som granskats. Till exempel, om du studerar åldern av Veneto invånare, ger den statistiska befolkningen uppgifter om åldern för varje person som bor i denna region. Generellt skapar du en kalkylark för denna typ av storskalig analys, men du kan också fortsätta med en mindre uppsättning:

exempel: Det finns exakt 6 tankar i det kommunala akvariet. Dessa 6 tankar innehåller följande kvantiteter fisk:
${ displaystyle x_ {1} = 5}$
${ displaystyle x_ {2} = 5}$
${ displaystyle x_ {3} = 8}$
${ displaystyle x_ {4} = 12}$
${ displaystyle x_ {5} = 15}$
${ displaystyle x_ {6} = 18}$ .

Skriv variansformeln för en population. Eftersom en befolkning innehåller alla de uppgifter du behöver, kan du med hjälp av formeln beräkna befolkningens exakta variation och inte en uppskattning. För att skilja det från provets (som bara är en uppskattning) använder statistiker olika variabler:

{ displaystyle ^ {2}}

= ^{(Σ ( ${ displaystyle x_ {i}}$ - μ) ${ displaystyle ^ {2}}$ )}/_n;

{ displaystyle ^ {2}}

= är variansen hos befolkningen. Detta är den grekiska bokstaven minuscule sigma till torget. Variansen uttrycks i kvadratiska måttenheter;

{ displaystyle x_ {i}}

representerar en term av datasatsen;

Villkoren som ingår i Σ kommer att beräknas för varje värde av

{ displaystyle x_ {i}}

och sedan tillsatt

μ är befolkningsgenomsnittet;

n är antalet värden som utgör befolkningen.

Hitta befolkningsgenomsnittet. Vid analys av en hel grupp data, symbolen μ ("mu") representerar det aritmetiska medelvärdet. För att beräkna det, summera alla värden tillsammans och dela dem sedan med antalet data.

Du kanske tror att medelvärdet är också medelvärdet, men var försiktig, eftersom den här termen har olika definitioner i matematik.

exempel: medelvärde = μ =

{ displaystyle { frac {5 + 5 + 8 + 12 + 15 + 18} {6}}}

= 10,5.

Subtrahera genomsnittet från varje värde som utgör befolkningen. Om värdena ligger nära medelvärdet kommer skillnaden att vara nära noll. Upprepa subtraktionen för varje del av befolkningen och du kommer att börja förstå distributionen.

exempel:

{ displaystyle x_ {1}}

- μ = 5 - 10,5 = -5,5

{ displaystyle x_ {2}}

- μ = 5 - 10,5 = -5,5

{ displaystyle x_ {3}}

- μ = 8 - 10,5 = -2,5

{ displaystyle x_ {4}}

- μ = 12 - 10,5 = 1,5

{ displaystyle x_ {5}}

- μ = 15 - 10,5 = 4,5

{ displaystyle x_ {6}}

- μ = 18 - 10,5 = 7,5.

Höj varje resultat. Vid denna tidpunkt kommer några av de tidigare beräknade värdena att vara negativa och andra positiva. Om du har data på en rad av tal representerar dessa grupper siffrorna till vänster och höger om genomsnittet. Detta hjälper inte att beräkna variansen, eftersom dessa värden avbryter varandra. Förhöj squared för att bara få positiva data.

exempel:
(

{ displaystyle x_ {i}}

- μ)

{ displaystyle ^ {2}}

för varje värde av den från 1 till 6:
(-5,5)

{ displaystyle ^ {2}}

= 30,25
(-5,5)

{ displaystyle ^ {2}}

= 30,25
(-2,5)

{ displaystyle ^ {2}}

= 6,25
(1,5)

{ displaystyle ^ {2}}

= 2,25
(4,5)

{ displaystyle ^ {2}}

= 20,25
(7,5)

{ displaystyle ^ {2}}

= 56,25.

Hitta de genomsnittliga resultaten. Nu har du värdet för varje data, relaterat (indirekt) till hur långt det är från medeltalet. Beräkna medelvärdet genom att summera dem och sedan dela resultatet med antalet data.

exempel:
Variation av befolkningen =

{ displaystyle { frac {30.25 + 30.25 + 6.25 + 2.25 + 20.25 + 56.25} {6}} = { frac {145.5} {6}} =}

24,25.

Länk detta resultat till formeln. Om du inte är säker på att den matchar den formel som beskrivs i början av metoden, skriv om hela ekvationen i sin helhet:

Efter att ha beräknat skillnaden från medelvärdet och höjt den till torget har du värdet (

{ displaystyle x_ {1}}

- μ)

{ displaystyle ^ {2}}

, (

{ displaystyle x_ {2}}

- μ)

{ displaystyle ^ {2}}

och så vidare upp till (

{ displaystyle x_ {n}}

- μ)

{ displaystyle ^ {2}}

, var

{ displaystyle x_ {n}}

Det är de senaste uppgifterna från befolkningen.

För att hitta medelvärdet av dessa värden, lägg till dem tillsammans och dela med n: ((

{ displaystyle x_ {1}}

- μ)

{ displaystyle ^ {2}}

+ (

{ displaystyle x_ {2}}

- μ)

{ displaystyle ^ {2}}

+ ... + (

{ displaystyle x_ {n}}

- μ)

{ displaystyle ^ {2}}

) / n

Efter att du har skrivit täljaren igen med sigma notationen får du: ^{(Σ ( ${ displaystyle x_ {i}}$ - μ) ${ displaystyle ^ {2}}$ )}/_n, det vill säga variansformeln.

tips

Eftersom tolkningen av variansen är ganska svår, beräknas den vanligen som utgångspunkt för att få standardavvikelse.
Under provanalys användes "n-1" i stället för "n" i nämnaren heter det Bessel-korrigering. Provet representerar endast en uppskattning av hela befolkningen och provmedlet anpassar sig endast delvis till denna uppskattning. Korrigeringen tillåter oss att eliminera denna felaktighet. Denna uppskattare är relaterad till det faktum att när n-1 poäng är listade, slutpunkten n-hex är obligatorisk, eftersom endast vissa värden kommer att resultera i provvärdet (x)) som används i variansformeln.

Dela på sociala nätverk:

Relaterade

Hur man beräknar variansen

steg

Metod 1

Metod 2

tips