Varians

Ole Camus Januar 2, 2017 V 7 0
FONT SIZE:
fontsize_dec
fontsize_inc

I sandsynlighedsregning og statistik, varians måler, hvor langt et sæt tal er spredt ud. En varians på nul indikerer, at alle værdier er identiske. Varians er altid ikke-negativ: en lille varians angiver, at datapunkterne tendens til at være meget tæt på middelværdien og dermed til hinanden, mens en høj varians angiver, at datapunkterne meget er spredt ud omkring middelværdien og fra hinanden.

En tilsvarende foranstaltning er kvadratroden af ​​variansen, kaldet standardafvigelsen. Standardafvigelsen har samme dimension som de data, og dermed kan sammenlignes med afvigelser fra middelværdien.

Variansen er en af ​​flere deskriptorer for en sandsynlighedsfordeling. Især variansen er et af de øjeblikke af en fordeling. I denne sammenhæng det indgår i en systematisk tilgang til at skelne mellem sandsynlighedsfordelinger. Selv om der er udviklet andre sådanne tilgange, der er baseret på øjeblikke er fordelagtige i forhold til matematiske og beregningsmæssige enkelhed.

Variansen er en parameter, der beskriver, delvis enten den faktiske sandsynlighedsfordelingen for en observeret population af tal eller den teoretiske sandsynlighedsfordeling af et ikke-fuldt observeret population, hvorfra en prøve af numre er blevet udarbejdet. I sidstnævnte tilfælde kan en prøve af data fra en sådan fordeling anvendes til at konstruere et skøn over variansen af ​​den underliggende fordeling; i de simpleste tilfælde dette skøn kan være prøven varians.

Definition

Variansen af ​​en stokastisk variabel X er sin anden central øjeblik, den forventede værdi af den kvadrerede afvigelse fra middelværdien:

Denne definition omfatter stokastiske variable, der er diskrete, kontinuerlig, hverken eller blandet. Variansen kan også opfattes som kovariansen af ​​en stokastisk variabel med sig selv:

Variansen er også svarer til den anden cumulant over sandsynlighedsfordelingen for X. varians typisk betegnet som Var ,, eller blot σ. Udtrykket for variansen kan udvides:

En huskeregel for ovenstående udtryk er "gennemsnit af firkantede minus kvadratet på middelværdien". Med flydende komma, bør denne ligning ikke bruges, fordi den lider katastrofale annullering, hvis de to komponenter i ligningen er ens i størrelse. Der eksisterer numerisk stabile alternativer.

Kontinuerlig stokastisk variabel

Hvis den stokastiske variabel X er kontinuert med tæthedsfunktionen f, så variansen er givet ved

hvor er den forventede værdi,

og hvor integralerne er bestemte integraler taget for x spænder over intervallet X.

Hvis en kontinuert fordeling ikke har en forventet værdi, som det er tilfældet for Cauchy distribution, har det ikke en varians enten. Mange andre fordelinger af hvor den forventede værdi faktisk eksisterer heller ikke har en endelig varians fordi integreret i definitionen varians divergerer. Et eksempel er en Pareto fordeling, hvis indeks k opfylder.

Diskret stokastisk variabel

Hvis den stokastiske variabel X er diskret med sandsynlighedsmassen funktion x1 ↦ p1, ..., xn ↦ pn, så

hvor er den forventede værdi, dvs.

Variansen af ​​et sæt af N lige sandsynlige værdier kan skrives som

Variansen af ​​et sæt af N lige sandsynlige værdier kan tilsvarende udtryk, uden direkte at henvise til det gennemsnitlige, i form af kvadrerede afvigelser i alle punkter fra hinanden:

Eksempler

Normal fordeling

Normalfordelingen med parametre μ og σ er en kontinuerlig fordeling hvis tæthedsfunktion er givet ved:

Det har betyder μ og varians lig med:

Rolle normalfordelingen i den centrale grænseværdisætning er delvist ansvarlig for udbredelsen af ​​variansen i sandsynlighed og statistik.

Eksponentialfordeling

Den eksponentielle fordeling med parameter λ er en kontinuerlig fordeling, hvis støtte er den semi-uendelig intervallet [0, ∞). Dens sandsynlighedstæthedsfunktion er givet ved:

og det har forventede værdi u-= λ. Variansen er lig med:

Så for en eksponentielt stokastisk variabel σ = μ.

Poisson-fordeling

Poisson fordeling med parameter λ er en diskret fordeling for k = 0, 1, 2, ... Dens sandsynlighedsmassen funktion er givet ved:

og det har forventede værdi u-= λ. Variansen er lig med:

Så for en Poisson-fordelt stokastisk variabel σ = μ.

Binomialfordeling

Binomialfordelingen med parametre n og p er en diskret fordeling for k = 0, 1, 2, ..., n. Dens sandsynlighedsmassen funktion er givet ved:

og det har middelværdi μ = np. Variansen er lig med:

Lodtrækningen

Binomialfordelingen Yousef med beskriver sandsynligheden for at få hovedet i kast. Således den forventede værdi af antallet af hoveder er, og variansen er.

Fair dø

En seks-sidet rimelig matrice kan modelleres med en diskret stokastisk variabel med resultater 1 til 6, hver med lige stor sandsynlighed. Den forventede værdi / 6 = 3,5. Derfor variansen kan beregnes til at være:

Den generelle formel for variansen af ​​resultatet X en matrice af n sider er:

Egenskaber

Grundlæggende egenskaber

Varians er ikke-negative, fordi de pladser er positiv eller nul.

Variansen af ​​en konstant stokastisk variabel er nul, og hvis variansen af ​​en variabel i et datasæt er 0, så alle poster har samme værdi.

Varians er invariant med hensyn til ændringer i en placering parameter. Det vil sige, hvis der tilsættes en konstant for alle værdier af variablen, variansen er uændret.

Hvis alle værdier er skaleret ved hjælp af en konstant, er variansen skaleret med kvadratet på at konstant.

Variansen af ​​en sum af to stokastiske variable er givet ved:

hvor Cov er kovariansen. Generelt har vi for summen af ​​stokastiske variable:

Disse resultater fører til variansen af ​​en lineær kombination som:

Hvis de tilfældige variable er således, at

de siges at være ukorrelerede. Det følger umiddelbart af udtrykket ovenfor anførte, at hvis de tilfældige variable er ukorrelerede, så variansen af ​​deres sum er lig med summen af ​​deres varianser, eller udtrykt symbolsk:

Da uafhængige stokastiske variable er altid ukorrelerede, ligningen ovenfor gælder især, når de stokastiske variable er uafhængige. Således uafhængighed er tilstrækkelig, men ikke nødvendig for variansen af ​​det beløb lig med summen af ​​varianserne.

Sum af ukorrelerede variable

En af grundene til brug af variansen frem for andre mål for spredning er, at variansen af ​​summen af ​​ukorrelerede stokastiske variable er summen af ​​deres varianser:

Denne erklæring kaldes Bienaymé formel, og blev opdaget i 1853. Den er ofte lavet med den stærkere betingelse, at variablerne er uafhængige, men at være ukorrelerede tilstrækkelig. Så hvis alle variable har samme varians σ, så da division med n er en lineær transformation, denne formel umiddelbart indebærer, at variansen af ​​middelværdien er

Det vil sige, at variansen af ​​middelværdien falder, når n vokser. Denne formel for variansen af ​​middelværdien anvendes i definitionen af ​​standardfejlen af ​​prøven middelværdi, som anvendes i den centrale Grænseværdisætning.

Produkt af uafhængige variable

Hvis to variable X og Y er uafhængige, er variansen af ​​deres produkt afgivet

Summen af ​​korrelerede variable

Generelt, hvis variablerne er korreleret, så variansen af ​​deres sum er summen af ​​deres kovarianser:

 = Var.)

Her Cov er kovariansen, som er nul for uafhængige stokastiske variable. Formlen, at variansen af ​​en sum er lig med summen af ​​alle elementer i kovariansmatricen af ​​komponenterne. Denne formel anvendes i teorien om Cronbachs alfa i den klassiske test teori.

Så hvis variablerne har lige varians σ og den gennemsnitlige korrelation af forskellige variabler er ρ, så variansen af ​​deres gennemsnitlige er

Dette indebærer, at variansen af ​​middelværdien stiger med gennemsnittet af korrelationerne. Med andre ord yderligere korrelerede observationer er ikke så effektive som yderligere uafhængige observationer på at reducere usikkerheden af ​​middelværdien. Desuden, hvis de variabler enhed varians, for eksempel hvis de er standardiseret, så dette forenkler til

Denne formel anvendes i Spearman-Brown forudsigelse formel for klassiske test teori. Dette konvergerer med p hvis n går mod uendelig, forudsat at den gennemsnitlige korrelation forbliver konstant eller konvergerer også. Så for variansen af ​​middelværdien af ​​standardiserede variabler med lige korrelationer eller konvergerende gennemsnitlige korrelation vi har

Derfor variansen af ​​middelværdien af ​​et stort antal standardiserede variabler er omtrent lig med deres gennemsnitlige korrelation. Dette gør det klart, at prøven gennemsnit af korrelerede variabler generelt ikke konvergerer til befolkningen betyder, selvom loven om store tal, at prøven betyder vil konvergere for uafhængige variable.

Vægtet sum af variable

Den skalering ejendom og Bienaymé formel, sammen med ejendom kovariansen Cov = ab Cov fællesskab indebærer, at

Dette indebærer, at en vægtet sum af variabler, vil variablen med den største vægt har en uforholdsmæssig stor vægt i variansen af ​​det samlede antal. For eksempel, hvis X og Y er ukorrelerede og vægten af ​​X er to gange vægten af ​​Y, så vægten af ​​variansen af ​​X vil være fire gange vægten af ​​variansen af ​​Y.

Udtrykket ovenfor kan udvides til en vægtet sum af flere variabler:

Nedbrydning

Den generelle formel for varians nedbrydning eller loven i den samlede varians er: Hvis og er to stokastiske variable, og variansen af ​​eksisterer, så

Her er den betingede forventning om givet, og er den betingede varians givet. Denne formel anvendes ofte i variansanalyse, hvor den tilsvarende formel er

her refererer til gennemsnittet for Squares. Det anvendes også i lineær regressionsanalyse, hvor den tilsvarende formel er

Dette kan også udledes af additive varianser, da den samlede score er summen af ​​den forudsagte score og fejlen score, hvoraf de to sidste er ukorrelerede.

Lignende dekomponeringer er mulige for summen af ​​kvadrerede afvigelser:

Formler for variansen

En formel ofte bruges til at udlede variansen af ​​en teoretisk fordeling er som følger:

Det vil være nyttigt, når det er muligt at udlede formler for den forventede værdi, og for den forventede værdi af pladsen.

Denne formel er også undertiden anvendes i forbindelse med prøven varians. Mens nyttige for hånd beregninger, er det ikke anbefales til computerberegninger, som det lider katastrofalt aflysning, hvis de to komponenter i ligningen er ens i størrelse og floating point aritmetik bruges. Dette diskuteres i artiklen Algoritmer til beregning varians.

Beregning fra CDF

Populationsvariansen for en ikke-negativ stokastisk variabel kan udtrykkes i form af den kumulative fordelingsfunktion F hjælp

Dette udtryk kan anvendes til at beregne variansen i situationer, hvor CDF, men ikke densiteten, kan hensigtsmæssigt udtrykkes.

Karakteristisk egenskab

Den anden øjeblik af en stokastisk variabel opnår den mindste værdi, når taget omkring det første øjeblik af den stokastiske variabel, dvs.. Omvendt, hvis en kontinuerlig funktion opfylder for alle stokastiske variable X, så er det nødvendigvis af formen, hvor. Dette gælder også i den flerdimensionale tilfælde.

Matrix notation for variansen af ​​en linearkombination

Definer som en søjlevektor af tilfældige variable, og som en søjlevektor af skalarer. Derfor er en lineær kombination af disse stokastiske variable, hvor betegner den transponerede. Lad også være kovarians matrix af. Variansen af ​​er da givet ved:

Måleenheder

I modsætning til forventet absolutte afvigelse, variansen af ​​en variabel har enheder, der er kvadratet på andele i variablen selv. For eksempel vil en variabel målt i meter har en varians målt i kvadratmeter. Af denne grund beskriver datasæt via deres standardafvigelse eller kvadratrodsafvigelsen foretrækkes ofte ved at benytte variansen. I terningerne eksempel standardafvigelsen er √2.9 ≈ 1,7, lidt større end den forventede absolutte afvigelse på 1,5.

Standardafvigelsen og den forventede absolutte afvigelse kan både bruges som en indikator for "spread" af et distributionsnet. Standardafvigelsen er mere modtagelig for algebraisk manipulation end den forventede absolutte afvigelse, og sammen med varians og dens generalisering kovarians, der bruges hyppigt i teoretisk statistik; men den forventede absolutte afvigelse tendens til at være mere robust, da det er mindre følsom over for outliers følge af måling uregelmæssigheder eller en urimelig tung-tailed fordeling.

Tilnærme variansen af ​​en funktion

Delta metode bruger anden ordens Taylor udvidelser at tilnærme variansen af ​​en funktion af en eller flere tilfældige variabler se Taylor udvidelser for øjeblikke af funktioner af tilfældige variable. For eksempel er den omtrentlige variansen af ​​en funktion af en variabel afgivet

forudsat at f er dobbelt differentiable og at middelværdien og variansen af ​​X er begrænsede.

Befolkning varians og prøve varians

Virkelige verden distributioner såsom fordelingen af ​​gårsdagens regn i løbet af dagen er typisk ikke helt kendt, i modsætning adfærd perfekte terninger eller en ideel fordeling såsom normalfordelingen, fordi det er upraktisk at redegøre for hver regndråbe. I stedet man estimerer middelværdi og varians af hele fordelingen ved hjælp af en estimator, en funktion af prøven på n observationer trukket passende tilfældigt fra hele prøven plads i dette eksempel mængden af ​​alle målinger af gårsdagens regn i alle tilgængelige nedbørmålere. De simpleste estimatorer for befolkningen betyder, og befolkningen varians er simpelthen middelværdien og variansen af ​​prøven, prøven betyder og prøve varians - disse er konsistente estimatorer, men kan forbedres. Estimering populationsvariansen er variansen af ​​prøven er tæt på optimal i almindelighed, men kan forbedres på to uforenelige måder. Prøven varians beregnes som et gennemsnit af kvadrerede afvigelser omkring middelværdien, mest blot dividere med n. Men ved hjælp af andre værdier end n forbedrer estimatoren på forskellige måder. Fire fælles værdier for nævneren er n, n - 1, n + 1, og n - 1,5: n er den enkleste, n - 1 eliminerer forspænding, n + 1 minimerer middelkvadratfejlen fejl for normalfordelingen og n - 1,5 meste eliminerer skævhed i uvildig vurdering af standardafvigelse for normalfordelingen.

For det første, hvis middelværdien er ukendt, så prøven varians er en forudindtaget estimator: det undervurderer variansen med en faktor / n; korrigere med denne faktor kaldes Bessel korrektion. Den resulterende estimator er uvildig, og kaldes prøven varians eller saglig prøve varians. For eksempel, når n = 1 variansen af ​​en enkelt observation om stikprøvegennemsnittet er naturligvis nul uanset den sande varians. Hvis det gennemsnitlige bestemmes på anden måde end fra de samme prøver, der anvendes til at estimere variansen så er denne skævhed opstår ikke, og variansen kan roligt estimeres som for prøverne omkring middel.

For det andet betyder prøven varians ikke generelt minimere gennemsnitlige kvadrerede fejl, og korrigere for fordomme ofte gør denne værre: man kan altid vælge en skala faktor, der præsterer bedre end den korrigerede prøve varians, selvom den optimale skaleringsfaktor afhænger af overskridelsen kurtosis af befolkning, og indfører bias. Denne består altid af skalering ned estimator, og er et simpelt eksempel på en krympning estimator: en "formindsker" estimator mod nul. For normalfordelingen, dividere med n + 1 minimerer betyde kvadrerede fejl. Den resulterende estimator er forspændt, dog, og er kendt som den forspændte prøvevariation.

Befolkning varians

Generelt er populationsvariansen af ​​et finit population af størrelse N med værdier xi afgivet

hvor

er befolkningen middelværdien. Populationsvariansen derfor variansen af ​​den underliggende sandsynlighedsfordeling. I den forstand kan begrebet befolkning udvides til kontinuerte stokastiske variable med uendelige befolkninger.

Prøve varians

I mange praktiske situationer, er den sande varians af en population ikke kendt på forhånd og skal beregnes en eller anden måde. Når det drejer sig ekstremt store populationer, er det ikke muligt at tælle hvert objekt i populationen, således at beregningen skal udføres på en prøve af befolkningen. Prøve varians kan også anvendes til beregning af variansen af ​​en kontinuerlig fordeling fra en prøve af denne fordeling.

Vi tager en prøve med udskiftning af n værdier y1, ..., yn fra befolkningen, hvor n & lt; N og estimere variansen på grundlag af denne prøve. Direkte tage variansen af ​​prøven data giver gennemsnittet af de kvadrerede afvigelser:

Her betegner stikprøvegennemsnittet:

Da yi udvælges tilfældigt, både og er tilfældige variable. Deres forventede værdier kan vurderes som summen over ensemble af alle mulige prøver {yi} fra populationen. Til dette giver:

Derfor giver et skøn over populationsvariansen, der er forspændt med en faktor. Af denne grund omtales som den forspændte variansen. Korrektion for denne skævhed giver den fordomsfri prøve variansen:

Enten estimator kan simpelthen benævnt variansen når versionen kan bestemmes ved kontekst. Det samme bevis gælder også for prøver udtaget fra en kontinuerlig sandsynlighedsfordeling.

Anvendelsen af ​​udtrykket n - 1 kaldes Bessel korrektion, og det anvendes også i prøven kovarians og prøvens standardafvigelse. Kvadratroden er en konkav og dermed indfører negative forspænding, som afhænger af fordelingen og dermed den korrigerede prøvens standardafvigelse er forspændt. Den fordomsfri vurdering af standardafvigelsen er et teknisk involveret problem, selvom for normalfordelingen bruge udtrykket n - 1.5 giver en næsten estimator.

Den objektiv variansen er en U-statistik for funktionen ƒ = / 2, hvilket betyder, at den er opnået ved et gennemsnit på 2-stikprøve statistik over 2-element undergrupper af befolkningen.

Fordeling af prøven varians

Distribution og kumulativ fordeling af s / σ, for forskellige værdier af ν = n - 1, da yi er uafhængige normalfordelte.

Er en funktion af stokastiske variable, prøven variansen er i sig selv en stokastisk variabel, og det er naturligt at studere dens fordeling. I det tilfælde, yi er uafhængige observationer fra en normalfordeling, Cochran teorem viser at s følger en skaleret chi i anden-fordeling:

Som en direkte konsekvens, følger det, at

og

Hvis yi er uafhængige og identisk fordelte, men ikke nødvendigvis normalfordelt, så

hvor κ er den overskydende kurtosis af distributionen og μ4 er den fjerde øjeblik om middelværdien.

Hvis betingelserne i loven i store tal hold i de kvadrerede observationer, s er en konsekvent estimatoren for σ .. Man kan se faktisk, at variansen af ​​estimatoren tendens asymptotisk til nul.

Samuelson ulighed

Samuelson ulighed er et resultat, der hedder grænser på de værdier, som de enkelte observationer i en prøve kan tage, da prøven betyder og varians er beregnet. Værdier skal ligge inden for de grænser

Forbindelser med de harmoniske og aritmetiske midler

Det er blevet vist, at for en prøve {yi} af reelle tal,

hvor ymax er den maksimale af prøven, A er det aritmetiske gennemsnit, H er det harmoniske gennemsnit af prøven og er variansen af ​​prøven.

Denne bundne er blevet forbedret, og det er kendt, at variansen er afgrænset af

hvor ymin er minimum af prøven.

Semivariance

Den semivariance beregnes på samme måde som variansen men kun de observationer, der ligger under gennemsnittet, er medtaget i beregningen. Det er undertiden beskrives som et mål for downside risiko i en investering sammenhæng. For skæve fordelinger kan semivariance give yderligere oplysninger, som en varians ikke.

Generaliseringer

Hvis er en vektor-værdsat stokastisk variabel med værdier i, og tænkte på som en kolonne vektor, så den naturlige generalisering af variansen er, hvor og er transponerede, og så er en række vektor. Denne varians er en positiv semi-konkret kvadratisk matrix, almindeligvis benævnt kovariansmatricen.

Hvis er en kompleks-værdsat stokastisk variabel med værdier i, så dens varians er, hvor er konjugerede transponerede. Denne varians er også en positiv semi-konkret kvadratisk matrix.

Test af ligestilling mellem varianser

Test for ligestilling mellem to eller flere varianser er vanskelig. F-test og chi kvadrat test både negativt påvirket af ikke-normalitet og anbefales ikke til dette formål.

Flere ikke parametriske tests er blevet foreslået: disse omfatter Barton-David-Ansari-Freund-Siegel-Tukey testen, Capon test, Mood testen, Klotz testen og Sukhatme testen. Den Sukhatme testen gælder for to varianser og kræver, at begge medianerne være kendt og lig med nul. Stemningen, Klotz, Capon og Barton-David-Ansari-Freund-Siegel-Tukey tests gælder også for to varianser. De tillader medianen er ukendt, men kræver, at de to medianer er ens.

Lehman testen er en parametrisk test af to varianser. Af denne test er der flere varianter kendt. Andre tests af lighed mellem varianser omfatter Box testen, Box-Anderson testen og Moses testen.

Resampling metoder, heriblandt bootstrap og lommekniv, kan anvendes til at teste lighed varianser.

Historie

Udtrykket varians blev først introduceret af Ronald Fisher i hans 1918 papir Korrelationen mellem slægtninge på den antagelse af Mendelsk Arv:

Inertimoment

Variansen af ​​en sandsynlighedsfordeling er analog med inertimomentet i klassisk mekanik af en tilsvarende massedistribution langs en linie, med hensyn til rotation omkring dens centrum af massen. Det er på grund af denne analogi, at sådanne ting som variansen kaldes øjeblikke af sandsynlighedsfordelinger. Kovariansmatricen er relateret til inertimomentet tensor for multivariate distributioner. Inertimomentet af en sky af n punkter med en kovariansmatrix af er givet ved

Denne forskel mellem inertimoment i fysik og i statistik er klart for punkter, der er samlet langs en linje. Antag mange punkter er tæt på x-aksen og fordelt langs det. Kovariansmatricen kunne ligne

Det vil sige, der er den mest varians i x-retningen. Imidlertid vil fysikere mener, at dette har en lav tidspunkt omkring x-aksen, så det øjeblik-of-inertia tensor er

  Like 0   Dislike 0
Forrige artikel Walmart Marked
Næste artikel De Modsætninger
Kommentarer (0)
Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha