• Hajumis- ja täpsusdiagrammide meetod. Väikesed proovid Hajumis- ja täppisgraafikute meetod

    21.07.2023

    Inimene saab oma võimeid ära tunda ainult neid rakendades. (Seneca)

    Bootstrap, väikesed näidised, rakendus andmeanalüüsis

    peamine idee

    Bootstrap meetodi pakkus B. Efron välja jacknife meetodi edasiarendusena 1979. aastal.

    Kirjeldame bootstrapi põhiideed.

    Andmeanalüüsi eesmärk on saada kõige täpsem valikuline hindab ja levitab tulemusi kogu elanikkonnale.

    Valimi põhjal koostatud arvandmete tehniline termin on näidisstatistika.

    Peamine kirjeldav statistika on valikuline keskmine, mediaan, standardhälve jne.

    Saadud statistika, nagu valimi keskmine, mediaan, korrelatsioon, on valimiti erinev.

    Teadlane peab teadma nende kõrvalekallete suurust sõltuvalt populatsioonist. Selle põhjal arvutatakse veapiir.

    Valimistatistika kõigi võimalike väärtuste esialgset pilti tõenäosusjaotuse kujul nimetatakse valimijaotuseks.

    Võti on suurus proovid. Mis siis, kui valimi suurus on väike? Üks mõistlik lähenemine on juhuslik eraldage andmed olemasolevast proovist.

    Bootstrapi idee on kasutada valimiarvutuste tulemusi näivpopulatsioonina, et määrata statistika valimijaotus. Tegelikult analüüsib suur"fantoomnäidiste" arv, mida nimetatakse bootstrap näidisteks.

    Tavaliselt genereeritakse juhuslikult mitu tuhat valimit, sellest komplektist leiame meile huvipakkuva statistika bootstrap jaotuse.

    Oletame, et meil on valim, esimeses etapis valime juhuslikult ühe näidiselemendi, tagastame selle elemendi valimile, valime elemendi juhuslikult uuesti ja nii edasi.

    Kordame kirjeldatud juhusliku valiku protseduuri n korda.

    Bootstrapis tehakse juhuslik valik tagasi, algse proovi valitud elemendid naaseb valimisse ja seejärel saab uuesti valida.

    Formaalselt valime igas etapis algse valimi elemendi tõenäosusega 1/n.

    Kokku on meil algvalimi elemente n, tõenäosust saada valim arvudega (N 1 ... Nn ), kus Ni varieerub vahemikus 0 kuni n, kirjeldatakse polünoomjaotusega.

    Selliseid näidiseid genereeritakse mitu tuhat, mis on tänapäevaste arvutite jaoks üsna saavutatav.

    Iga valimi jaoks koostatakse huvipakkuva koguse hinnang, seejärel arvutatakse hinnangud keskmisena.

    Kuna valimeid on palju, on võimalik koostada hinnangute empiiriline jaotusfunktsioon, seejärel arvutada kvantilid ja arvutada usaldusvahemik.

    On selge, et bootstrap meetod on Monte Carlo meetodi modifikatsioon.

    Kui proovid on loodud tagasitulekut pole elemendid, siis saadakse tuntud jacknife meetod.

    Küsimus: miks seda teha ja millal on mõistlik meetodit reaalses andmeanalüüsis kasutada?

    Bootstrapis me uut infot ei saa, vaid kasutame olemasolevaid andmeid targalt, lähtudes käsil olevast ülesandest.

    Näiteks saab kasutada bootstrapi väike valimid mediaani, korrelatsioonide, usaldusvahemike konstrueerimiseks ja muudes olukordades.

    Efroni algses dokumendis käsitleti paarikaupa korrelatsiooni hinnanguid valimi suurusele n = 15.

    B = genereeritakse 1000 alglaadimisnäidist (bootstrap replikatsioon ).

    Saadud koefitsientide ro 1 … ro B põhjal konstrueeritakse korrelatsioonikordaja üldhinnang ja standardhälbe hinnang.

    Normaallähendusega arvutatud valimi korrelatsioonikordaja standardviga on:

    kus korrelatsioonikordaja on 0,776, on valimi esialgne suurus n = 15.

    Standardvea alglaadimisprognoos on 0,127, vt Efron, Gall Gong, 1982.

    Teoreetiline taust

    Olgu uuringu sihtparameetriks näiteks keskmine sissetulek valitud ühiskonnas.

    Suvalise suurusega valimi jaoks saame andmestiku Olgu vastav valimi statistika

    Enamiku näidisstatistika jaoks koos suur väärtus (>30) valimijaotus on keskpunkti ja standardhälbega normaalkõver, kus positiivne parameeter sõltub üldkogumist ja statistika tüübist

    Seda klassikalist tulemust tuntakse keskpiiri teoreemina.

    Andmete nõutava standardhälbe hindamisel esineb sageli olulisi tehnilisi raskusi.

    Näiteks kui mediaan või proovi korrelatsioon.

    Alglaadimismeetod väldib neid raskusi.

    Idee on lihtne: tähistage suvalise väärtusega, mis esindab sama statistikat, mis on arvutatud algsest proovist saadud alglaadimisproovist

    Mida saab öelda valimi jaotuse kohta, kui "algne" valim on fikseeritud?

    Limiidis on diskreetijaotus ka kellakujuline parameetritega ja

    Seega läheneb alglaadimisjaotus hästi valimijaotusele

    Pange tähele, et kui liigume ühelt valimilt teisele, muutub ainult avaldis, kuna see arvutatakse

    See on sisuliselt keskpiiri teoreemi alglaadimisversioon.

    Samuti on leitud, et kui statistilise funktsiooni piirav valimijaotus ei sisalda populatsiooni tundmatuid, annab alglaadimisjaotus valimijaotuse parema lähenduse kui keskne piirteoreem.

    Täpsemalt, kui statistilise funktsiooni vorm on standardvea tõene või valimihinnang, on valimi piirjaotus tavaliselt standardnormaal.

    Seda efekti nimetatakse teist järku korrigeerimiseks alglaadimise abil.

    Las st. rahvastiku keskmine jne. valimi keskmine; on üldkogumi standardhälve, on algandmete põhjal arvutatud valimi standardhälve ja arvutatakse alglaadimisvalimi põhjal.

    Seejärel arvutatakse väärtuse valimijaotus, kus , alglaadimisjaotusega , kus on alglaadimise valimi keskmine väärtus.

    Sarnaselt arvutatakse valimijaotus ligikaudselt alglaadimisjaotusega , kus .

    Esimesed tulemused teist järku korrigeerimise kohta avaldasid Babu ja Singh aastatel 1981–1983.

    Bootstrap rakendused

    Valimi hinnangu standardvea lähendamine

    Oletame, et parameeter on üldkogumi jaoks teada

    Olgu hinnang, mis põhineb juhuslikul suurusel valimil, st. on funktsioon, kuna valim varieerub kõigi võimalike valimite hulgas, kasutatakse standardvea hindamiseks järgmist lähenemisviisi:

    Arvutage sama valemiga, mida kasutati, kuid seekord põhinedes erineva alglaadimismahu näidistel. Jämedalt öeldes võib sellega nõustuda, kui see ei ole väga suur. Sel juhul saab seda vähendada n ln n. Siis saab selle määrata, lähtudes tegelikult alglaadimismeetodi olemusest: populatsioon (valim) asendatakse empiirilise populatsiooniga (valim).

    Bayesi korrektsioon bootstrap meetodil

    Valimi jaotuse keskmine sõltub sageli tavaliselt suurest, st Bayesi lähendusest:

    kus on alglaadimiskoopia . Siis on kohandatud väärtus -

    Väärib märkimist, et populaarsem on eelmine resampling meetod, mida nimetatakse jacknife meetodiks.

    Usaldusintervallid

    Teatud parameetri usaldusvahemikud (CI) on valimipõhised vahemikud.

    Sellel vahemikul on omadus, et sellesse kuulub väga kõrge (eelseadistatud) tõenäosusega väärtus. Seda nimetatakse olulisuse tasemeks. Loomulikult peab see tõenäosus kehtima kõigi võimalike valimite puhul, kuna iga valim aitab kaasa usaldusvahemiku määramisele. Kaks kõige sagedamini kasutatavat olulisuse taset on 95% ja 99%. Siin piirdume 95% väärtusega.

    Traditsiooniliselt sõltub CI koguse proovijaotusest täpsemalt piiris . Bootstrapi abil saab luua kahte peamist tüüpi usaldusvahemikke.

    Protsentiilmeetod

    Seda meetodit on juba sissejuhatuses mainitud, see on oma lihtsuse ja loomulikkuse tõttu väga populaarne. Oletame, et meil on 1000 alglaadimiskoopiat, tähistame neid tähega Siis langevad vahemiku väärtused usaldusvahemikku. Tulles tagasi meetodi teoreetilise põhjenduse juurde, tasub tähele panna, et see eeldab valimijaotuse sümmeetriat ümber Selle põhjuseks on see, et meetod läheneb valimijaotust kasutades alglaadimisjaotus peaks olema ligikaudne väärtusega, mis on vastasmärgiga.

    Tsentreeritud alglaadimisprotsentiili meetod

    Oletame, et diskreetimisjaotus on ligikaudne alglaadimisjaotusega, st nagu algselt alglaadimisel ette nähtud. Tähistame 100. protsentiili (bootstrapi kordustes) kui Siis on eeldus, et väärtus asub vahemikus alates kuni, tõene 95% tõenäosusega. Sama avaldise saab hõlpsasti teisendada sarnaseks vahemiku alates kuni Seda intervalli nimetatakse alglaadimisprotsentiilide keskseks usaldusvahemikuks (olulisuse tasemel 95%).

    bootstrap-t kriteerium

    Nagu juba märgitud, kasutab bootstrap vormi funktsiooni, kus on standardvea näidishinnang

    See annab täiendavat täpsust.

    Põhinäitena võtame standardse t-statistika (sellest ka meetodi nimi): see tähendab erijuhtumit, kus (populatsiooni keskmine), (valimi keskmine) ja - valimi standardhälve. Sellise funktsiooni alglaadimisanaloog on kus arvutatakse samamoodi nagu ja ainult alglaadimisnäidis.

    Tähistame 100. alglaadimisprotsentiili ja eeldame, et väärtus asub intervallis

    Võrdsuse kasutamine võib eelmise väite ümber kirjutada, st. peitub intervallis

    Seda lõhet nimetatakse alglaadimise t-usaldusvahemikuks 95% tasemel.

    Kirjanduses kasutatakse seda eelmisest lähenemisest suurema täpsuse saavutamiseks.

    Reaalandmete näide

    Võtke esimeseks näiteks Hollanderi ja Wolfe'i 1999, lk 63 andmed, mis kirjeldavad valguse mõju tibude koorumiskiirusele.

    Standardne kastdiagramm ei eelda populatsiooniandmete puhul normaalsust. Tegime mediaani ja keskmise alglaadimisanalüüsi.

    Eraldi tasub märkida sümmeetria puudumist bootstrap t-histogrammil, mis erineb standardsest piirkõverast. Mediaani ja keskmise 95% usaldusvahemikud (arvutatud alglaadimisprotsentiili meetodil) katavad ligikaudu vahemiku

    See vahemik näitab üldist erinevust (kasvu) tibude koorumise määra tulemustes sõltuvalt taustvalgustusest.

    Teise näitena võtke arvesse Devore'i 2003. aasta dokumendi lk 553 andmeid, milles vaadeldi professionaalsete jalgpallurite biokeemilise hapnikuvajaduse (BOD) ja hüdrostaatilise massi (HW) tulemuste vahelist seost.

    Kahemõõtmelised andmed koosnevad paaridest ja paare saab alglaadimisresamplimise käigus vabalt valida. Näiteks kõigepealt võta siis jne.

    Joonisel on kast-vurrude diagramm näha põhipopulatsioonide normaalset puudumist. 2D alglaadimisandmete põhjal arvutatud korrelatsioonihistogrammid on asümmeetrilised (nihutatud vasakule).

    Sel põhjusel on tsentreeritud alglaadimisprotsentiili meetod antud juhul sobivam.

    Analüüsi tulemusena selgus, et mõõtmised on korrelatsioonis vähemalt 78% elanikkonnast.

    Andmed näiteks 1:

    8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

    Andmed näiteks 2:

    2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

    8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

    Kirjanduses pakutakse sageli erinevaid alglaadimise skeeme, mis võiksid erinevates statistilistes olukordades anda usaldusväärseid tulemusi.

    Eespool käsitletu on ainult kõige põhilisemad elemendid ja tegelikult on palju muid vooluringi võimalusi. Näiteks millist meetodit on parem kasutada kaheetapilise valimi või kihilise valimi puhul?

    Sel juhul pole loomuliku skeemi leiutamine keeruline. Alglaadimine regressioonimudelitega andmete puhul tõmbab üldiselt palju tähelepanu. Peamiselt on kaks meetodit: esimese puhul valitakse kovariatsioonid ja vastusemuutujad uuesti kokku (paired bootstrapping), teise puhul teostatakse jääklaadimine (residual bootstrapping).

    Paarimeetod jääb õigeks (tulemuste osas ) isegi siis, kui mudelite vigade variatsioonid ei ole võrdsed. Teine meetod on antud juhul vale. Seda puudust kompenseerib asjaolu, et selline skeem annab standardvea hindamisel täiendava täpsuse.

    Aegridade andmetele on alglaadimist palju keerulisem rakendada.

    Aegridade analüüs on aga ökonomeetria üks võtmevaldkondi. Siin võib eristada kahte peamist raskust: esiteks on aegridade andmetel omadus olla järjestikuses sõltuvuses. See tähendab, et sõltub jne.

    Teiseks muutub ajas statistiline üldkogum, st ilmneb mittestatsionaarsus.

    Selleks on välja töötatud meetodid, mis edastavad lähteandmete sõltuvuse alglaadimisnäidistele, eriti plokkskeemile.

    Bootstrap valiku asemel ehitatakse see kohe üles blokk andmed, mis säilitavad sõltuvused algsest proovist.

    Alglaadimise ökonomeetria osadele rakendamise valdkonnas tehakse praegu üsna palju uuringuid, üldiselt arendatakse meetodit aktiivselt.

    Proovid, milles vaatlus hõlmab väikest arvu ühikuid (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

    Väikese valimi piirviga määratakse järgmise valemiga:

    Väikese valimi keskmine viga:

    kus on väikese valimi dispersioon:

    kus on valimi tunnuse keskmine väärtus;

    Vabadusastmete arv

    Väikese valimi usalduskoefitsient, mis ei sõltu ainult etteantud usalduse tõenäosusest, vaid ka valimiühikute arvust.

    Tõenäosus, et üldkeskmine jääb teatud piiridesse, määratakse valemiga

    kus on Studenti funktsiooni väärtus.

    Usalduskoefitsiendi arvutamiseks määratakse funktsiooni väärtus järgmise valemiga:

    Seejärel määratakse Studenti jaotustabeli järgi (vt lisa 4) sõltuvalt funktsiooni väärtusest ja kraadide arvust väärtus.

    Funktsiooni kasutatakse ka tõenäosuse määramiseks, et tegelik normaliseeritud hälve ei ületa tabeli väärtust.


    Teema 7. Seoste statistiline uurimine: Statistilise seose mõiste. Statistilise seose liigid ja vormid. Nähtuste seoste statistilise uurimise ülesanded. Sotsiaal-majanduslike nähtuste seoste tunnused. Seoste statistilise uurimise põhimeetodid.

    korrelatsioon - seos, mis ei ilmne igal üksikjuhul, vaid juhtumite massis keskmistes väärtustes trendi kujul.

    Statistiliste uuringute eesmärk on saada sõltuvusmudel selle praktiliseks kasutamiseks kui lõppeesmärgiks. Selle probleemi lahendamine toimub järgmises järjestuses.

    1. Uuritava nähtuse olemuse ja põhjuse-tagajärje seoste loogiline analüüs. Selle tulemusena määratakse jõudlusnäitaja (y), selle muutumise tegurid, mida iseloomustavad näitajad (x (, x 2, x 3,..., X"). Kahe märgi seos (at Ja X) helistas paaride korrelatsioon. Mitme teguri mõju efektiivsele tunnusele nimetatakse mitmekordne korrelatsioon.

    Suhtlemise üldises suunas võib olla otse Ja tagurpidi. Otseste seostega tunnuse suurenemisega x märk suureneb ka y, tagurpidi - märgi suurenemisega X märk juures väheneb.

    2. Esmase informatsiooni kogumine ning selle homogeensuse ja normaaljaotuse kontrollimine. Populatsiooni homogeensuse hindamiseks kasutatakse faktoritunnuste järgi variatsioonikordajat

    Komplekt loetakse homogeenseks, kui variatsioonikoefitsient ei ületa 33%. Uuritud faktorimärkide jaotuse normaalsuse kontrollimine ( x ( , x 2 , x 3 ,..., X") teostatakse kolme sigma reegli abil. Normaaljaotuse testi tulemused tuleks esitada tabelina.

    Väikese valimi meetodil on suure valimi meetodi ees mitmeid eeliseid. Selle peamised eelised on esiteks arvutustöö mahu vähenemine ja teiseks võimalus jälgida protsessi täpsuse muutumise dünaamikat ajas, mida ei saa teha suure valimi meetodil. Suurproovide meetod saab anda vaid aimu protsessi täpsusest ja stabiilsusest proovivõtuperioodil, mis säilib ka edaspidi, kui protsessi tingimused pärast proovivõttu ei muutu. Tegelikult ei saa sellist tootmistingimuste muutumatust ette näha. Näiteks vahetuse ajal varrasmasinal töötades vahetatakse mitu korda materjali (varraste vahetus), kulumise, masina häälestamise jms tõttu vahetatakse tööriistu, mis võib oluliselt korrigeerida varem saadud jaotusparameetreid. Väikeste proovide meetod, kui viimaseid võetakse regulaarselt kogu vahetuse jooksul teatud ajavahemike järel, võimaldab teil saada täieliku ülevaate protsessi olekust uuringuperioodi jooksul, selgitada välja selle stabiilsuse aste ja tuvastada ka põhjused. protsessi ebapiisava stabiilsuse tõttu aja jooksul, kui see on olemas.

    Väikeste valimite statistiline analüüs viiakse läbi järgmiselt. Näidissuurus n = 5-10 tk. võetakse teatud kindlate ajavahemike järel (näiteks 15-30 minuti pärast). Proovide võtmise aeg määratakse empiiriliselt ja sõltub masina tootlikkusest, valimi suurusest ja tehnoloogilise protsessi stabiilsuse astmest. Iga proovi jaoks peate arvutama ja S. Järgmisena tuleb iga kahe kõrvuti asetseva valimi puhul testida hüpoteesi valimi dispersioonide homogeensuse kohta, kasutades F - Fisheri kriteerium.

    Kui hüpotees leiab kinnitust, näitab see dispersiooni stabiilsust või seda, et võrreldavad proovid on võetud samast üldpopulatsioonist. Kahe valimi dispersioonide homogeensuse hüpoteesi kinnitamisel tuleks kontrollida kahe valimi keskmise homogeensuse hüpoteesi. t - Üliõpilase kriteerium.

    Kahe kõrvuti asetseva proovi võrdsuse hüpoteesi kinnitamine tähendab, et seadme seadistuskeskus selle proovi võtmise hetkel ei muutu ja jääb samaks, mis oli eelmise proovi võtmise ajal, s.t. protsess on stabiilses olekus. Kui kahe keskmise valimi võrdsuse hüpotees ei leia kinnitust, näitab see masina seadistuse keskpunkti nihkumist selle valimi võtmise ajal. Kuna proove võetakse teatud ajavahemike järel, on reguleerimiskeskme nihke või dispersioonitsooni muutuse tuvastamisel võimalik määrata ajavahemik, mille järel protsessi stabiilsuse rikkumine toimus.

    Olles avastanud protsessi stabiilsuse rikkumise fakti, on võimalik kindlaks teha valdkond, kust selle nähtuse põhjust otsida. Proovidispersioonide ebahomogeensus, mis viitab dispersiooni ebastabiilsusele, viitab sellele, et selle põhjust tuleks otsida tööpingist või töödeldava materjali mehaanilistest omadustest. Valimi keskmiste heterogeensus viitab reguleerimiskeskme nihkele (põhjust tuleb otsida instrumendist).

    Seega võttes vahetuse ajal masina jooksvast toodangust teatud ajavahemike järel väikseid proove, arvutades välja valimite keskmised ja dispersioonid, võrreldes ning hinnates nende lahknevust F ja t-kriteeriumite abil, on võimalik kindlaks teha protsessimomendid. häire ja isegi nende häirete allikad.

    Väikese valimi statistika

    Üldtunnustatud on, et S. m. või, nagu seda sageli nimetatakse, "väike n" statistika, pandi paika 20. sajandi esimesel kümnendil W. Gosseti töö avaldamisega, millesse ta paigutas t-jaotuse, mille postuleeris "üliõpilane", kes saavutas hiljem maailmakuulsuse. Sel ajal töötas Gosset Guinnessi õlletehaste statistikuna. Üks tema ülesandeid oli analüüsida järjestikuseid värskelt pruulitud stouti vaatide partiisid. Põhjustel, mida ta kunagi õieti ei selgitanud, katsetas Gosset ideed vähendada õlletehase ladudes väga suurest hulgast vaatidest võetud proovide arvu, et porteri kvaliteeti juhuslikult kontrollida. See pani ta postuleerima t-jaotuse. Kuna Guinnessi õlletehaste harta keelas nende töötajatel uuringu tulemusi avaldada, avaldas Gosset oma eksperimendi tulemused, milles võrreldi proovide võtmise kvaliteedikontrolli, kasutades väikese valimi t-jaotust ja traditsioonilist z-jaotust (normaaljaotust) anonüümselt. pseudonüüm "Õpilane" (Õpilane – kust tuli nimetus t-Studendi levik).

    t-jaotus. T-jaotuse teooriat, nagu ka z-jaotuse teooriat, kasutatakse nullhüpoteesi testimiseks, et kaks valimit on lihtsalt juhuslikud valimid samast populatsioonist ja seetõttu on arvutatud statistika (nt keskmine ja standardhälve) erapooletu. üldpopulatsiooni parameetrid. Erinevalt normaaljaotuse teooriast ei nõua väikeste valimite t-jaotuse teooria aga a priori teadmisi ega täpseid hinnanguid üldkogumi keskmise ja dispersiooni kohta. Veelgi enam, kuigi kahe suure valimi keskmiste erinevuse testimine statistilise olulisuse jaoks nõuab põhimõttelist eeldust üldkogumi tunnuste normaaljaotuse kohta, ei nõua t-jaotuse teooria eeldusi parameetrite kohta.

    On hästi teada, et normaaljaotuse omadusi kirjeldatakse üheainsa kõveraga – Gaussi kõveraga, mis vastab järgmisele võrrandile:

    T-jaotuse korral on terve kõverate perekond esitatud järgmise valemiga:

    Seetõttu sisaldab t võrrand gammafunktsiooni, mis matemaatikas tähendab, et kui n muutub, rahuldab antud võrrandit teine ​​kõver.

    Vabadusastmed

    Võrrandis t tähistab n vabadusastmete arvu (df), mis on seotud populatsiooni dispersiooni hinnanguga (S2), mis on mis tahes hetke genereeriva funktsiooni, näiteks t-jaotuse võrrandi, teine ​​hetk. S.-s näitab vabadusastmete arv, kui palju omadusi jäi vabaks pärast nende osalist kasutamist teatud tüüpi analüüsis. T-jaotuses on üks hälvetest valimi keskmisest alati fikseeritud, kuna kõigi selliste kõrvalekallete summa peab võrduma nulliga. See mõjutab ruutude summat valimi dispersiooni arvutamisel parameetri S2 erapooletu hinnanguna ja tulemuseks on df, mis võrdub iga valimi mõõtmiste arvuga, millest on lahutatud üks. Seega t-statistika arvutamise valemites ja protseduurides nullhüpoteesi testimiseks df = n - 2.

    F-ruumi jaotus. T-testiga testitud nullhüpotees on see, et kaks valimit võeti juhuslikult samast populatsioonist või et need võeti juhuslikult kahest erinevast populatsioonist, millel oli sama dispersioon. Aga mis siis, kui teil on vaja analüüsida rohkem rühmi? Vastust sellele küsimusele otsiti kakskümmend aastat pärast seda, kui Gosset avastas t-jaotuse. Selle valmistamisega olid otseselt seotud kaks 20. sajandi silmapaistvamat statistikut. Üks - suurim inglise statistik R. A. Fisher, kes pakkus välja esimese teooria. ravimvormid, mille väljatöötamine viis F-jaotuseni; tema Gosseti ideid arendav töö väikeste valimite teooriast ilmus 1920. aastate keskel (Fisher, 1925). Teine on George Snedecor, üks esimesi Ameerika statistikuid, kes töötas välja viisi, kuidas võrrelda kahte sõltumatut mis tahes suurusega valimit, arvutades dispersiooni kahe hinnangu suhte. Ta nimetas seda suhet Fischeri järgi F-suhteks. Uurimistulemused. Snedekor viis selleni, et F-jaotust hakati täpsustama kahe statistika c2 suhte jaotusena, millest igaühel on oma vabadusastmed:

    Sellest tulenes Fisheri klassikaline dispersioonanalüüsi töö, statistiline tehnika, mis on selgesõnaliselt orienteeritud väikeste valimite analüüsile.

    Diskreetjaotus F (kus n = df) on esitatud järgmise võrrandiga:

    Nagu t-jaotuse puhul, näitab gammafunktsioon, et on olemas jaotuste perekond, mis rahuldab F võrrandit. Sel juhul sisaldab analüüs aga kahte df suurust: vabadusastmete arvu jaotuse jaoks. lugeja ja F-suhte nimetaja jaoks.

    Tabelid t- ja F-statistika hindamiseks. Nullhüpoteesi testimisel C. abil suurte valimite teooria põhjal on tavaliselt vaja ainult ühte võrdlustabelit - normaalhälbete tabelit (z), mis võimaldab teil määrata normaalkõvera alune pindala mis tahes kahe väärtuse vahel z-st x-teljel. Kuid t- ja F-jaotuse tabelid on tingimata esitatud tabelite komplektina, kuna need tabelid põhinevad mitmetel jaotustel, mis tulenevad vabadusastmete arvu muutumisest. Kuigi t- ja F-jaotused on tõenäosustiheduse jaotused, nagu ka suurte valimite normaaljaotus, erinevad need viimasest nende kirjeldamiseks kasutatud nelja momendi poolest. Näiteks t-jaotus on sümmeetriline (märka selle võrrandis t2) kõigi df-de puhul, kuid muutub valimi suuruse vähenedes üha harilikumaks. Tippkõverad (tavalisest suurema kurtoosiga) kipuvad olema vähem asümptootilised (st jaotuse otstes x-teljele lähemal) kui normaalse kurtoosiga kõverad, näiteks Gaussi kõver. See erinevus põhjustab märgatavaid lahknevusi x-telje punktide vahel, mis vastavad t ja z väärtustele. Kui df = 5 ja kahepoolne tase a on 0,05, siis t = 2,57, samas kui vastav z = 1,96. Seetõttu näitab t = 2,57 statistilist olulisust 5% tasemel. Tavakõvera puhul aga näitaks z = 2,57 (täpsemalt 2,58) juba 1% statistilise olulisuse taset. Sarnaseid võrdlusi saab teha ka F-jaotusega, kuna t on võrdne F-ga, kui valimite arv on kaks.

    Mida kujutab endast "väike" proov?

    Omal ajal tõstatati küsimus, kui suur peaks valim olema, et seda väikeseks pidada. Sellele küsimusele lihtsalt pole lõplikku vastust. Siiski on tavaks pidada väikese ja suure valimi tingimuslikuks piiriks df = 30. Selle mõneti meelevaldse otsuse aluseks on t-jaotuse ja normaaljaotuse võrdlemise tulemus. Nagu ülalpool märgitud, kaldub t ja z väärtuste lahknevus suurenema vähenedes ja vähenema df suurenemisega. Tegelikult hakkab t lähenema z-le juba ammu enne piirjuhtumit, kui t = z df = ∞ korral. Tabeli t väärtuste lihtne visuaalne uurimine võimaldab teil näha, et see lähendus muutub üsna kiireks, alates df = 30 ja üle selle. t (df = 30 juures) ja z võrdlusväärtused on vastavalt: 2,04 ja 1,96 p = 0,05 korral; 2,75 ja 2,58, kui p = 0,01; 3,65 ja 3,29 p = 0,001 korral.

    Muu statistika "väikeste" proovide kohta

    Kuigi statistilised testid, nagu t ja F, on spetsiaalselt välja töötatud väikeste valimite jaoks, on need samaväärsed ka suurte valimite jaoks. Siiski on palju muid statistilisi meetodeid, mis on loodud väikeste valimite analüüsimiseks ja mida sageli kasutatakse just sel eesmärgil. Need tähendavad nn. mitteparameetrilised või jaotusvabad meetodid. Põhimõtteliselt on nendes meetodites esinevad S. ette nähtud kasutamiseks mõõtmiste puhul, mis on saadud skaaladega, mis ei vasta suhte või intervallskaala definitsioonile. Enamasti on need järgulised (järgu) või nominaalsed mõõtmised. Mitteparameetrilised S. ei nõua eeldusi jaotuse parameetrite kohta, eriti dispersioonihinnangute osas, kuna järg- ja nominaalskaala välistavad dispersiooni mõiste. Sel põhjusel kasutatakse mitteparameetrilisi meetodeid ka intervall- ja suhteskaalaga saadud mõõtmiste puhul, kui analüüsitakse väikeseid proove ja on võimalus, et rikutakse parameetriliste meetodite rakendamiseks vajalikke põhieeldusi. Selliste C.-de hulgas, mida saab mõistlikult rakendada väikestele valimitele, on järgmised: Fisheri täpse tõenäosuse test, Friedmani kahefaktoriline mitteparameetriline (aste) dispersioonanalüüs, Kendalli järgu korrelatsioonikordaja t, Kendalli vastavuskordaja (W), Kruskali H-kriteerium - Wallace mitteparameetrilise (aste) ühesuunalise dispersioonanalüüsi, Mann-Whitney U-testi, mediaantesti, märgitesti, Spearmani auaste korrelatsioonikordaja r ja Wilcoxoni t-testi jaoks.

    Variatiivsuse uurimisel eristatakse kvantitatiivseid ja kvalitatiivseid märke, mille uurimist teostab variatsioonistatistika, mis põhineb tõenäosusteoorial. Tõenäosus näitab konkreetse tunnusega kohtumise võimalikku sagedust. P=m/n, kus m on antud tunnuse väärtusega isendite arv; n on kõigi rühma kuuluvate isikute arv. Tõenäosus jääb vahemikku 0 kuni 1 (tõenäosus on näiteks 0,02 – kaksikute ilmumine karja, s.t. tähendab, et 100 poegimise kohta ilmub kaks kaksikut). Seega on biomeetria uurimisobjektiks muutuv märk, mille uurimine toimub teatud objektide rühmal, s.o. agregaadid. Eristage üld- ja näidispopulatsiooni. Rahvaarv see on suur grupp inimesi, kes huvitab meid vastavalt uuritavale tunnusele. Üldpopulatsioon võib hõlmata mõnda loomaliiki, sama liigi tõuge. Üldpopulatsioon (tõug) hõlmab mitut miljonit looma. Samal ajal jaguneb tõug paljudeks agregaatideks, s.t. üksikute talude karjad. Kuna üldpopulatsioon koosneb suurest hulgast isenditest, on seda tehniliselt keeruline uurida. Seetõttu ei uurita kogu populatsiooni, vaid ainult osa sellest, mida nimetatakse valikaine või näidispopulatsioon.

    Valimi põhjal tehakse hinnang kogu üldkogumi kohta tervikuna. Proov tuleks läbi viia vastavalt kõikidele reeglitele, mis peaksid hõlmama isikuid, kellel on kõik muutuva tunnuse väärtused. Isendite valimine üldpopulatsioonist toimub juhuslikkuse põhimõttel või loosimise teel. Biomeetrias on kahte tüüpi juhuslikku valimit: suur ja väike. Suur proov helistage sellisele, mis sisaldab rohkem kui 30 isikut või vaatlust, ja väike proov vähem kui 30 isikut. Suurte ja väikeste valimipopulatsioonide jaoks on erinevad andmetöötlusmeetodid. Statistilise teabe allikaks võivad olla zootehnilised ja veterinaardokumendid, mis annavad teavet iga looma kohta sünnist kuni hävitamiseni. Teiseks teabeallikaks võivad olla piiratud arvu loomadega tehtud teaduslike ja tööstuslike katsete andmed. Pärast proovi vastuvõtmist töödeldakse seda. See võimaldab saada matemaatiliste väärtuste kujul mitmeid statistilisi väärtusi või koefitsiente, mis iseloomustavad huvipakkuvate loomarühmade omadusi.

    Biomeetrilise meetodiga saadakse järgmised statistilised parameetrid või näitajad:

    1. Muutuja atribuudi keskmised väärtused (aritmeetiline keskmine, režiim, mediaan, geomeetriline keskmine).

    2. Variatsiooni suurust mõõtvad koefitsiendid st. uuritava tunnuse (variatiivsus) (standardhälve, variatsioonikordaja).

    3. Koefitsiendid, mis mõõdavad tunnuste omavahelise seose suurust (korrelatsioonikordaja, regressioon ja korrelatsioonisuhe).

    4. Statistilised vead ja saadud statistiliste andmete usaldusväärsus.

    5. Erinevate tegurite mõjul tekkiva varieeruvuse osakaal ja muud näitajad, mis on seotud geneetiliste ja aretusprobleemide uurimisega.

    Valimi statistilisel töötlemisel korrastatakse üldkogumi liikmed variatsioonirea kujul. Variatsiooniseeria on indiviidide rühmitamine klassidesse sõltuvalt uuritava tunnuse suurusest. Variatsiooniseeria koosneb kahest elemendist: klassidest ja mitmest sagedusest. Variatsiooniseeria võib olla katkendlik ja pidev. Nimetatakse funktsioone, mis võivad võtta ainult täisarvu katkendlik number pead, munade arv, põrsaste arv ja muud. Nimetatakse märke, mida saab väljendada murdarvudena pidev(pikkus cm, piimajõudlus kg, rasvaprotsent, eluskaal ja muud).

    Variatsiooniseeria koostamisel järgitakse järgmisi põhimõtteid või reegleid:

    1. Määrake või loendage isendite arv, kelle jaoks variatsiooniseeria (n) koostatakse.

    2. Leidke uuritava tunnuse max ja min väärtus.

    3. Määrake klasside intervall K = max - min / klasside arv, klasside arv võetakse meelevaldselt.

    4. Ehitage klassid ja määrake iga klassi piir, min+K.

    5. Tee rahvastiku liikmete postitus klasside kaupa.

    Pärast klasside moodustamist ja indiviidide klassidesse jaotamist arvutatakse välja variatsioonirea põhinäitajad (X, σ, Cv, Mx, Mσ, Mcv). Suurima väärtuse populatsiooni iseloomustuses sai tunnuse keskmine väärtus. Kõikide zootehniliste, veterinaar-, meditsiiniliste, majanduslike jm probleemide lahendamisel tehakse alati kindlaks tunnuse keskmine väärtus (karja keskmine piimajõudlus, rasvaprotsent, sigivus seakasvatuses, munatoodang kanadel ja muud tunnused). Funktsiooni keskmist väärtust iseloomustavad parameetrid on järgmised:

    1. Aritmeetiline keskmine väärtus.

    2. Keskmine kaalutud aritmeetika.

    3. Geomeetriline keskmine.

    4. Mood (Mo).

    5. Mediaan (Me) ja muud parameetrid.

    Aritmeetiline keskmine näitab meile, milline oli selle rühma isikute märkide väärtus, kui see oli kõigi jaoks sama ja määratakse valemiga X \u003d A + b × K

    Aritmeetilise keskmise peamine omadus on see, et see justkui välistab tunnuse varieerumise ja muudab selle kogu populatsiooni jaoks ühiseks. Samas tuleb märkida, et aritmeetiline keskmine omandab abstraktse tähenduse, s.t. selle arvutamisel saadakse osanäitajad, mida tegelikkuses ei pruugi olla. Näiteks: vasikate saagikus 100 lehma kohta on 85,3 vasikat, emiste viljakus 11,8 põrsast, kanade munatoodang 252,4 muna ja muud näitajad.

    Aritmeetilise keskmise väärtus on loomakasvatuse ja populatsiooni omaduste praktikas väga suur. Loomakasvatuses, eriti veisekasvatuses, kasutatakse piima keskmise rasvasisalduse määramiseks laktatsiooni kohta kaalutud aritmeetilist keskmist.

    Geomeetriline keskmine arvutatakse juhul, kui on vaja iseloomustada kasvutempot, rahvastiku juurdekasvu kiirust, kui aritmeetiline keskmine väärtus moonutab andmeid.

    Mood nimetage muutuva tunnuse kõige levinum väärtus, nii kvantitatiivne kui ka kvalitatiivne. Lehma modaalarv on nisade arv-4. Kuigi on viie-kuue nibuga lehmi. Variatsioonireas on modaalklass klass, kus on kõige rohkem sagedusi ja me määratleme selle nullklassina.

    Mediaan nimetatakse variandiks, mis jagab kõik populatsiooni liikmed kaheks võrdseks osaks. Pooltel populatsiooni liikmetest on muutuv väärtus väiksem kui mediaan ja teisel poolel suurem kui mediaan (näiteks: tõu standard). Kvalitatiivsete tunnuste iseloomustamiseks kasutatakse kõige sagedamini mediaani. Näiteks: udara kuju on topsikujuline, ümmargune, kits. Õige näidisvaliku korral peaksid kõik kolm indikaatorit olema samad (st X, Mo, Me). Seega on terviku esimeseks tunnuseks keskmised väärtused, kuid neist ei piisa terviku hindamiseks.

    Iga populatsiooni teine ​​oluline näitaja on tunnuse varieeruvus või varieeruvus. Tunnuse muutlikkuse määravad paljud keskkonnategurid ja sisemised tegurid, s.t. pärilikud tegurid.

    Tunnuse muutlikkuse määramisel on suur tähtsus nii bioloogias kui ka loomakasvatuse praktikas. Seega saab tunnuse varieeruvuse astet mõõtvate statistiliste parameetrite abil tuvastada tõulisi erinevusi erinevate majanduslikult kasulike tunnuste varieeruvuse astmes, prognoosida selektsiooni taset erinevates loomarühmades, aga ka selle efektiivsust.

    Statistilise analüüsi praegune seis võimaldab mitte ainult kindlaks teha fenotüübilise varieeruvuse avaldumise astet, vaid ka jagada fenotüübiline varieeruvus selle koostisosadeks, nimelt genotüübiliseks ja paratüüpiliseks varieeruvuseks. See varieeruvuse dekomponeerimine tehakse dispersioonanalüüsi abil.

    Peamised varieeruvuse näitajad on järgmised statistilised väärtused:

    1. Piirangud;

    2. Standardhälve (σ);

    3. Variatsiooni- või variatsioonikordaja (Cv).

    Lihtsaim viis tunnuse varieeruvuse suurust väljendada on aidata meid piiridega. Piirangud on määratletud järgmiselt: erinevus funktsiooni max ja min väärtuste vahel. Mida suurem see erinevus, seda suurem on selle funktsiooni varieeruvus. Tunnuse varieeruvuse mõõtmise peamine parameeter on standardhälve või (σ) ja see määratakse järgmise valemiga:

    σ = ±К ∙ √∑ Pa 2- b 2

    Standardhälbe põhiomadused s.o. (σ) on järgmised:

    1. Sigma on alati nimega väärtus ja seda väljendatakse (kg, g, meetrit, cm, tk).

    2. Sigma on alati positiivne.

    3. Mida suurem on σ väärtus, seda suurem on tunnuse muutlikkus.

    4. Variatsiooniridades on kõik sagedused manustatud ±3σ.

    Standardhälbe abil on võimalik määrata, millisesse variatsioonisarja antud indiviid kuulub. Piiride ja standardhälbe abil tunnuse varieeruvuse määramise meetoditel on omad puudused, kuna erinevaid tunnuseid ei ole võimalik varieeruvuse suuruse järgi võrrelda. On vaja teada erinevate tunnuste varieeruvust samal loomal või samal loomarühmal, näiteks: piimatoodangu varieeruvus, piima rasvasisaldus, eluskaal, piimarasva hulk. Seetõttu arvutatakse heterogeensete tunnuste varieeruvuse võrdlemisel ja nende varieeruvuse määra tuvastamisel varieeruvuse koefitsient järgmise valemi abil:

    Seega on peamised meetodid tunnuste varieeruvuse hindamiseks populatsiooni liikmete seas: piirid; standardhälve (σ) ja variatsiooni- või varieeruvuskordaja.

    Loomakasvatuse ja katseuuringute praktikas tuleb väga sageli tegeleda väikeste proovidega. väike proov nad nimetavad isendite või loomade arvu, mis ei ületa 30 või alla 30. Väljakujunenud mustrid kantakse väikese valimi abil üle kogu populatsioonile. Väikese valimi puhul määratakse samad statistilised parameetrid, mis suure valimi populatsiooni puhul (X, σ, Cv, Mx). Nende valemid ja arvutused erinevad aga suurest valimist (st variatsioonirea valemitest ja arvutustest).

    1. Aritmeetiline keskmine X = ∑V

    V on variandi või tunnuse absoluutväärtus;

    n on variantide või isendite arv.

    2. Standardhälve σ = ± √ ∑α 2

    α \u003d x-¯x, see on valikute väärtuse ja aritmeetilise keskmise erinevus. See erinevus α on ruudus ja α 2 n-1 on vabadusastmete arv, st. kõigi variantide või isendite arvu vähendatakse ühe võrra (1).

    Kontrollküsimused:

    1. Mis on biomeetria?

    2. Millised statistilised parameetrid iseloomustavad üldkogumit?

    3. Millised näitajad iseloomustavad varieeruvust?

    4. Mis on väike valim

    5. Mis on režiim ja mediaan?

    Loeng nr 12

    Biotehnoloogia ja embrüosiirdamine

    1. Biotehnoloogia mõiste.

    2. Doonor- ja retsipientlehmade valik, embrüo siirdamine.

    3. Siirdamise tähtsus loomakasvatuses.



    Sarnased artiklid