• Metóda rozptylových a presných diagramov. Malé vzorky Metóda rozptylu a presného grafu

    21.07.2023

    Človek dokáže rozpoznať svoje schopnosti len tak, že sa ich pokúsi uplatniť. (Seneca)

    Bootstrap, malé vzorky, aplikácia pri analýze dát

    Hlavná myšlienka

    Bootstrap metódu navrhol B. Efron ako vývoj metódy jackknife v roku 1979.

    Poďme si popísať hlavnú myšlienku bootstrapu.

    Účelom analýzy údajov je získať čo najpresnejšie selektívne hodnotenia a zovšeobecniť výsledky na celú populáciu.

    Technický výraz pre číselné údaje čerpané zo vzorky je vzorová štatistika.

    Základné popisné štatistiky sú selektívne priemer, medián, štandardná odchýlka atď.

    Súhrnné štatistiky ako priemer vzorky, medián, korelácia sa budú líšiť od vzorky k vzorke.

    Výskumník potrebuje poznať veľkosť týchto variácií ako funkciu populácie. Na základe toho sa vypočíta hranica chyby.

    Originálny obraz každého možné hodnoty výberová štatistika vo forme rozdelenia pravdepodobnosti sa nazýva výberové rozdelenie.

    Kľúčom je veľkosť vzorky. Čo ak je veľkosť vzorky malá? Jeden rozumný prístup je náhodný spôsob extrahovania údajov z existujúcej vzorky.

    Myšlienkou bootstrapu je použiť výsledky výpočtov na vzorkách ako „fiktívnu populáciu“ na určenie distribúcie vzoriek štatistík. V skutočnosti analyzuje veľký počet „fantómových“ vzoriek, nazývaných bootstrap vzorky.

    Zvyčajne sa náhodne vygeneruje niekoľko tisíc vzoriek, z tohto súboru nájdeme bootstrapové rozdelenie štatistík, ktoré nás zaujímajú.

    Takže, majme vzorku, v prvom kroku náhodne vyberieme jeden z prvkov vzorky, vrátime tento prvok do vzorky, opäť náhodne vyberieme prvok atď.

    Zopakujme popísaný postup náhodného výberu n-krát.

    V bootstrape sa náhodný výber uskutoční pomocou vrátiť, vybrané prvky pôvodnej vzorky sa vracia do výberu a potom ho môžete znova vybrať.

    Formálne v každom kroku vyberieme prvok pôvodnej vzorky s pravdepodobnosťou 1/n.

    Celkovo máme n prvkov pôvodnej vzorky, pravdepodobnosť získania vzorky s číslami (N 1 ... Nn), kde sa Ni pohybuje od 0 do n, je opísaná polynómovým rozdelením.

    Vygeneruje sa niekoľko tisíc takýchto vzoriek, čo je celkom dosiahnuteľné pre moderné počítače.

    Pre každú vzorku sa vytvorí odhad množstva záujmu a potom sa odhady spriemerujú.

    Pretože existuje veľa vzoriek, je možné zostaviť empirickú distribučnú funkciu odhadov, potom vypočítať kvantily a vypočítať interval spoľahlivosti.

    Je zrejmé, že metóda bootstrap je modifikáciou metódy Monte Carlo.

    Ak sa vygenerujú vzorky bez návratu prvkov, potom sa ukáže známy spôsob skladací nôž

    Otázka: Prečo to robiť a kedy je rozumné použiť metódu v reálnej analýze dát?

    Pri bootstrappingu nezískavame nové informácie, ale dostupné údaje využívame rozumne, na základe danej úlohy.

    Dá sa použiť napríklad bootstrap malý vzoriek, na odhadovanie mediánov, korelácií, vytváranie intervalov spoľahlivosti a v iných situáciách.

    Efronova pôvodná práca sa zamerala na párové korelačné odhady pre veľkosť vzorky n = 15.

    B = Vygeneruje sa 1000 vzoriek bootstrapu (replikácia bootstrapu).

    Na základe získaných koeficientov ro 1 ... ro B sa zostrojí všeobecný odhad korelačného koeficientu a odhad smerodajnej odchýlky.

    Štandardná chyba korelačného koeficientu vzorky vypočítaná pomocou normálnej aproximácie je:

    kde je korelačný koeficient 0,776, pôvodná veľkosť vzorky je n = 15.

    Odhad štandardnej chyby bootstrapu je 0,127, pozri Efron, Gall Gong, 1982.

    Teoretické pozadie

    Nech je cieľovým parametrom štúdia napríklad priemerný príjem vo vybranej spoločnosti.

    Pomocou ľubovoľnej vzorky veľkosti získame súbor údajov Nech je zodpovedajúca vzorová štatistika

    Pre väčšinu vzorových štatistík na veľký hodnota (>30), distribúcia vzorkovania je normálna krivka so stredom a štandardnou odchýlkou, kde pozitívny parameter závisí od populácie a typu štatistiky

    Tento klasický výsledok je známy ako centrálna limitná veta.

    Pri odhadovaní požadovanej štandardnej odchýlky od údajov sa často vyskytujú vážne technické ťažkosti.

    Napríklad, ak medián alebo vzorová korelácia.

    Bootstrap metóda prekonáva tieto ťažkosti.

    Myšlienka je jednoduchá: označme ľubovoľnou hodnotou, ktorá predstavuje rovnakú štatistiku vypočítanú zo vzorky bootstrap, ktorá sa získa z pôvodnej vzorky

    Čo možno povedať o distribúcii vzoriek, ak je „počiatočná“ vzorka pevná?

    V limite je odberové rozdelenie aj zvonovité s parametrami a

    Distribúcia bootstrapu sa teda dobre približuje distribúcii vzorkovania

    Všimnite si, že keď prejdeme z jednej vzorky do druhej, zmení sa iba výraz , pretože bol vypočítaný pomocou

    Toto je v podstate bootstrap verzia centrálnej limitnej vety.

    Zistilo sa tiež, že ak marginálna distribúcia vzorkovania štatistickej funkcie nezahŕňa neznáme populácie, bootstrap distribúcia poskytuje lepšiu aproximáciu distribúcie vzorkovania ako centrálna limitná veta.

    Najmä, keď štatistická funkcia má tvar, kde označuje skutočný alebo výberový odhad štandardnej chyby, limitné rozdelenie výberu je zvyčajne štandardné normálne.

    Tento efekt sa nazýva korekcia druhého rádu pomocou bootstrappingu.

    Nech t.j. priemer populácie atď. vzorový priemer; je štandardná odchýlka populácie, je štandardná odchýlka vzorky vypočítaná z pôvodných údajov a je vypočítaná zo vzorky bootstrap.

    Potom bude vzorová distribúcia hodnoty kde , aproximovaná bootstrapovou distribúciou, kde je priemer bootstrapovej vzorky, .

    Podobne bude distribúcia vzorkovania aproximovaná distribúciou bootstrap, kde .

    Prvé výsledky korekcie druhého rádu publikovali Babu a Singh v rokoch 1981-83.

    Bootstrap aplikácie

    Aproximácia štandardnej chyby odhadu vzorky

    Predpokladajme, že parameter je pre populáciu známy

    Nech je odhad urobený na základe náhodnej vzorky veľkosti, t.j. je funkcia Pretože vzorka sa líši v rámci súboru všetkých možných vzoriek, na odhad štandardnej chyby sa používa nasledujúci prístup:

    Vypočítajme pomocou rovnakého vzorca, ktorý bol použitý pre, ale tentoraz na základe rôznych bootstrap vzoriek každej veľkosti. Zhruba povedané, možno ho akceptovať, ak nie je príliš veľký. V tomto prípade ho môžete znížiť na n ln n. Potom to možno určiť na základe podstaty metódy bootstrap: populáciu (vzorku) nahradí empirická populácia (vzorka).

    Bayesovská korekcia pomocou metódy bootstrap

    Stredná hodnota distribúcie vzoriek často závisí od zvyčajne, ako pri veľkej, teda Bayesovskej aproximácii:

    kde sú bootstrap kópie. Potom bude upravená hodnota -

    Stojí za zmienku, že predchádzajúca metóda prevzorkovania, nazývaná metóda jackknife, je populárnejšia.

    Intervaly spoľahlivosti

    Intervaly spoľahlivosti (CI) pre daný parameter sú rozsahy založené na vzorke.

    Tento rozsah má tú vlastnosť, že doň patrí hodnota s veľmi vysokou (vopred určenou) pravdepodobnosťou. Toto sa nazýva hladina významnosti. Samozrejme, táto pravdepodobnosť musí platiť pre akúkoľvek možnú vzorku, pretože Každá vzorka prispieva k určeniu intervalu spoľahlivosti. Dve najčastejšie používané hladiny významnosti sú 95 % a 99 %. Tu sa obmedzíme na hodnotu 95 %.

    Tradične CI závisia od vzorkovacieho rozdelenia množstva, presnejšie v limite. Existujú dva hlavné typy intervalov spoľahlivosti, ktoré možno vytvoriť pomocou bootstrapu.

    Percentilová metóda

    Tento spôsob už bol spomenutý v úvode, je veľmi obľúbený pre svoju jednoduchosť a prirodzenosť. Predpokladajme, že máme 1000 bootstrap kópií, označme ich Potom bude interval spoľahlivosti zahŕňať hodnoty z rozsahu Vráťme sa k teoretickému zdôvodneniu metódy, stojí za zmienku, že vyžaduje symetriu distribúcie vzorkovania okolo. Dôvodom je, že metóda aproximuje distribúciu vzorkovania pomocou bootstrapu rozdelenie, aj keď sa logicky ukazuje, že by sa mal aproximovať hodnotou, ktorá je v znamienku opačná.

    Vycentrovaná metóda percentilu bootstrapu

    Predpokladajme, že distribúcia vzorkovania je aproximovaná pomocou bootstrap distribúcie, teda ako sa pôvodne predpokladalo pri bootstrapovaní. Označme 100. percentil (v bootstrap opakovaniach) Potom bude predpoklad, že hodnota leží v rozsahu od do, správny s pravdepodobnosťou 95%. Rovnaký výraz možno ľahko previesť na podobný pre rozsah od do. Tento interval sa nazýva centrovaný interval spoľahlivosti na základe bootstrap percentilov (na úrovni významnosti 95 %).

    Bootstrap-t test

    Ako už bolo uvedené, bootstrap používa funkciu formulára, kde je vzorový odhad štandardnej chyby

    To poskytuje dodatočnú presnosť.

    Ako základný príklad si vezmime štandardnú t-štatistiku (odtiaľ názov metódy): to znamená špeciálny prípad, keď (priemer populácie), (priemer vzorky) a - štandardná odchýlka vzorky. Zavádzací analóg takejto funkcie je kde sa vypočíta rovnakým spôsobom ako pri použití iba vzorky bootstrap.

    Označme 100. bootstrap percentil a predpokladajme, že hodnota leží v intervale

    Použitie rovnosti predchádzajúci výpis môžete prepísať, t.j. leží v intervale

    Tento interval sa nazýva bootstrap t interval spoľahlivosti pre na úrovni 95 %.

    V literatúre sa používa na dosiahnutie väčšej presnosti ako predchádzajúci prístup.

    Príklad reálnych údajov

    Ako prvý príklad si vezmite údaje z Hollander a Wolfe 1999, strana 63, ktoré predstavujú vplyv svetla na mieru liahnutia kurčiat.

    Štandardný boxplot nepredpokladá žiadnu normalitu v údajoch o populácii. Vykonali sme bootstrap analýzu mediánu a priemeru.

    Samostatne stojí za zmienku nedostatok symetrie v bootstrapovom t-histograme, ktorý sa líši od štandardnej limitnej krivky. 95 % intervaly spoľahlivosti pre medián a priemer (vypočítané pomocou metódy bootstrap percentilu) zhruba pokrývajú rozsah

    Tento rozsah predstavuje celkový rozdiel (zvýšenie) výsledkov liahnutia kurčiat ako funkciu osvetlenia.

    Ako druhý príklad uvažujme údaje z Devore 2003, s. 553, ktoré skúmali koreláciu medzi biochemickou spotrebou kyslíka (BSK) a výsledkami hydrostatického váženia (HW) profesionálnych futbalistov.

    Dvojrozmerné údaje pozostávajú z párov a páry je možné náhodne vybrať počas prevzorkovania bootstrapu. Napríklad najprv zober potom atď.

    Na obrázku, krabicový graf ukazuje nedostatok normality pre základné populácie. Korelačné histogramy vypočítané z bootstrap bivariačných dát sú asymetrické (posunuté doľava).

    Z tohto dôvodu je v tomto prípade vhodnejšia metóda bootstrapu so stredným percentilom.

    Analýza odhalila, že merania boli korelované pre najmenej 78 % populácie.

    Údaje napríklad 1:

    8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

    Údaje napríklad 2:

    2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

    8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

    Literatúra často navrhuje rôzne bootstrapping schémy, ktoré by mohli poskytnúť spoľahlivé výsledky v rôznych štatistických situáciách.

    To, o čom sme hovorili vyššie, sú len najzákladnejšie prvky av skutočnosti existuje veľa ďalších možností schémy. Ktorú metódu je napríklad lepšie použiť v prípade dvojstupňového odberu vzoriek alebo stratifikovaného odberu vzoriek?

    Vymyslieť v tomto prípade prirodzenú schému nie je ťažké. Bootstrapping v prípade údajov s regresnými modelmi vo všeobecnosti priťahuje veľkú pozornosť. Existujú dve hlavné metódy: v prvej sa kovariancie a premenné odozvy prevzorkujú spolu (párové bootstrapping), v druhej sa bootstrapping vykonáva na rezíduách (reziduálne bootstrapping).

    Párová metóda zostáva správna (z hľadiska výsledkov pri ), aj keď odchýlky chýb v modeloch nie sú rovnaké. Druhá metóda je v tomto prípade nesprávna. Táto nevýhoda je kompenzovaná skutočnosťou, že takáto schéma poskytuje dodatočnú presnosť pri odhadovaní štandardnej chyby.

    Je oveľa ťažšie aplikovať bootstrapping na údaje časových radov.

    Analýza časových radov je však jednou z kľúčových oblastí ekonometrie. Sú tu dva hlavné problémy: po prvé, údaje o časových radoch majú tendenciu byť sekvenčne závislé. To znamená, že závisí od atď.

    Po druhé, štatistická populácia sa v priebehu času mení, to znamená, že sa objavuje nestacionárnosť.

    Na tento účel boli vyvinuté metódy, ktoré prenášajú závislosť v zdrojových dátach na bootstrapové vzorky, najmä na návrh bloku.

    Namiesto vzorky bootstrapu sa okamžite vytvorí vzorka blokovaťúdaje, ktoré si zachovávajú závislosti od pôvodnej vzorky.

    V súčasnosti prebieha pomerne veľa výskumov v oblasti aplikácie bootstrappingu do oblastí ekonometrie, metóda sa vo všeobecnosti aktívne rozvíja.

    Vzorky, v ktorých je pozorovaný malý počet jednotiek (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

    Hraničná chyba malej vzorky je určená vzorcom:

    Priemerná malá vzorová chyba:

    kde je malá odchýlka vzorky:

    kde je priemerná hodnota charakteristiky vo vzorke;

    Počet stupňov voľnosti

    Koeficient spoľahlivosti malej vzorky v závislosti nielen od danej pravdepodobnosti spoľahlivosti, ale aj od počtu jednotiek výberu.

    Pravdepodobnosť, že všeobecný priemer je v určitých medziach, je určená vzorcom

    kde je hodnota funkcie Študenta.

    Ak chcete vypočítať koeficient spoľahlivosti, určte hodnotu funkcie pomocou vzorca:

    Potom sa pomocou tabuľky rozdelenia študentov (pozri prílohu 4) v závislosti od hodnoty funkcie a počtu stupňov určí hodnota.

    Funkcia sa používa aj na určenie pravdepodobnosti, že skutočná normalizovaná odchýlka nepresiahne tabuľkovú hodnotu.


    Téma 7. Štatistická štúdia vzťahov: Koncept štatistickej komunikácie. Druhy a formy štatistickej komunikácie. Problémy štatistického štúdia vzťahu medzi javmi. Vlastnosti súvislostí medzi sociálno-ekonomickými javmi. Základné metódy štatistického štúdia vzťahov.

    Korelácia - spojenie, ktoré sa prejavuje nie v každom jednotlivom prípade, ale v množstve prípadov v priemerných hodnotách vo forme trendu.

    Konečným cieľom štatistického výskumu je získanie modelu závislosti pre jeho praktické využitie. Riešenie tohto problému sa vykonáva v nasledujúcom poradí.

    1. Logická analýza podstaty skúmaného javu a vzťahov príčina-následok. V dôsledku toho sa vytvorí ukazovateľ výkonnosti (y), faktory jeho zmeny, charakterizované ukazovateľmi (x ( , x 2 , x 3 ,..., X"). Vzťah medzi dvoma znakmi (y A X) volal párová korelácia. Vplyv viacerých faktorov na efektívnu charakteristiku je tzv viacnásobná korelácia.

    Vo všeobecnom smere môžu byť spojenia rovno A obrátene. S priamymi spojeniami so zvýšením charakteristiky X znamienko sa tiež zvyšuje y, v opačnom prípade - s nárastom znamienka X znamenie pri klesá.

    2. Zhromažďovanie primárnych informácií a ich kontrola homogenity a normality distribúcie. Na posúdenie homogenity populácie sa používa variačný koeficient na základe faktorových charakteristík

    Populácia sa považuje za homogénnu, ak variačný koeficient nepresiahne 33 %. Kontrola normálneho rozdelenia študovaných faktorových charakteristík ( x ( , x 2 , x 3 ,..., X") vykonávané pomocou pravidla „tri sigma“. Výsledky testovania normality rozdelenia by mali byť prezentované vo forme tabuľky.

    Metóda malej vzorky má oproti metóde veľkej vzorky množstvo výhod. Jeho hlavnými výhodami sú po prvé zníženie množstva výpočtovej práce a po druhé možnosť sledovať dynamiku zmien presnosti procesu v čase, čo nie je možné vykonať metódou veľkých vzoriek. Metóda veľkej vzorky môže poskytnúť iba predstavu o presnosti a stabilite procesu počas obdobia odberu vzoriek, ktoré môže zostať v budúcnosti, ak sa podmienky procesu po odbere vzorky nezmenia. V skutočnosti sa takáto nemennosť výrobných podmienok nedá vopred predvídať. Napríklad pri práci na tyčovom stroji sa počas zmeny materiál niekoľkokrát vymieňa (výmena tyče), nástroj sa mení z dôvodu opotrebovania, stroj sa nastavuje atď., čím sa môžu výrazne upraviť predtým získané distribučných parametrov. Metóda malých vzoriek, ak sa tieto odoberajú pravidelne počas zmeny v určitých intervaloch, vám umožňuje získať úplný obraz o stave procesu počas skúmaného obdobia, určiť stupeň jeho stability a tiež identifikovať dôvody. pre nedostatočnú stabilitu procesu v čase, ak existuje.

    Štatistická analýza s malými vzorkami sa uskutočňuje nasledovne. Ukážky z n = 5-10 ks. užívané v určitých pevných intervaloch (napríklad po 15-30 minútach). Časový úsek odberu vzoriek je stanovený empiricky a závisí od produktivity stroja, veľkosti vzorky a stupňa stability technologického procesu. Pre každú vzorku je potrebné vypočítať a S. Ďalej je potrebné pre každé dve susedné vzorky otestovať hypotézu homogenity rozptylov vzoriek pomocou F - Fisherovo kritérium.

    Ak sa hypotéza potvrdí, potom to naznačuje stabilitu disperzie alebo to, že porovnávané vzorky sú odobraté z rovnakej populácie. Pri potvrdení hypotézy homogenity rozptylov dvoch vzoriek by sa mala testovať hypotéza homogenity priemeru dvoch vzoriek. t - Študentský test.

    Potvrdenie hypotézy o rovnosti dvoch susedných vzoriek znamená, že stred ladenia zariadenia sa v čase odberu tejto vzorky nezmení a zostáva rovnaký ako pri odbere predchádzajúcej vzorky, t.j. proces je v stabilnom stave. Keď sa hypotéza o rovnosti dvoch priemerných vzoriek nepotvrdí, indikuje to posun v strede nastavenia stroja v čase odberu tejto vzorky. Keďže vzorky sú odoberané v určitých intervaloch, ak sa zistí posun ladiaceho centra alebo zmena rozptylovej zóny, je možné určiť časové obdobie, po ktorom došlo k narušeniu stability procesu.

    Po zistení skutočnosti narušenia stability procesu je možné určiť oblasť, v ktorej treba hľadať príčinu tohto javu. Heterogenita rozptylov vzoriek, ktoré naznačujú nestabilitu disperzie, naznačuje, že dôvod by sa mal hľadať v stroji alebo v mechanické vlastnosti spracovaného materiálu. Heterogenita priemeru vzorky naznačuje posun v strede ladenia (príčinu hľadajte v nástroji).

    Takže odoberaním malých vzoriek z aktuálneho výkonu stroja počas zmeny v určitých časových intervaloch sa vypočítajú priemery a rozptyly vzoriek porovnaním a vyhodnotením ich nezrovnalostí pomocou F a t-kritérií, je možné stanoviť momenty poruchy procesov a dokonca aj zdroje týchto porúch.

    štatistiky s malou vzorkou

    Všeobecne sa uznáva, že začiatok S. m.v. alebo, ako sa to často nazýva, štatistika „malého n“, vznikla v prvej dekáde 20. storočia publikovaním práce W. Gosseta, do ktorej umiestnil t-distribúciu postulovanú „študentom“, ktorý svetovú slávu získal o niečo neskôr. V tom čase Gossett pracoval ako štatistik v pivovaroch Guinness. Jednou z jeho povinností bolo analyzovať po sebe nasledujúce šarže sudov čerstvo uvareného portera. Z dôvodu, ktorý nikdy nevysvetlil, Gossett experimentoval s myšlienkou výrazne znížiť počet vzoriek odobratých z veľmi veľkého počtu sudov v skladoch pivovaru, aby náhodne kontroloval kvalitu vrátnika. To ho viedlo k postulovaniu t-distribúcie. Keďže stanovy pivovarov Guinness zakazovali svojim zamestnancom zverejňovať výsledky výskumu, Gossett zverejnil výsledky svojho experimentu porovnávajúceho odber vzoriek kontroly kvality pomocou t-distribúcie pre malé vzorky a tradičnej z-distribúcie (normálna distribúcia) anonymne, pod pseudonymom „Student “ – odtiaľ názov Študentovo t-rozdelenie).

    t-distribúcia. Teória t-distribúcie, podobne ako teória z-distribúcie, sa používa na testovanie nulovej hypotézy, že dve vzorky sú jednoducho náhodné vzorky z tej istej populácie, a preto vypočítané štatistiky (napr. priemer a smerodajná odchýlka) sú nestranné odhady parametrov populácie. Na rozdiel od teórie normálneho rozdelenia však teória t-distribúcie pre malé vzorky nevyžaduje apriórne znalosti alebo presné odhady očakávanej hodnoty a rozptylu populácie. Navyše, hoci testovanie rozdielu medzi priemermi dvoch veľkých vzoriek na štatistickú významnosť vyžaduje základný predpoklad, že charakteristiky populácie sú normálne rozdelené, teória t distribúcie nevyžaduje predpoklady o parametroch.

    Je dobre známe, že normálne rozložené charakteristiky sú opísané jednou jedinou krivkou – Gaussovou krivkou, ktorá spĺňa nasledujúcu rovnicu:

    Pri t-distribúcii je celá skupina kriviek reprezentovaná nasledujúcim vzorcom:

    To je dôvod, prečo rovnica pre t obsahuje gama funkciu, čo v matematike znamená, že pri zmene n bude iná krivka spĺňať danú rovnicu.

    Stupne slobody

    V rovnici pre t písmeno n označuje počet stupňov voľnosti (df) spojených s odhadom rozptylu populácie (S2), ktorý predstavuje druhý moment funkcie generujúcej akýkoľvek moment, ako je rovnica pre rozdelenie t . V S. počet stupňov voľnosti udáva, koľko charakteristík zostáva voľných po ich čiastočnom použití v konkrétnom type analýzy. Pri t-rozdelení je jedna z odchýlok od priemeru vzorky vždy pevná, pretože súčet všetkých takýchto odchýlok sa musí rovnať nule. To ovplyvňuje súčet štvorcov pri výpočte rozptylu vzorky ako nezaujatého odhadu parametra S2 a vedie k tomu, že df sa rovná počtu meraní mínus jedno pre každú vzorku. Vo vzorcoch a postupoch na výpočet t-štatistiky na testovanie nulovej hypotézy je teda df = n - 2.

    F-pacndivízia. Nulová hypotéza testovaná t testom je, že tieto dve vzorky boli náhodne vybraté z rovnakej populácie alebo boli náhodne vybraté z dvoch rôznych populácií s rovnakým rozptylom. Čo robiť, ak potrebujete vykonať analýzu viac skupiny? Odpoveď na túto otázku sa hľadala dvadsať rokov po tom, čo Gosset objavil t-distribúciu. Na jeho výrobe sa priamo podieľali dvaja najvýznamnejší štatistici 20. storočia. Jedným je najväčší anglický štatistik R. A. Fisher, ktorý navrhol prvé teórie. formulácie, ktorých vývoj viedol k výrobe F-distribúcie; jeho práca o teórii malých vzoriek, rozvíjajúca Gossetove myšlienky, bola publikovaná v polovici 20. rokov (Fisher, 1925). Ďalším je George Snedecor, jeden z galaxie raných amerických štatistikov, ktorý vyvinul spôsob, ako porovnať dve nezávislé vzorky ľubovoľnej veľkosti pomocou výpočtu pomeru dvoch odhadov rozptylu. Tento vzťah nazval F-pomer podľa Fischera. Výsledky výskumu Snedecor viedol k tomu, že F-distribúcia sa začala špecifikovať ako rozdelenie pomeru dvoch štatistík c2, z ktorých každá má svoje vlastné stupne voľnosti:

    Z toho pochádza Fisherova klasická práca o analýze rozptylu, štatistickej metóde výslovne zameranej na analýzu malých vzoriek.

    Rozdelenie odberu vzoriek F (kde n = df) je reprezentované nasledujúcou rovnicou:

    Rovnako ako pri t-distribúcii, gama funkcia naznačuje, že existuje rodina rozdelení, ktoré spĺňajú rovnicu pre F. V tomto prípade však analýza zahŕňa dve df veličiny: počet stupňov voľnosti pre čitateľa a pre menovateľ F-pomeru.

    Tabuľky pre odhad t- a F-štatistiky. Pri testovaní nulovej hypotézy pomocou S., založenej na teórii veľkých vzoriek, je zvyčajne potrebná iba jedna vyhľadávacia tabuľka - tabuľka normálnych odchýlok (z), ktorá umožňuje určiť oblasť pod normálnou krivkou medzi ľubovoľnými dvoma hodnotami z na osi x. Avšak tabuľky pre t- a F-rozdelenia sú nevyhnutne prezentované v súbore tabuliek, pretože tieto tabuľky sú založené na rôznych rozdeleniach vyplývajúcich z meniaceho sa počtu stupňov voľnosti. Hoci t- a F-distribúcie sú distribúcie hustoty pravdepodobnosti, podobne ako normálne rozdelenie pre veľké vzorky, líšia sa od nich štyrmi spôsobmi, ktoré sa používajú na ich opis. Napríklad distribúcia t je symetrická (poznámka t2 v jej rovnici) pre všetky df, ale s klesajúcou veľkosťou vzorky sa zvyšuje. Vrcholové krivky (tie so špičatosťou väčšou ako normálna) majú tendenciu byť menej asymptotické (t. j. menej blízko k osi x na koncoch rozdelenia) ako krivky s normálnou špičatosťou, ako je napríklad Gaussova krivka. Tento rozdiel má za následok výrazné rozdiely medzi bodmi na osi x zodpovedajúcimi hodnotám t a z. Pri df = 5 a obojstrannej hladine α 0,05 je t = 2,57, pričom zodpovedajúce z = 1,96. Preto t = 2,57 označuje štatistickú významnosť na 5 % hladine. V prípade normálnej krivky však z = 2,57 (presnejšie 2,58) už bude indikovať 1% hladinu štatistickej významnosti. Podobné porovnania je možné urobiť s distribúciou F, pretože t sa rovná F, keď sú dve vzorky.

    Čo predstavuje „malú“ vzorku?

    Kedysi sa objavila otázka, aká veľká by mala byť vzorka, aby sa dala považovať za malú. Na túto otázku jednoducho neexistuje jednoznačná odpoveď. Za konvenčnú hranicu medzi malou a veľkou vzorkou sa však považuje df = 30. Základom tohto trochu svojvoľného rozhodnutia je výsledok porovnania t-rozdelenia s normálnym rozdelením. Ako je uvedené vyššie, rozdiel medzi hodnotami t a z má tendenciu narastať, keď df klesá, a znižovať, keď sa df zvyšuje. V skutočnosti sa t začína tesne približovať k z dlho pred obmedzujúcim prípadom, kde t = z pre df = ∞. Jednoduché vizuálne preskúmanie tabuľkových hodnôt t ukazuje, že táto aproximácia je pomerne rýchla, počnúc df = 30 a viac. Porovnávacie hodnoty t (pri df = 30) a z sú rovnaké: 2,04 a 1,96 pre p = 0,05; 2,75 a 2,58 pre p = 0,01; 3,65 a 3,29 pre p = 0,001.

    Ďalšie štatistiky pre „malé“ vzorky

    Hoci štatistiky ako t a F sú špeciálne navrhnuté na použitie s malými vzorkami, sú rovnako použiteľné aj na veľké vzorky. Existuje však mnoho ďalších štatistických metód určených na analýzu malých vzoriek a často sa používajú na tento účel. Týka sa to tzv. neparametrické alebo distribučné metódy. V zásade sú stupnice uvedené v týchto metódach určené na použitie pri meraniach získaných pomocou mierok, ktoré nespĺňajú definíciu pomerových alebo intervalových mierok. Najčastejšie ide o ordinálne (hodnostné) alebo nominálne merania. Neparametrické škály nevyžadujú predpoklady týkajúce sa distribučných parametrov, najmä pokiaľ ide o odhady rozptylu, pretože ordinálne a nominálne škály eliminujú samotný koncept rozptylu. Z tohto dôvodu sa neparametrické metódy používajú aj na merania získané pomocou intervalových a pomerových škál, keď sa analyzujú malé vzorky a je pravdepodobné, že budú porušené základné predpoklady potrebné na použitie parametrických metód. Tieto testy, ktoré možno primerane použiť na malé vzorky, zahŕňajú: Fisherov test presnej pravdepodobnosti, Friedmanov dvojfaktorovú neparametrickú (poradovú) analýzu rozptylu, Kendallov t rank korelačný koeficient, Kendallov koeficient zhody (W), Kruskalov H test - Wallace pre neparametrickú (hodnotovú) jednosmernú analýzu rozptylu, Mann-Whitneyho U-test, mediánový test, znamienkový test, Spearmanov koeficient poradovej korelácie r a Wilcoxonov t-test.

    Pri štúdiu variability sa rozlišujú kvantitatívne a kvalitatívne charakteristiky, ktorých štúdium sa uskutočňuje variačnou štatistikou, ktorá je založená na teórii pravdepodobnosti. Pravdepodobnosť označuje možnú frekvenciu stretnutia jednotlivca s určitou črtou. P=m/n, kde m je počet jedincov s danou hodnotou znaku; n je počet všetkých jedincov v skupine. Pravdepodobnosť sa pohybuje od 0 do 1 (napríklad pravdepodobnosť je 0,02 - výskyt dvojčiat v stáde, t.j. na 100 otelení sa objavia dve dvojčatá). Predmetom skúmania biometrie je teda premenlivá charakteristika, ktorej štúdium sa uskutočňuje na určitej skupine objektov, t.j. totality. Existujú všeobecné a vzorové populácie. Populácia Ide o veľkú skupinu jednotlivcov, ktorí nás zaujímajú na základe skúmanej vlastnosti. Všeobecná populácia môže zahŕňať druh zvieraťa alebo plemeno rovnakého druhu. Všeobecná populácia (plemeno) zahŕňa niekoľko miliónov zvierat. Zároveň sa plemeno rozchádza do mnohých skupín, t.j. stáda jednotlivých fariem. Keďže všeobecná populácia pozostáva z veľkého počtu jedincov, je technicky náročné ju študovať. Preto neskúmajú celú populáciu, ale len jej časť, ktorá je tzv voliteľný alebo vzorová populácia.

    Na základe vzorky populácie sa urobí úsudok o celej populácii ako celku. Odber vzoriek sa musí vykonávať podľa všetkých pravidiel, ktoré musia zahŕňať jedincov so všetkými hodnotami premenlivého znaku. Výber jedincov z bežnej populácie prebieha podľa princípu náhody alebo žrebovaním. V biometrii existujú dva typy náhodného výberu vzoriek: veľký a malý. Veľká vzorka nazývajú taký, ktorý zahŕňa viac ako 30 jedincov alebo pozorovaní, a malá vzorka menej ako 30 osôb. Pre veľké a malé vzorky populácie existujú rôzne metódy spracovanie dát. Zdrojom štatistických informácií môžu byť údaje zo zootechnickej a veterinárnej evidencie, ktoré poskytujú informácie o každom zvierati od narodenia až po likvidáciu. Ďalším zdrojom informácií môžu byť údaje z vedeckých a produkčných experimentov uskutočnených na obmedzenom počte zvierat. Po získaní vzorky sa začne spracovanie. To umožňuje získať vo forme matematických veličín množstvo štatistických veličín alebo koeficientov, ktoré charakterizujú charakteristiky záujmových skupín zvierat.

    Pomocou biometrickej metódy sa získajú tieto štatistické parametre alebo ukazovatele:

    1. Priemerné hodnoty premennej charakteristiky (aritmetický priemer, modus, medián, geometrický priemer).

    2. Koeficienty, ktoré merajú množstvo variácií t.j. (variabilita) sledovanej charakteristiky (štandardná odchýlka, variačný koeficient).

    3. Koeficienty, ktoré merajú veľkosť vzťahu medzi charakteristikami (korelačný koeficient, regresný koeficient a korelačný pomer).

    4. Štatistické chyby a spoľahlivosť získaných štatistických údajov.

    5. Podiel variácií vznikajúcich pod vplyvom rôznych faktorov a iných ukazovateľov, ktoré sú spojené so štúdiom genetických a selekčných problémov.

    Pri štatistickom spracovaní vzorky sú členovia populácie organizovaní vo forme variačných radov. Séria variácií je zoskupenie jednotlivcov do tried v závislosti od hodnoty študovanej vlastnosti. Séria variácií pozostáva z dvoch prvkov: tried a série frekvencií. Séria variácií môže byť prerušovaná alebo kontinuálna. Funkcie, ktoré môžu mať iba celé číslo, sa nazývajú prerušované číslo hlavy, počet vajec, počet prasiatok a iné. Funkcie, ktoré možno vyjadriť v zlomkových číslach, sa nazývajú nepretržitý(výška cm, dojivosť kg, % tuku, živá hmotnosť a iné).

    Pri zostavovaní série variácií sa dodržiavajú tieto zásady alebo pravidlá:

    1. Určite alebo spočítajte počet jedincov, pre ktoré sa zostaví variačná séria (n).

    2. Nájdite maximálnu a minimálnu hodnotu skúmanej charakteristiky.

    3. Určte triedny interval K = max - min / počet tried, počet tried sa berie ľubovoľne.

    4. Zostrojte triedy a určte hranicu každej triedy, min+K.

    5. Členov obyvateľstva rozdelia do tried.

    Po zostrojení tried a rozdelení jednotlivcov do tried sa vypočítajú hlavné ukazovatele variačných radov (X, σ, Cv, Mх, Мσ, Мcv). Priemerná hodnota atribútu získala najväčšiu hodnotu pri charakterizácii populácie. Pri riešení všetkých zootechnických, veterinárnych, medicínskych, ekonomických a iných problémov sa vždy zisťuje priemerná hodnota znaku (priemerná dojivosť pre stádo, % tuku, plodnosť v chove ošípaných, produkcia vajec u kurčiat a iné znaky). Medzi parametre charakterizujúce priemernú hodnotu charakteristiky patria:

    1. Aritmetický priemer.

    2. Vážený aritmetický priemer.

    3. Geometrický priemer.

    4. Móda (Po).

    5. Medián (Me) a ďalšie parametre.

    Aritmetický priemer nám ukazuje, akú hodnotu vlastností mali jednotlivci danej skupiny, ak by bola rovnaká pre všetkých, a je určená vzorcom X = A + b × K

    Hlavnou vlastnosťou aritmetického priemeru je, že eliminuje variáciu charakteristiky a robí ju spoločnou pre celú populáciu. Zároveň si treba uvedomiť, že aritmetický priemer nadobúda abstraktný význam, t.j. pri jej výpočte sa získajú zlomkové ukazovatele, ktoré v skutočnosti nemusia existovať. Napríklad: úžitkovosť teliat na 100 kráv je 85,3 teliat, plodnosť prasníc je 11,8 prasiatok, produkcia vajec kurčiat je 252,4 vajec a ďalšie ukazovatele.

    Hodnota aritmetického priemeru je v praxi chovu hospodárskych zvierat a charakteristikách populácie veľmi vysoká. V praxi chovu zvierat, najmä chovu dobytka, sa na stanovenie priemerného obsahu tuku v mlieku počas laktácie používa vážená aritmetická hodnota.

    Geometrická stredná hodnota sa vypočíta, ak je potrebné charakterizovať rýchlosť rastu, rýchlosť prírastku populácie, keď aritmetický priemer skresľuje údaje.

    Móda pomenujte najčastejšie sa vyskytujúcu hodnotu rôznej charakteristiky, kvantitatívnej aj kvalitatívnej. Modálne číslo pre kravu je číslo struku-4. Hoci existujú kravy s piatimi alebo šiestimi strukami. V sérii variácií bude modálna trieda trieda, kde je najväčší počet frekvencií a definujeme ju ako nulovú triedu.

    Medián sa nazýva variant, ktorý rozdeľuje všetkých členov populácie na dve rovnaké časti. Polovica členov populácie bude mať hodnotu variabilnej vlastnosti menšiu ako je medián a druhá polovica bude mať hodnotu väčšiu ako medián (napríklad: štandard plemena). Medián sa najčastejšie používa na charakterizáciu kvalitatívnych charakteristík. Napríklad: tvar vemena je miskovitý, okrúhly, kozí. Pri správnej možnosti odberu vzoriek by mali byť všetky tri indikátory rovnaké (t. j. X, Mo, Me). Prvou charakteristikou populácie sú teda priemerné hodnoty, ktoré však na posúdenie populácie nestačia.

    Druhým dôležitým ukazovateľom každej populácie je variabilita alebo variabilita znaku. Variabilita vlastnosti je určená mnohými faktormi vonkajšie prostredie a vnútorné faktory t.j. dedičné faktory.

    Určenie variability znaku má veľký význam, tak v biológii, ako aj v praxi chovu zvierat. Pomocou štatistických parametrov, ktoré merajú mieru variability znaku, je teda možné stanoviť rozdiely medzi plemenami v stupni variability rôznych ekonomicky užitočných znakov, predpovedať úroveň selekcie v rôznych skupinách zvierat, ako aj jej účinnosť. .

    Aktuálny stavŠtatistická analýza umožňuje nielen určiť stupeň prejavu fenotypovej variability, ale aj rozdeliť fenotypovú variabilitu na jej jednotlivé typy, a to genotypovú a paratypovú variabilitu. Tento rozklad variability sa robí pomocou analýzy rozptylu.

    Hlavnými ukazovateľmi variability sú tieto štatistické hodnoty:

    1. Limity;

    2. štandardná odchýlka (σ);

    3. Koeficient variability alebo variácie (Cv).

    Najjednoduchší spôsob, ako prezentovať množstvo variability vlastnosti, sú limity. Limity sú určené nasledovne: rozdiel medzi maximálnymi a minimálnymi hodnotami atribútu. Čím väčší je tento rozdiel, tým väčšia je variabilita tohto znaku. Hlavným parametrom na meranie variability znaku je štandardná odchýlka alebo (σ) a určuje sa podľa vzorca:

    σ = ±K ∙ √∑ Pa 2- b 2

    Hlavné vlastnosti smerodajnej odchýlky t.j. (σ) sú nasledovné:

    1. Sigma je vždy pomenovaná hodnota a je vyjadrená (v kg, g, metroch, cm, ks).

    2. Sigma je vždy kladná hodnota.

    3. Čím väčšia je hodnota σ, tým väčšia je variabilita znaku.

    4. V sérii variácií sú všetky frekvencie zahrnuté v ±3σ.

    Pomocou štandardnej odchýlky môžete určiť, do ktorej série variácií daný jedinec patrí. Metódy na určenie variability charakteristiky pomocou limitov a štandardnej odchýlky majú svoje nevýhody, pretože nie je možné porovnávať rôzne charakteristiky na základe veľkosti variability. Je potrebné poznať variabilitu rôznych znakov u toho istého zvieraťa alebo tej istej skupiny zvierat, napr.: variabilita dojivosti, obsah tuku v mlieku, živá hmotnosť, množstvo mliečneho tuku. Preto porovnaním variability opačných charakteristík a identifikáciou stupňa ich variability sa koeficient variability vypočíta pomocou nasledujúceho vzorca:

    Hlavnými metódami hodnotenia variability charakteristík medzi členmi populácie sú teda: limity; smerodajná odchýlka (σ) a koeficient variácie alebo variability.

    V chovateľskej praxi a experimentálnom výskume sa často musíme zaoberať malými vzorkami. Malá vzorka nazývajú počet jedincov alebo zvierat nepresahujúcich 30 alebo menej ako 30. Zavedené vzorce využívajúce malú vzorku sa prenášajú na celú populáciu. Pre malú vzorku sa stanovia rovnaké štatistické parametre ako pre veľkú vzorku (X, σ, Cv, Mx). Ich vzorce a výpočty sa však líšia od veľkej vzorky (t. j. od vzorcov a výpočtov variačného radu).

    1. Aritmetický priemer X = ∑V

    V - absolútna hodnota opcie alebo charakteristiky;

    n je počet variantov alebo počet jedincov.

    2. Smerodajná odchýlka σ = ± √ ∑α 2

    α = x-¯x, to je rozdiel medzi hodnotou opcie a aritmetickým priemerom. Tento rozdiel α je na druhú a α 2 n-1 je počet stupňov voľnosti, t.j. počet všetkých variantov alebo jedincov znížený o jeden (1).

    Kontrolné otázky:

    1.Čo je to biometria?

    2.Aké štatistické parametre charakterizujú populáciu?

    3.Aké ukazovatele charakterizujú variabilitu?

    4.Čo je malá vzorka

    5. Čo sú modus a medián?

    Prednáška č.12

    Biotechnológia a transplantácia embryí

    1. Pojem biotechnológie.

    2. Výber kráv darcov a príjemcov, transplantácia embryí.

    3. Význam transplantácií v chove zvierat.



    Podobné články