• Metoda rasipanja i dijagrama preciznosti. Mali uzorci Metoda raspršivanja i preciznog grafikona

    21.07.2023

    Osoba može prepoznati svoje sposobnosti samo ako ih pokuša primijeniti. (Seneca)

    Bootstrap, mali uzorci, primjena u analizi podataka

    glavna ideja

    Bootstrap metodu je predložio B. Efron kao razvoj metode jackknifea 1979. godine.

    Hajde da opišemo glavnu ideju bootstrapa.

    Svrha analize podataka je da se dobiju najtačniji selektivno procjene i generalizirati rezultate na cjelokupnu populaciju.

    Tehnički termin za numeričke podatke izvučene iz uzorka je statistika uzorka.

    Osnovna deskriptivna statistika je selektivno srednja vrijednost, medijan, standardna devijacija, itd.

    Zbirna statistika kao što je srednja vrijednost uzorka, medijana, korelacija će se razlikovati od uzorka do uzorka.

    Istraživač treba da zna veličinu ovih varijacija kao funkciju populacije. Na osnovu toga se izračunava granica greške.

    Originalna slika svih moguće vrijednosti statistika uzorka u obliku distribucije vjerovatnoće naziva se distribucija uzorkovanja.

    Ključ je veličina uzorci. Šta ako je veličina uzorka mala? Jedan razuman pristup je da nasumično način izdvajanja podataka iz postojećeg uzorka.

    Ideja bootstrapa je da koristi rezultate izračunavanja na uzorcima kao „fiktivnu populaciju“ da bi se odredila uzorkovana distribucija statistike. U stvari, analizira veliki broj “fantomskih” uzoraka, koji se nazivaju bootstrap uzorci.

    Obično se nekoliko hiljada uzoraka generira nasumično, iz ovog skupa možemo pronaći bootstrap distribuciju statistike koja nas zanima.

    Dakle, hajde da imamo uzorak, u prvom koraku nasumično biramo jedan od elemenata uzorka, vraćamo ovaj element u uzorak, opet nasumično biramo element, i tako dalje.

    Ponovimo opisanu proceduru slučajnog odabira n puta.

    U bootstrap-u se vrši slučajni odabir sa povratak, odabrani elementi originalnog uzorka vraća u izbor i zatim se može ponovo odabrati.

    Formalno, na svakom koraku biramo element originalnog uzorka sa vjerovatnoćom 1/n.

    Ukupno imamo n elemenata originalnog uzorka, vjerovatnoća dobijanja uzorka sa brojevima (N 1 ... Nn), gdje Ni varira od 0 do n je opisana polinomskom raspodjelom.

    Generiše se nekoliko hiljada takvih uzoraka, što je sasvim izvodljivo za moderne računare.

    Za svaki uzorak se konstruiše procjena količine od interesa, a zatim se procjene prosječuju.

    Pošto postoji mnogo uzoraka, moguće je konstruisati empirijsku funkciju distribucije procjena, zatim izračunati kvantile i izračunati interval povjerenja.

    Jasno je da je bootstrap metoda modifikacija Monte Carlo metode.

    Ako se generiraju uzorci nema povratka elemenata, onda ispada poznata metoda sklopivi nož

    Pitanje: zašto to činiti i kada je razumno koristiti metodu u stvarnoj analizi podataka?

    U bootstrapping-u ne dobijamo nove informacije, ali mudro koristimo dostupne podatke, na osnovu zadatka koji je pred nama.

    Na primjer, bootstrap se može koristiti za mala uzorke, za procjenu medijana, korelacija, konstruiranje intervala povjerenja iu drugim situacijama.

    Efronov originalni rad se bavio procjenama parne korelacije za veličinu uzorka od n = 15.

    B = generira se 1000 bootstrap uzoraka (bootstrap replikacija).

    Na osnovu dobijenih koeficijenata ro 1 ... ro B konstruiše se opšta procjena koeficijenta korelacije i procjena standardne devijacije.

    Standardna greška koeficijenta korelacije uzorka, izračunata upotrebom normalne aproksimacije, je:

    gdje je koeficijent korelacije 0,776, originalna veličina uzorka je n = 15.

    Bootstrap procjena standardne greške je 0,127, vidi Efron, Gall Gong, 1982.

    Teorijska pozadina

    Neka bude ciljni parametar studije, na primjer, prosječni prihod u odabranom društvu.

    Koristeći proizvoljni uzorak veličine, dobijamo skup podataka Neka bude odgovarajuća statistika uzorka

    Za većinu uzoraka statistike na veliki vrijednost (>30), distribucija uzorkovanja je normalna kriva sa centrom i standardnom devijacijom, gdje pozitivni parametar ovisi o populaciji i vrsti statistike

    Ovaj klasični rezultat poznat je kao središnja granična teorema.

    Često postoje ozbiljne tehničke poteškoće u procjeni potrebnog standardnog odstupanja od podataka.

    Na primjer, ako medijana ili korelacija uzorka.

    Bootstrap metoda prevazilazi ove poteškoće.

    Ideja je jednostavna: označimo proizvoljnom vrijednošću koja predstavlja istu statistiku izračunatu iz bootstrap uzorka, koji je dobiven iz originalnog uzorka

    Šta se može reći o distribuciji uzorkovanja ako je „početni“ uzorak fiksan?

    U limitu, distribucija uzorkovanja je također zvonasta sa parametrima i

    Dakle, bootstrap distribucija dobro aproksimira distribuciju uzorkovanja

    Imajte na umu da kada prelazimo s jednog uzorka na drugi, samo se , u izrazu, mijenja, budući da je izračunat pomoću

    Ovo je u suštini bootstrap verzija središnjeg graničnog teorema.

    Također je pronađeno da ako marginalna distribucija uzorkovanja statističke funkcije ne uključuje nepoznate populacije, bootstrap distribucija daje bolju aproksimaciju distribucije uzorkovanja od središnje granične teoreme.

    Konkretno, kada statistička funkcija ima oblik gdje označava pravu ili uzorkovanu procjenu standardne greške, granična distribucija uzorka je obično standardna normalna.

    Ovaj efekat se naziva korekcija drugog reda pomoću pokretanja.

    Neka tj. prosjek stanovništva itd. prosjek uzorka; je standardna devijacija populacije, je standardna devijacija uzorka izračunata iz originalnih podataka i izračunata je iz uzorka za pokretanje.

    Tada će distribucija uzorka vrijednosti gdje , biti aproksimirana bootstrap distribucijom, gdje je prosjek početnog uzorka, .

    Slično, distribucija uzorkovanja će biti aproksimirana bootstrap distribucijom, gdje je .

    Prve rezultate o korekciji drugog reda objavili su Babu i Singh 1981-83.

    Bootstrap aplikacije

    Aproksimacija standardne greške procjene uzorka

    Pretpostavimo da je parametar poznat za populaciju

    Neka je procjena napravljena na osnovu slučajnog uzorka veličine, tj. je funkcija od Budući da uzorak varira kroz skup svih mogućih uzoraka, za procjenu standardne greške koristi se sljedeći pristup:

    Hajde da izračunamo koristeći istu formulu koja je korištena za, ali ovaj put na osnovu različitih uzoraka za pokretanje svake veličine. Grubo govoreći, može se prihvatiti osim ako nije jako velika. U ovom slučaju, možete ga smanjiti na n ln n. Tada se može odrediti na osnovu, zapravo, suštine bootstrap metode: populaciju (uzorak) zamjenjuje empirijska populacija (uzorak).

    Bayesova korekcija korištenjem bootstrap metode

    Srednja vrijednost distribucije uzorkovanja često ovisi o obično kao za veliku, odnosno Bayesovu aproksimaciju:

    gdje su bootstrap kopije. Tada će prilagođena vrijednost biti -

    Vrijedi napomenuti da je prethodna metoda ponovnog uzorkovanja, nazvana metoda jackknifea, popularnija.

    Intervali pouzdanosti

    Intervali pouzdanosti (CI) za dati parametar su rasponi zasnovani na uzorku.

    Ovaj raspon ima svojstvo da mu pripada vrijednost s vrlo velikom (unaprijed određenom) vjerovatnoćom. Ovo se zove nivo značajnosti. Naravno, ova vjerovatnoća se mora primijeniti na svaki mogući uzorak, jer Svaki uzorak doprinosi određivanju intervala pouzdanosti. Dva najčešće korišćena nivoa značajnosti su 95% i 99%. Ovdje ćemo se ograničiti na vrijednost od 95%.

    Tradicionalno, CI zavise od distribucije uzorkovanja količine, tačnije u granici. Postoje dvije glavne vrste intervala povjerenja koji se mogu konstruirati korištenjem bootstrapa.

    Percentilna metoda

    Ova metoda je već spomenuta u uvodu, vrlo je popularna zbog svoje jednostavnosti i prirodnosti. Pretpostavimo da imamo 1000 bootstrap kopija, označimo ih sa Tada će interval pouzdanosti uključivati ​​vrijednosti iz raspona. Vraćajući se na teorijsku opravdanost metode, vrijedi napomenuti da je potrebna simetrija distribucije uzorkovanja okolo. Razlog za to je što metoda aproksimira distribuciju uzorkovanja pomoću bootstrapa distribucije, iako logično ispada da je treba aproksimirati vrijednošću koja je suprotnog predznaka.

    Metoda centriranog bootstrap-a

    Pretpostavimo da je distribucija uzorkovanja aproksimirana korištenjem bootstrap distribucije, to jest, kako je prvobitno pretpostavljeno u bootstrap-u. Označimo 100. percentil (u bootstrap ponavljanjima) sa Tada će pretpostavka da se vrijednost nalazi u rasponu od do biti tačna sa vjerovatnoćom od 95%. Isti izraz se lako može pretvoriti u sličan za raspon od do. Ovaj interval se naziva centrirani interval pouzdanosti zasnovan na procentima pokretanja (na nivou značajnosti od 95%).

    Bootstrap-t test

    Kao što je već napomenuto, bootstrap koristi funkciju forme u kojoj postoji uzorak procjene standardne greške

    Ovo daje dodatnu tačnost.

    Kao osnovni primjer, uzmimo standardnu ​​t-statistiku (otuda naziv metode): odnosno poseban slučaj kada (srednja populacija), (srednja vrednost uzorka) i - standardna devijacija uzorka. Bootstrap analog takve funkcije je gdje se izračunava na isti način kao i korištenje samo uzorka za pokretanje.

    Označimo 100. bootstrap percentil sa i pretpostavimo da vrijednost leži u intervalu

    Koristeći jednakost možete prepisati prethodnu izjavu, tj. leži u intervalu

    Ovaj interval se naziva početni interval t-pouzdanja za nivo od 95%.

    U literaturi se koristi za postizanje veće tačnosti od prethodnog pristupa.

    Primjer stvarnih podataka

    Kao prvi primjer, uzmite podatke iz Hollander i Wolfe 1999, strana 63, koji predstavljaju uticaj svjetlosti na stope izleganja pilića.

    Standardni boxplot ne pretpostavlja normalnost u podacima o populaciji. Izvršili smo početnu analizu medijane i srednje vrijednosti.

    Odvojeno, vrijedno je napomenuti nedostatak simetrije u bootstrap t-histogramu, koji se razlikuje od standardne granične krive. Intervali pouzdanosti od 95% za medijanu i srednju vrijednost (izračunati korištenjem metode bootstrap percentila) otprilike pokrivaju raspon

    Ovaj raspon predstavlja ukupnu razliku (povećanje) u rezultatima stope izleganja pilića u funkciji osvjetljenja.

    Kao drugi primjer, razmotrite podatke iz Devorea 2003, str. 553, koji su ispitivali korelaciju između biohemijske potražnje za kisikom (BOD) i rezultata hidrostatičkog vaganja (HW) profesionalnih fudbalera.

    Dvodimenzionalni podaci se sastoje od parova, a parovi se mogu nasumično odabrati tokom ponovnog uzorkovanja. Na primjer, prvo uzmi pa, itd.

    Na slici, dijagram kutija sa brkovima pokazuje nedostatak normalnosti za osnovne populacije. Histogrami korelacije izračunati iz početnih bivarijatnih podataka su asimetrični (pomaknuti ulijevo).

    Iz tog razloga, u ovom slučaju je prikladnija metoda centriranog percentila pokretanja.

    Analiza je otkrila da su mjerenja korelirana za najmanje 78% populacije.

    Podaci na primjer 1:

    8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

    Podaci na primjer 2:

    2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

    8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

    U literaturi se često predlažu različite šeme pokretanja koje bi mogle dati pouzdane rezultate u različitim statističkim situacijama.

    Ono o čemu smo gore govorili su samo najosnovniji elementi, a zapravo postoji mnogo drugih opcija šeme. Na primjer, koju metodu je bolje koristiti u slučaju dvostepenog uzorkovanja ili stratificiranog uzorkovanja?

    U ovom slučaju nije teško smisliti prirodnu shemu. Bootstrapping u slučaju podataka s regresijskim modelima općenito privlači veliku pažnju. Postoje dvije glavne metode: u prvom, kovarijate i varijable odgovora se ponovo uzorkuju zajedno (parno bootstrapping), u drugom, bootstrapping se izvodi na rezidualima (rezidualno bootstrapping).

    Metoda parova ostaje ispravna (u smislu rezultata na ) čak i ako varijanse greške u modelima nisu jednake. Druga metoda je u ovom slučaju neispravna. Ovaj nedostatak se kompenzira činjenicom da takva shema pruža dodatnu tačnost u procjeni standardne greške.

    Mnogo je teže primijeniti bootstrapping na podatke vremenske serije.

    Analiza vremenskih serija, međutim, jedno je od ključnih područja u ekonometriji. Ovdje postoje dvije glavne poteškoće: prvo, podaci vremenskih serija imaju tendenciju da budu sekvencijalno zavisni. Odnosno, zavisi od itd.

    Drugo, statistička populacija se vremenom mijenja, odnosno javlja se nestacionarnost.

    U tu svrhu razvijene su metode koje prenose ovisnost u izvornim podacima na bootstrap uzorke, posebno na blok dizajn.

    Umjesto bootstrap uzorka, uzorak se odmah konstruiše blok podatke koji zadržavaju zavisnosti iz originalnog uzorka.

    Trenutno se provodi dosta istraživanja u oblasti primjene bootstrappinga na područja ekonometrije općenito, metoda se aktivno razvija.

    Uzorci u kojima je uočen mali broj jedinica (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

    Marginalna greška malog uzorka određena je formulom:

    Prosječna mala greška uzorka:

    gdje je mala varijansa uzorka:

    gdje je prosječna vrijednost karakteristike u uzorku;

    Broj stepeni slobode

    Koeficijent pouzdanosti malog uzorka, koji ne zavisi samo od date verovatnoće poverenja, već i od broja jedinica uzorka.

    Vjerovatnoća da je opći prosjek u određenim granicama određena je formulom

    gdje je vrijednost Studentove funkcije.

    Da biste izračunali koeficijent pouzdanosti, odredite vrijednost funkcije pomoću formule:

    Zatim se pomoću Studentove tabele raspodele (vidi Dodatak 4), u zavisnosti od vrednosti funkcije i broja stepeni, određuje vrednost.

    Funkcija se također koristi za određivanje vjerojatnosti da stvarno normalizirano odstupanje neće premašiti vrijednost tablice.


    Tema 7. Statističko proučavanje odnosa: Koncept statističke komunikacije. Vrste i oblici statističke komunikacije. Problemi statističkog proučavanja odnosa među pojavama. Osobine veza između društveno-ekonomskih pojava. Osnovne metode statističkog proučavanja odnosa.

    Korelacija – povezanost koja se ne manifestira u svakom pojedinačnom slučaju, već u masi slučajeva u prosječnim vrijednostima u obliku trenda.

    Statističko istraživanje ima za krajnji cilj dobijanje modela zavisnosti za njegovu praktičnu upotrebu. Rješenje ovog problema provodi se sljedećim redoslijedom.

    1. Logička analiza suštine fenomena koji se proučava i uzročno-posledičnih veza. Kao rezultat, uspostavlja se indikator učinka (y), faktori njegove promjene, karakterizirani indikatorima (x ( , x 2 , x 3 ,..., X"). Odnos između dva znaka (g I X) pozvao korelacija parova. Uticaj nekoliko faktora na efektivnu karakteristiku naziva se višestruka korelacija.

    U opštem pravcu, veze mogu biti ravno I obrnuto. Sa direktnim vezama sa povećanjem karakteristike x znak se takođe povećava y, u suprotnom slučaju - s povećanjem znaka X sign at smanjuje.

    2. Prikupljanje primarnih informacija i njihova provjera homogenosti i normalnosti distribucije. Za procjenu homogenosti populacije koristi se koeficijent varijacije na osnovu faktorskih karakteristika

    Populacija se smatra homogenom ako koeficijent varijacije ne prelazi 33%. Provjera normalne distribucije proučavanih faktorskih karakteristika ( x ( , x 2 , x 3 ,..., X") izvedeno po pravilu “tri sigma”. Rezultate testiranja normalnosti distribucije treba prikazati u obliku tabele.

    Metoda malog uzorka ima niz prednosti u odnosu na metodu velikog uzorka. Njegove glavne prednosti su, prvo, smanjenje količine računskog rada, i drugo, mogućnost praćenja dinamike promjena u točnosti procesa tokom vremena, što se ne može učiniti metodom velikog uzorka. Metoda velikog uzorka može dati samo predstavu o tačnosti i stabilnosti procesa tokom perioda uzorkovanja, što može ostati i u budućnosti ako se uslovi procesa ne promijene nakon uzimanja uzorka. U stvarnosti, takva nepromjenjivost uvjeta proizvodnje ne može se unaprijed predvidjeti. Na primjer, pri radu na mašini za šipke, u toku smjene, materijal se više puta zamjenjuje (promjena šipke), mijenja se alat zbog habanja, stroj se podešava i sl., čime se mogu izvršiti značajna prilagođavanja prethodno dobijenog parametri distribucije. Metoda malih uzoraka, ako se potonji uzimaju redovito tijekom smjene u određenim intervalima, omogućava vam da dobijete potpunu sliku stanja procesa tokom proučavanog perioda, odredite stupanj njegove stabilnosti, a također i identificirate razloge zbog nedovoljne stabilnosti procesa tokom vremena, ako postoji.

    Statistička analiza sa malim uzorcima provodi se na sljedeći način. Uzorci od n = 5-10 kom. uzimati u određenim fiksnim intervalima (na primjer, nakon 15-30 minuta). Vremenski period za uzorkovanje se utvrđuje empirijski i zavisi od produktivnosti mašine, veličine uzorka i stepena stabilnosti tehnološkog procesa. Za svaki uzorak trebate izračunati i S. Zatim je potrebno za svaka dva susjedna uzorka testirati hipotezu o homogenosti varijansi uzorka korištenjem F - Fišerov kriterijum.

    Ako se hipoteza potvrdi, onda to ukazuje na stabilnost disperzije ili da su uzorci koji se uspoređuju uzeti iz iste populacije. Prilikom potvrđivanja hipoteze o homogenosti varijansi dva uzorka, treba testirati hipotezu o homogenosti dvaju uzorkovanih srednjih vrijednosti. t -Učenički test.

    Potvrda hipoteze o jednakosti dva susedna uzorka znači da se centar podešavanja opreme neće promeniti u trenutku uzimanja ovog uzorka i da ostaje isti kao kod uzimanja prethodnog uzorka, tj. proces je u stabilnom stanju. Kada hipoteza o jednakosti dva prosječna uzorka nije potvrđena, to ukazuje na pomak u centru strojnog podešavanja u vrijeme uzimanja ovog uzorka. Budući da se uzorci uzimaju u određenim intervalima, ako se otkrije pomak u centru podešavanja ili promjena u zoni disperzije, moguće je odrediti vremenski period nakon kojeg je došlo do narušavanja stabilnosti procesa.

    Nakon što se otkrije činjenica narušavanja stabilnosti procesa, moguće je utvrditi područje u kojem treba tražiti uzrok ove pojave. Heterogenost varijansi uzorka, što ukazuje na nestabilnost disperzije, ukazuje da razlog za to treba tražiti u mašini ili u mehanička svojstva obrađenog materijala. Heterogenost srednje vrednosti uzorka ukazuje na pomeranje centra podešavanja (potražite razlog u instrumentu).

    Dakle, uzimanjem malih uzoraka iz strujnog izlaza mašine tokom smene u određenim vremenskim intervalima, proseci i varijanse uzoraka se izračunavaju upoređivanjem i procenom njihovih neslaganja korišćenjem F i t-kriterijuma, moguće je utvrditi momente poremećaja procesa, pa čak i izvora ovih poremećaja.

    statistika malog uzorka

    Općenito je prihvaćeno da je početak S. m.v. ili, kako je često nazivaju, „mala n“ statistika, osnovana je u prvoj deceniji 20. veka objavljivanjem dela W. Gosseta, u koji je postavio t-distribuciju koju je postulirao „student“ koji svjetsku slavu stekao nešto kasnije. U to vrijeme, Gosett je radio kao statističar u Guinnessovim pivarama. Jedna od njegovih dužnosti bila je analiziranje uzastopnih serija bačvi svježe skuvanog portera. Iz razloga koji nikada nije objasnio, Gosett je eksperimentisao sa idejom da značajno smanji broj uzoraka uzetih iz veoma velikog broja bačvi u skladištima pivare kako bi nasumično kontrolisao kvalitet portera. To ga je navelo da postulira t-distribuciju. Budući da su propisi Guinnessovih pivara zabranjivali njihovim zaposlenicima da objavljuju rezultate istraživanja, Gosett je objavio rezultate svog eksperimenta upoređujući uzorkovanje kontrole kvaliteta koristeći t-distribuciju za male uzorke i tradicionalnu z-distribuciju (normalnu distribuciju) anonimno, pod pseudonimom "Student " - otuda naziv Studentova t-distribucija).

    t-distribucija. Teorija t-distribucije, kao i teorija z-distribucije, koristi se za testiranje nulte hipoteze da su dva uzorka jednostavno nasumični uzorci iz iste populacije i stoga su izračunate statistike (npr. srednja vrijednost i standardna devijacija) nepristrasne procjene parametara populacije. Međutim, za razliku od teorije normalne distribucije, teorija t-distribucije za male uzorke ne zahtijeva apriorno znanje ili precizne procjene očekivane vrijednosti i varijanse populacije. Štaviše, iako testiranje razlike između srednjih vrijednosti dva velika uzorka za statističku značajnost zahtijeva osnovnu pretpostavku da su karakteristike populacije normalno raspoređene, teorija t distribucije ne zahtijeva pretpostavke o parametrima.

    Dobro je poznato da su normalno raspoređene karakteristike opisane jednom jedinom krivom - Gausovom krivom, koja zadovoljava sljedeću jednačinu:

    Sa t-distribucijom, cijela porodica krivulja predstavljena je sljedećom formulom:

    Zbog toga jednačina za t uključuje gama funkciju, što u matematici znači da kako se n mijenja, druga kriva će zadovoljiti datu jednačinu.

    Stepeni slobode

    U jednadžbi za t, slovo n označava broj stupnjeva slobode (df) povezanih s procjenom varijanse populacije (S2), koja predstavlja drugi trenutak bilo koje funkcije koja generiše trenutak, kao što je jednačina za t distribuciju .

    U S., broj stupnjeva slobode pokazuje koliko karakteristika ostaje slobodno nakon njihove djelomične upotrebe u određenoj vrsti analize. U t-distribuciji, jedno od odstupanja od srednje vrijednosti uzorka je uvijek fiksno, budući da zbir svih takvih odstupanja mora biti nula. Ovo utiče na zbir kvadrata kada se izračunava varijansa uzorka kao nepristrasna procjena parametra S2 i dovodi do toga da je df jednak broju mjerenja minus jedan za svaki uzorak. Dakle, u formulama i postupcima za izračunavanje t-statistike za testiranje nulte hipoteze, df = n - 2. F-pacdivision. Nul hipoteza testirana t testom je da su dva uzorka nasumično izvučena iz iste populacije ili su nasumično izvučena iz dvije različite populacije sa istom varijansom. Šta učiniti ako trebate napraviti analizu više

    grupe? Odgovor na ovo pitanje tražio se dvadeset godina nakon što je Gosset otkrio t-distribuciju. Dvojica najeminentnijih statističara 20. veka bila su direktno uključena u njegovu proizvodnju. Jedan je najveći engleski statističar R. A. Fisher, koji je predložio prve teorije. formulacije čiji je razvoj doveo do proizvodnje F-distribucije; njegov rad na teoriji malih uzoraka, razvijajući Gossetove ideje, objavljen je sredinom 20-ih (Fisher, 1925). Drugi je George Snedecor, jedan iz galaksije ranih američkih statističara, koji je razvio način za upoređivanje dva nezavisna uzorka bilo koje veličine izračunavanjem omjera dvije procjene varijanse. On je ovaj odnos nazvao F-razmjerom, po Fischeru. Rezultati istraživanja Snedecor je doveo do činjenice da je F-distribucija počela da se specificira kao distribucija omjera dvije statistike c2, svaka sa svojim vlastitim stupnjevima slobode:

    Iz ovoga je proizašao Fisherov klasični rad o analizi varijanse, statističkoj metodi koja je eksplicitno fokusirana na analizu malih uzoraka.

    Distribucija uzorkovanja F (gdje je n = df) predstavljena je sljedećom jednadžbom:

    Tabele za procjenu t- i F-statistike. Prilikom testiranja nulte hipoteze pomoću S., zasnovane na teoriji velikih uzoraka, obično je potrebna samo jedna tabela za pretraživanje - tabela normalnih odstupanja (z), koja vam omogućava da odredite površinu ispod normalne krivulje između bilo koje dvije vrijednosti z na x-osi. Međutim, tabele za t- i F-distribuciju su nužno predstavljene u skupu tabela, budući da su ove tabele zasnovane na različitim distribucijama koje su rezultat variranja broja stepeni slobode. Iako su t- i F-distribucije distribucije gustoće vjerovatnoće, poput normalne distribucije za velike uzorke, one se razlikuju od ove posljednje na četiri načina koja se koriste za njihovo opisivanje. Distribucija t, na primjer, je simetrična (obratite pažnju na t2 u svojoj jednadžbi) za sve df, ali postaje sve više vrhunska kako se veličina uzorka smanjuje. Vrhunske krivulje (one sa kurtozom većim od normalnog) imaju tendenciju da budu manje asimptotične (to jest, manje blizu x-osi na krajevima distribucije) nego krive sa normalnim kurtozom, kao što je Gausova kriva. Ova razlika rezultira uočljivim odstupanjima između tačaka na x-osi koje odgovaraju vrijednostima t i z. Sa df = 5 i dvostranim α nivoom od 0,05, t = 2,57, dok je odgovarajući z = 1,96. Dakle, t = 2,57 ukazuje na statističku značajnost na nivou od 5%. Međutim, u slučaju normalne krive, z = 2,57 (tačnije 2,58) će već ukazivati ​​na nivo statističke značajnosti od 1%. Slična poređenja se mogu napraviti sa F distribucijom, jer je t jednako F kada je broj uzoraka dva.

    Šta čini “mali” uzorak?

    Svojevremeno se postavljalo pitanje koliki uzorak treba da bude da bi se smatrao malim. Jednostavno ne postoji definitivan odgovor na ovo pitanje. Međutim, smatra se da je konvencionalna granica između malog i velikog uzorka df = 30. Osnova za ovu donekle proizvoljnu odluku je rezultat poređenja t-distribucije sa normalnom distribucijom. Kao što je gore navedeno, razlika između vrijednosti t i z ima tendenciju povećanja kako se df smanjuje i smanjivanja kako se df povećava. U stvari, t počinje da se približava z mnogo prije graničnog slučaja gdje je t = z za df = ∞. Jednostavno vizualno ispitivanje tabličnih vrijednosti t pokazuje da ova aproksimacija postaje prilično brza, počevši od df = 30 i više. Uporedne vrijednosti t (pri df = 30) i z su jednake, respektivno: 2,04 i 1,96 za p = 0,05; 2,75 i 2,58 za p = 0,01; 3,65 i 3,29 za p = 0,001.

    Ostale statistike za “male” uzorke

    Iako su statistike kao što su t i F posebno dizajnirane za upotrebu s malim uzorcima, one su podjednako primjenjive i na velike uzorke. Međutim, postoje mnoge druge statističke metode dizajnirane za analizu malih uzoraka i često se koriste u tu svrhu. To se odnosi na tzv. neparametarske metode ili metode bez distribucije. U osnovi, skale koje se koriste u ovim metodama su namijenjene za primjenu na mjerenja dobivena korištenjem skala koje ne zadovoljavaju definiciju omjera ili intervalnih skala. Najčešće su to ordinalne (rang) ili nazivne mjere. Neparametarske skale ne zahtijevaju pretpostavke u vezi sa parametrima distribucije, posebno u pogledu procjena disperzije, jer ordinalne i nominalne skale eliminišu sam koncept disperzije. Iz tog razloga, neparametarske metode se također koriste za mjerenja dobivena korištenjem intervalnih i omjernih skala kada se analiziraju mali uzorci i kada postoji vjerovatnoća da će osnovne pretpostavke potrebne za korištenje parametarskih metoda biti narušene. Ovi testovi, koji se razumno mogu primijeniti na male uzorke, uključuju: Fišerov test egzaktne vjerovatnoće, Friedmanov dvofaktorski neparametarski (rang) analizu varijanse, Kendallov t rang koeficijent korelacije, Kendallov koeficijent konkordancije (W), Kruskalov H test - Wallace za neparametarsku (rang) jednosmjernu analizu varijanse, Mann-Whitney U-test, test medijane, test znakova, Spearmanov koeficijent korelacije ranga r i Wilcoxon t-test.

    Prilikom proučavanja varijabilnosti razlikuju se kvantitativne i kvalitativne karakteristike, čije se proučavanje vrši pomoću statistike varijacije, koja se zasniva na teoriji vjerovatnoće. Vjerovatnoća ukazuje na moguću učestalost da pojedinac ima određenu osobinu. P=m/n, gdje je m broj jedinki sa datom vrijednošću osobine; n je broj svih pojedinaca u grupi. Vjerovatnoća se kreće od 0 do 1 (na primjer, vjerovatnoća je 0,02 - pojava blizanaca u stadu, tj. pojavit će se dva blizanca na 100 teljenja). Dakle, predmet proučavanja biometrije je varijabilna karakteristika, čije se proučavanje vrši na određenoj grupi objekata, tj. totalitet. Postoje opšte i uzorkovane populacije. Populacija Ovo je velika grupa pojedinaca koja nas zanima na osnovu osobine koja se proučava. Opća populacija može uključivati ​​vrstu životinje ili rasu iste vrste. Opća populacija (pasmina) uključuje nekoliko miliona životinja. Istovremeno, pasmina se razilazi u mnoge grupe, tj. stada individualnih farmi. Budući da se opća populacija sastoji od velikog broja pojedinaca, tehnički je teško proučiti je. Dakle, oni ne proučavaju cijelu populaciju, već samo njen dio, koji se zove izborni ili uzorak populacije.

    Na osnovu populacije uzorka donosi se sud o cjelokupnoj populaciji kao cjelini. Uzorkovanje se mora obaviti po svim pravilima, koja moraju uključiti jedinke sa svim vrijednostima varijabilnog svojstva. Odabir pojedinaca iz opšte populacije vrši se po principu slučajnosti ili žrijebom. U biometriji postoje dvije vrste slučajnog uzorkovanja: veliko i malo. Veliki uzorak naziva se onaj koji uključuje više od 30 pojedinaca ili zapažanja, i mali uzorak manje od 30 pojedinaca. Za velike i male populacije uzoraka postoje razne metode obrada podataka. Izvor statističkih informacija mogu biti podaci iz zootehničke i veterinarske evidencije, koji daju podatke o svakoj životinji od rođenja do zbrinjavanja. Drugi izvor informacija mogu biti podaci iz naučnih i proizvodnih eksperimenata provedenih na ograničenom broju životinja. Kada se uzorak dobije, počinje obrada. Ovo omogućava da se u obliku matematičkih veličina dobije određeni broj statističkih veličina ili koeficijenata koji karakterišu karakteristike grupa životinja od interesa.

    Biometrijskom metodom dobijaju se sledeći statistički parametri ili indikatori:

    1. Prosječne vrijednosti varijabilne karakteristike (aritmetička sredina, modus, medijan, geometrijska sredina).

    2. Koeficijenti koji mjere količinu varijacije tj. (varijabilnost) proučavane karakteristike (standardna devijacija, koeficijent varijacije).

    3. Koeficijenti koji mjere veličinu odnosa između karakteristika (koeficijent korelacije, koeficijent regresije i odnos korelacije).

    4. Statističke greške i pouzdanost dobijenih statističkih podataka.

    5. Udio varijacija koje nastaju pod uticajem različitih faktora i drugih pokazatelja koji su povezani sa proučavanjem genetskih i selekcijskih problema.

    Prilikom statističke obrade uzorka, članovi populacije su organizovani u obliku varijacione serije. Niz varijacija je grupisanje pojedinaca u klase ovisno o vrijednosti osobine koja se proučava. Varijacijska serija se sastoji od dva elementa: klasa i niza frekvencija. Serija varijacija može biti isprekidana ili kontinuirana. Pozivaju se karakteristike koje mogu uzeti samo cijeli broj povremeni broj grla, broj jaja, broj prasadi i drugo. Osobine koje se mogu izraziti u razlomcima se nazivaju kontinuirano(visina cm, mlečnost kg, % masti, živa težina i dr.).

    Prilikom konstruiranja varijantne serije, pridržavaju se sljedećih principa ili pravila:

    1. Odredite ili prebrojite broj jedinki za koje će se konstruirati varijacijski niz (n).

    2. Pronađite maksimalnu i minimalnu vrijednost karakteristike koja se proučava.

    3. Odrediti interval klasa K = max - min / broj klasa, broj klasa se uzima proizvoljno.

    4. Konstruirajte klase i odredite granicu svake klase, min+K.

    5. Raspoređuje pripadnike stanovništva u klase.

    Nakon konstruisanja klasa i distribucije pojedinaca u klase, izračunavaju se glavni indikatori serije varijacija (X, σ, Cv, Mh, Mσ, Mcv). Prosječna vrijednost atributa dobila je najveću vrijednost u karakterizaciji populacije. Prilikom rješavanja svih zootehničkih, veterinarskih, medicinskih, ekonomskih i drugih problema uvijek se utvrđuje prosječna vrijednost neke osobine (prosječna mliječnost stada, % masti, plodnost u svinjarstvu, proizvodnja jaja kod pilića i druga svojstva). Parametri koji karakteriziraju prosječnu vrijednost karakteristike uključuju sljedeće:

    1. Aritmetička sredina.

    2. Ponderisani aritmetički prosjek.

    3. Geometrijska sredina.

    4. Moda (Mo).

    5. Medijan (Me) i drugi parametri.

    Aritmetička sredina pokazuje nam koju su vrijednost osobina imali pojedinci date grupe ako je ista za sve, a određuje se formulom X = A + b × K

    Glavno svojstvo aritmetičke sredine je da eliminiše varijaciju karakteristike i čini je zajedničkom za cijelu populaciju. Istovremeno, treba napomenuti da aritmetička sredina poprima apstraktno značenje, tj. prilikom njegovog izračunavanja dobijaju se frakcioni indikatori, koji u stvarnosti možda i ne postoje. Na primjer: prinos teladi na 100 krava je 85,3 teladi, plodnost krmača je 11,8 prasadi, proizvodnja jaja pilića je 252,4 jaja i drugi pokazatelji.

    Vrijednost aritmetičke sredine je vrlo visoka u stočarskoj praksi i karakteristikama stanovništva. U praksi stočarstva, posebno stočarstva, za određivanje prosječnog sadržaja masti u mlijeku tokom laktacije koristi se ponderirana aritmetička vrijednost.

    Geometrijska srednja vrijednost izračunava se ako je potrebno okarakterisati stopu rasta, stopu povećanja stanovništva, kada aritmetički prosjek iskrivljuje podatke.

    Moda navedite vrijednost koja se najčešće susreće različite karakteristike, i kvantitativne i kvalitativne. Modalni broj za kravu je broj sise-4. Iako ima krava sa pet ili šest sisa. U nizu varijacija, modalna klasa će biti klasa u kojoj postoji najveći broj frekvencija i mi je definiramo kao nultu klasu.

    Medijan naziva se varijanta koja sve članove populacije dijeli na dva jednaka dijela. Polovina članova populacije će imati vrijednost varijabilne osobine manju od medijane, a druga polovina će imati vrijednost veću od medijane (na primjer: standard pasmine). Medijan se najčešće koristi za karakterizaciju kvalitativnih karakteristika. Na primjer: oblik vimena je čašasti, okrugao, kozje. Uz ispravnu opciju uzorkovanja, sva tri indikatora bi trebala biti ista (tj. X, Mo, Me). Dakle, prva karakteristika populacije su prosječne vrijednosti, ali one nisu dovoljne za prosuđivanje populacije.

    Drugi važan pokazatelj svake populacije je varijabilnost ili varijabilnost osobine. Varijabilnost osobine određena je mnogim faktorima spoljašnje okruženje i unutrašnji faktori tj. nasledni faktori.

    Određivanje varijabilnosti osobine velika vrijednost, kako u biologiji tako i u stočarskoj praksi. Dakle, korištenjem statističkih parametara koji mjere stepen varijabilnosti osobine, moguće je ustanoviti pasminske razlike u stepenu varijabilnosti različitih ekonomski korisnih osobina, predvideti nivo selekcije u različitim grupama životinja, kao i njenu efikasnost. .

    Trenutno stanje Statistička analiza omogućava ne samo da se utvrdi stepen ispoljavanja fenotipske varijabilnosti, već i da se fenotipska varijabilnost podeli na njene sastavne tipove, odnosno genotipsku i paratipsku varijabilnost. Ova dekompozicija varijabilnosti se vrši pomoću analize varijanse.

    Glavni indikatori varijabilnosti su sljedeće statističke vrijednosti:

    1. Ograničenja;

    2. Standardna devijacija (σ);

    3. Koeficijent varijabilnosti ili varijacije (Cv).

    Najjednostavniji način da se predstavi količina varijabilnosti osobine je kroz granice. Granice se određuju na sljedeći način: razlika između maksimalne i min vrijednosti atributa. Što je ova razlika veća, to je veća varijabilnost ove osobine. Glavni parametar za mjerenje varijabilnosti osobine je standardna devijacija ili (σ) i određen je formulom:

    σ = ±K ∙ √∑ Pa 2- b 2

    Glavna svojstva standardne devijacije tj. (σ) su kako slijedi:

    1. Sigma je uvijek imenovana vrijednost i izražava se (u kg, g, metrima, cm, kom.).

    2. Sigma je uvijek pozitivna vrijednost.

    3. Što je veća vrijednost σ, veća je varijabilnost osobine.

    4. U seriji varijacije, sve frekvencije su uključene u ±3σ.

    Koristeći standardnu ​​devijaciju, možete odrediti kojoj seriji varijacija pripada dati pojedinac. Metode za određivanje varijabilnosti karakteristike pomoću granica i standardne devijacije imaju svoje nedostatke, jer je nemoguće porediti različite karakteristike na osnovu veličine varijabilnosti. Potrebno je poznavati varijabilnost različitih osobina kod iste životinje ili iste grupe životinja, na primjer: varijabilnost prinosa mlijeka, sadržaja masti u mlijeku, žive mase, količine mliječne masti. Stoga, poređenjem varijabilnosti suprotnih karakteristika i utvrđivanjem stepena njihove varijabilnosti, koeficijent varijabilnosti se izračunava pomoću sljedeće formule:

    Dakle, glavne metode za procjenu varijabilnosti karakteristika među članovima populacije su: granice; standardna devijacija (σ) i koeficijent varijacije ili varijabilnosti.

    U stočarskoj praksi i eksperimentalnim istraživanjima često se mora raditi s malim uzorcima. Mali uzorak oni nazivaju broj jedinki ili životinja koji ne prelazi 30 ili manji od 30. Utvrđeni obrasci se prenose na cjelokupnu populaciju koristeći mali uzorak. Za mali uzorak određuju se isti statistički parametri kao i za veliki uzorak (X, σ, Cv, Mx). Međutim, njihove formule i proračuni se razlikuju od velikog uzorka (tj. od formula i proračuna serije varijacija).

    1. Aritmetička srednja vrijednost X = ∑V

    V - apsolutna vrijednost opcije ili karakteristike;

    n je broj varijanti ili broj pojedinaca.

    2. Standardna devijacija σ = ± √ ∑α 2

    α = x-¯x, ovo je razlika između vrijednosti opcije i aritmetičke sredine. Ova razlika α je na kvadrat, a α 2 n-1 je broj stupnjeva slobode, tj. broj svih varijanti ili pojedinaca smanjen za jedan (1).

    Sigurnosna pitanja:

    1.Šta je biometrija?

    2. Koji statistički parametri karakterišu populaciju?

    3. Koji pokazatelji karakterišu varijabilnost?

    4.Šta je mali uzorak

    5. Šta su mod i medijan?

    Predavanje br. 12

    Biotehnologija i transplantacija embrija

    1. Koncept biotehnologije.

    2. Odabir krava donora i primaoca, transplantacija embriona.

    3. Značaj transplantacije u stočarstvu.



    Povezani članci