วิธีการกระจายและแผนภาพความแม่นยำ วิธีการกระจายตัวอย่างขนาดเล็กและพล็อตที่แม่นยำ

21.07.2023

บุคคลสามารถรับรู้ความสามารถของเขาได้โดยพยายามนำไปใช้เท่านั้น (เซเนกา)

Bootstrap ตัวอย่างขนาดเล็ก การประยุกต์ในการวิเคราะห์ข้อมูล

แนวคิดหลัก

B. Efron เสนอวิธีบูตสแตรปเป็นการพัฒนาวิธีแจ็คไนฟ์ในปี 1979

ให้เราอธิบายแนวคิดหลักของ bootstrap

วัตถุประสงค์ของการวิเคราะห์ข้อมูลเพื่อให้ได้ข้อมูลที่แม่นยำที่สุด เลือกสรรการประเมินและสรุปผลลัพธ์ให้กับประชากรทั้งหมด

คำศัพท์ทางเทคนิคสำหรับข้อมูลตัวเลขที่ดึงมาจากตัวอย่างคือสถิติตัวอย่าง

สถิติเชิงพรรณนาเบื้องต้นได้แก่ เลือกสรรค่าเฉลี่ย ค่ามัธยฐาน ส่วนเบี่ยงเบนมาตรฐาน ฯลฯ

สถิติสรุป เช่น ค่าเฉลี่ยตัวอย่าง ค่ามัธยฐาน ความสัมพันธ์จะแตกต่างกันไปในแต่ละตัวอย่าง

ผู้วิจัยจำเป็นต้องทราบขนาดของรูปแบบเหล่านี้ตามหน้าที่ของประชากร จากข้อมูลนี้ จะมีการคำนวณระยะขอบของข้อผิดพลาด

ภาพต้นฉบับของทุกคน ค่าที่เป็นไปได้สถิติตัวอย่างในรูปแบบของการแจกแจงความน่าจะเป็นเรียกว่าการแจกแจงตัวอย่าง

ที่สำคัญคือ ขนาดตัวอย่าง จะทำอย่างไรถ้าขนาดตัวอย่างมีขนาดเล็ก? แนวทางหนึ่งที่สมเหตุสมผลคือ สุ่มวิธีดึงข้อมูลจากตัวอย่างที่มีอยู่

แนวคิดของบูตสแตรปคือการใช้ผลลัพธ์ของการคำนวณกับตัวอย่างเป็น "ประชากรสมมติ" เพื่อกำหนดการกระจายตัวอย่างทางสถิติ ในความเป็นจริงมันวิเคราะห์ ใหญ่จำนวนตัวอย่าง "phantom" เรียกว่าตัวอย่างบูตสแตรป

โดยปกติแล้วตัวอย่างหลายพันตัวอย่างจะถูกสร้างแบบสุ่ม จากชุดนี้ เราสามารถค้นหาการกระจายบูตสแตรปของสถิติที่เราสนใจได้

ดังนั้น ให้เรามีตัวอย่าง ในขั้นตอนแรกเราสุ่มเลือกหนึ่งในองค์ประกอบของตัวอย่าง ส่งองค์ประกอบนี้กลับคืนสู่ตัวอย่าง สุ่มเลือกองค์ประกอบอีกครั้ง และอื่นๆ

ให้เราทำซ้ำขั้นตอนการเลือกแบบสุ่มที่อธิบายไว้ n ครั้ง

ใน bootstrap จะมีการสุ่มเลือกด้วย กลับ,องค์ประกอบที่เลือกจากตัวอย่างต้นฉบับ ผลตอบแทนลงในส่วนที่เลือกแล้วจึงจะสามารถเลือกใหม่ได้

ตามหลักแล้ว ในแต่ละขั้นตอน เราจะเลือกองค์ประกอบของตัวอย่างดั้งเดิมที่มีความน่าจะเป็น 1/n

โดยรวมแล้วเรามีองค์ประกอบ n รายการของกลุ่มตัวอย่างดั้งเดิม ความน่าจะเป็นที่จะได้ตัวอย่างที่มีตัวเลข (N 1 ... Nn) โดยที่ Ni แปรผันจาก 0 ถึง n อธิบายโดยการแจกแจงพหุนาม

มีการสร้างตัวอย่างดังกล่าวหลายพันตัวอย่าง ซึ่งค่อนข้างสามารถทำได้สำหรับคอมพิวเตอร์สมัยใหม่

สำหรับแต่ละตัวอย่าง จะมีการสร้างการประมาณปริมาณของดอกเบี้ย จากนั้นจึงหาค่าเฉลี่ยของการประมาณการ

เนื่องจากมีตัวอย่างจำนวนมาก จึงเป็นไปได้ที่จะสร้างฟังก์ชันการแจกแจงเชิงประจักษ์ของการประมาณ จากนั้นคำนวณควอนไทล์ และคำนวณช่วงความเชื่อมั่น

เห็นได้ชัดว่าวิธีบูตสแตรปเป็นการดัดแปลงวิธีมอนติคาร์โล

หากมีการสร้างตัวอย่าง ไม่มีการส่งคืนองค์ประกอบต่างๆ แล้วปรากฎว่า วิธีการที่รู้จักกันดีมีดพับ

คำถาม: เพราะเหตุใดจึงทำเช่นนี้ และเมื่อใดจึงสมเหตุสมผลที่จะใช้วิธีนี้ในการวิเคราะห์ข้อมูลจริง?

ในการบูตสแตรป เราไม่ได้รับข้อมูลใหม่ แต่เราใช้ข้อมูลที่มีอยู่อย่างชาญฉลาดโดยพิจารณาจากงานที่มีอยู่

ตัวอย่างเช่น สามารถใช้ bootstrap ได้ เล็กตัวอย่างสำหรับการประมาณค่ามัธยฐาน ความสัมพันธ์ การสร้างช่วงความเชื่อมั่น และในสถานการณ์อื่นๆ

งานดั้งเดิมของเอฟรอนพิจารณาการประมาณการความสัมพันธ์แบบคู่สำหรับขนาดตัวอย่างที่ n = 15

B = มีการสร้างตัวอย่างบูตสแตรป 1,000 ตัวอย่าง (การจำลองแบบบูตสแตรป)

จากค่าสัมประสิทธิ์ที่ได้รับ ro 1 ... ro B จะมีการสร้างการประมาณค่าสัมประสิทธิ์สหสัมพันธ์ทั่วไปและการประมาณค่าเบี่ยงเบนมาตรฐาน

ข้อผิดพลาดมาตรฐานของค่าสัมประสิทธิ์สหสัมพันธ์ตัวอย่าง ซึ่งคำนวณโดยใช้การประมาณปกติคือ:

โดยที่ค่าสัมประสิทธิ์สหสัมพันธ์คือ 0.776 ขนาดตัวอย่างดั้งเดิมคือ n = 15

ค่าประมาณบูตสแตรปของข้อผิดพลาดมาตรฐานคือ 0.127 ดู Efron, Gall Gong, 1982

พื้นหลังทางทฤษฎี

ให้เป็นพารามิเตอร์เป้าหมายของการศึกษา เช่น รายได้เฉลี่ยในสังคมที่เลือก

เมื่อใช้ตัวอย่างขนาดใดก็ได้ เราจะได้ชุดข้อมูล ปล่อยให้สถิติตัวอย่างที่เกี่ยวข้องเป็นไป

สำหรับสถิติตัวอย่างส่วนใหญ่ที่ ใหญ่ค่า (>30) การกระจายตัวอย่างเป็นเส้นโค้งปกติที่มีค่ากึ่งกลางและส่วนเบี่ยงเบนมาตรฐาน โดยค่าพารามิเตอร์บวกจะขึ้นอยู่กับประชากรและประเภทของสถิติ

ผลลัพธ์แบบคลาสสิกนี้เรียกว่าทฤษฎีบทขีดจำกัดกลาง

มักจะมีปัญหาทางเทคนิคร้ายแรงในการประมาณค่าเบี่ยงเบนมาตรฐานที่ต้องการจากข้อมูล

ตัวอย่างเช่น ถ้า ค่ามัธยฐานหรือ ความสัมพันธ์ตัวอย่าง.

วิธีบูตสแตรปเอาชนะปัญหาเหล่านี้

แนวคิดนั้นง่ายมาก: ให้เราแสดงด้วยค่าที่กำหนดเองซึ่งแสดงถึงสถิติเดียวกันที่คำนวณจากตัวอย่างบูตสแตรป ซึ่งได้มาจากตัวอย่างดั้งเดิม

จะพูดอะไรเกี่ยวกับการกระจายตัวอย่างหากตัวอย่าง "เริ่มต้น" ได้รับการแก้ไข

ในขีดจำกัด การกระจายตัวอย่างจะเป็นรูปทรงระฆังพร้อมพารามิเตอร์และ

ดังนั้นการกระจายบูตสแตรปจึงใกล้เคียงกับการกระจายตัวอย่าง

โปรดทราบว่าเมื่อเราย้ายจากตัวอย่างหนึ่งไปยังอีกตัวอย่างหนึ่ง เฉพาะในนิพจน์เท่านั้นที่เปลี่ยนแปลง เนื่องจากมันถูกคำนวณโดยใช้

โดยพื้นฐานแล้วนี่คือเวอร์ชันบูตสแตรปของทฤษฎีบทขีดจำกัดกลาง

นอกจากนี้ ยังพบว่าหากการกระจายตัวตัวอย่างส่วนขอบของฟังก์ชันทางสถิติไม่รวมค่าที่ไม่ทราบจำนวนประชากร การแจกแจงแบบบูตสแตรปจะให้การประมาณการกระจายตัวอย่างได้ดีกว่าทฤษฎีบทขีดจำกัดศูนย์กลาง

โดยเฉพาะอย่างยิ่ง เมื่อฟังก์ชันทางสถิติมีรูปแบบที่แสดงถึงค่าจริงหรือค่าประมาณตัวอย่างของข้อผิดพลาดมาตรฐาน การกระจายตัวอย่างแบบจำกัดมักจะเป็นค่าปกติมาตรฐาน

เอฟเฟกต์นี้เรียกว่าการแก้ไขลำดับที่สองโดยใช้การบูตสแตรปปิ้ง

ปล่อยให้นั่นคือ ค่าเฉลี่ยประชากร ฯลฯ ค่าเฉลี่ยตัวอย่าง คือค่าเบี่ยงเบนมาตรฐานของประชากร คือค่าเบี่ยงเบนมาตรฐานของกลุ่มตัวอย่างที่คำนวณจากข้อมูลต้นฉบับ และคำนวณจากตัวอย่างบูตสแตรป

จากนั้นการกระจายตัวอย่างของค่า โดยที่ จะถูกประมาณโดยการแจกแจงบูตสแตรป โดยที่ คือค่าเฉลี่ยของตัวอย่างบูตสแตรป

ในทำนองเดียวกัน การกระจายตัวอย่างจะถูกประมาณโดยการกระจายบูตสแตรป โดยที่

ผลลัพธ์แรกของการแก้ไขลำดับที่สองได้รับการเผยแพร่โดย Babu และ Singh ในปี 1981-83

แอปพลิเคชั่น Bootstrap

การประมาณค่าความคลาดเคลื่อนมาตรฐานของการประมาณค่าตัวอย่าง

สมมติว่าพารามิเตอร์นี้เป็นที่รู้จักสำหรับประชากร

ให้เป็นการประมาณการบนพื้นฐานของขนาดตัวอย่างแบบสุ่มเช่น เป็นฟังก์ชันของ เนื่องจากตัวอย่างแตกต่างกันไปตามชุดตัวอย่างที่เป็นไปได้ทั้งหมด จึงใช้แนวทางต่อไปนี้เพื่อประมาณค่าข้อผิดพลาดมาตรฐาน:

มาคำนวณโดยใช้สูตรเดียวกันกับที่ใช้ แต่คราวนี้ยึดตามตัวอย่างบูตสแตรปที่แตกต่างกันของแต่ละขนาด พูดคร่าวๆ ก็ยอมรับได้ถ้ามันไม่ใหญ่มากเท่านั้น ในกรณีนี้คุณสามารถลดขนาดลงได้ n ln n- จากนั้น จะสามารถกำหนดได้โดยอิงตามสาระสำคัญของวิธีบูตสแตรป: ประชากร (ตัวอย่าง) จะถูกแทนที่ด้วยประชากรเชิงประจักษ์ (ตัวอย่าง)

การแก้ไขแบบเบย์โดยใช้วิธีบูตสแตรป

ค่าเฉลี่ยของการกระจายตัวอย่างมักจะขึ้นอยู่กับค่าขนาดใหญ่ นั่นคือ การประมาณแบบเบย์:

สำเนา bootstrap อยู่ที่ไหน จากนั้นค่าที่ปรับจะเป็น -

เป็นที่น่าสังเกตว่าวิธีการสุ่มตัวอย่างก่อนหน้านี้เรียกว่าวิธีแจ็คไนฟ์นั้นได้รับความนิยมมากกว่า

ช่วงความมั่นใจ

ช่วงความเชื่อมั่น (CI) สำหรับพารามิเตอร์ที่กำหนดคือช่วงที่อิงตามตัวอย่าง

ช่วงนี้มีคุณสมบัติที่มีความน่าจะเป็นที่สูงมาก (กำหนดไว้ล่วงหน้า) อยู่ด้วย นี่เรียกว่าระดับนัยสำคัญ แน่นอนว่า ความน่าจะเป็นนี้ต้องใช้กับตัวอย่างที่เป็นไปได้ เพราะ แต่ละตัวอย่างมีส่วนช่วยในการกำหนดช่วงความเชื่อมั่น ระดับนัยสำคัญที่ใช้บ่อยที่สุดสองระดับคือ 95% และ 99% ที่นี่เราจะจำกัดตัวเองไว้ที่ค่า 95%

ตามปกติแล้ว CI ขึ้นอยู่กับการกระจายตัวตัวอย่างของปริมาณ ซึ่งแม่นยำกว่าในขีดจำกัด ช่วงความเชื่อมั่นมีสองประเภทหลักที่สามารถสร้างได้โดยใช้บูตสแตรป

วิธีเปอร์เซ็นไทล์

วิธีการนี้ได้ถูกกล่าวถึงไปแล้วในบทนำซึ่งเป็นที่นิยมอย่างมากเนื่องจากความเรียบง่ายและเป็นธรรมชาติ สมมติว่าเรามีสำเนาบูตสแตรป 1,000 ชุด เรามาแสดงแทนด้วย จากนั้นช่วงความเชื่อมั่นจะรวมค่าจากช่วงที่กลับไปสู่เหตุผลทางทฤษฎีของวิธีการนั้น เป็นที่น่าสังเกตว่าต้องใช้ความสมมาตรของการกระจายตัวอย่างโดยรอบ เหตุผลก็คือ วิธีการจะประมาณการกระจายตัวอย่างโดยใช้บูตสแตรป การแจกแจงแม้ว่าในทางตรรกะปรากฎว่าควรประมาณด้วยค่าที่อยู่ตรงข้ามกับเครื่องหมาย

วิธีบูตสแตรปแบบกึ่งกลาง

ให้เราสมมติว่าการกระจายตัวอย่างเป็นการประมาณโดยใช้การกระจายบูทสแตรป ซึ่งก็คือ ตามที่คิดไว้แต่แรกในการบูตสแตรป ให้เราแสดงเปอร์เซ็นไทล์ที่ 100 (ในการทำซ้ำบูตสแตรป) โดยสมมุติว่าค่าอยู่ในช่วงตั้งแต่ ถึง จะถูกต้องโดยมีความน่าจะเป็น 95% นิพจน์เดียวกันสามารถแปลงเป็นนิพจน์ที่คล้ายกันได้อย่างง่ายดายสำหรับช่วงจากถึง

การทดสอบ Bootstrap-t

ตามที่ระบุไว้แล้ว bootstrap ใช้ฟังก์ชันของแบบฟอร์มที่มีการประมาณตัวอย่างข้อผิดพลาดมาตรฐาน

สิ่งนี้ให้ความแม่นยำเพิ่มเติม

เป็นตัวอย่างพื้นฐาน ลองใช้สถิติ t มาตรฐาน (ดังนั้นชื่อของวิธีการ): นั่นคือกรณีพิเศษเมื่อ (ค่าเฉลี่ยประชากร) (ค่าเฉลี่ยตัวอย่าง) และ - ค่าเบี่ยงเบนมาตรฐานตัวอย่าง อะนาล็อกบูตสแตรปของฟังก์ชันดังกล่าวคือ โดยที่คำนวณในลักษณะเดียวกับการใช้ตัวอย่างบูตสแตรปเท่านั้น

ให้เราแสดงเปอร์เซ็นไทล์บูตสแตรปที่ 100 โดยและสมมติว่าค่าอยู่ในช่วงเวลา

โดยใช้ความเท่าเทียมกัน คุณสามารถเขียนคำสั่งก่อนหน้าใหม่ได้ เช่น อยู่ในช่วงเวลา

ช่วงเวลานี้เรียกว่าช่วงความเชื่อมั่น t บูตสแตรปที่ระดับ 95%

ในวรรณกรรม จะใช้เพื่อให้ได้ความแม่นยำมากกว่าแนวทางก่อนหน้า

ตัวอย่างข้อมูลจริง

ตามตัวอย่างแรก ให้นำข้อมูลจาก Hollander และ Wolfe 1999 หน้า 63 ซึ่งนำเสนอผลกระทบของแสงต่ออัตราการฟักไข่ของลูกไก่

บ็อกซ์พล็อตมาตรฐานถือว่าไม่มีความปกติในข้อมูลประชากร เราทำการวิเคราะห์บูตสแตรปของค่ามัธยฐานและค่าเฉลี่ย

แยกกัน เป็นที่น่าสังเกตว่าการขาดความสมมาตรใน bootstrap t-histogram ซึ่งแตกต่างจากเส้นโค้งขีดจำกัดมาตรฐาน ช่วงความเชื่อมั่น 95% สำหรับค่ามัธยฐานและค่าเฉลี่ย (คำนวณโดยใช้วิธีบูตสแตรปไทล์) ครอบคลุมช่วงอย่างคร่าวๆ

ช่วงนี้แสดงถึงความแตกต่างโดยรวม (เพิ่มขึ้น) ในผลลัพธ์ของอัตราการฟักไข่ของลูกไก่โดยพิจารณาจากฟังก์ชันการให้แสงสว่าง

ตามตัวอย่างที่สอง ให้พิจารณาข้อมูลจาก Devore 2003 หน้า 553 ซึ่งตรวจสอบความสัมพันธ์ระหว่างความต้องการออกซิเจนทางชีวเคมี (BOD) และการชั่งน้ำหนักอุทกสถิต (HW) ของนักฟุตบอลอาชีพ

ข้อมูลสองมิติประกอบด้วยคู่ต่างๆ และสามารถเลือกคู่แบบสุ่มได้ในระหว่างการสุ่มตัวอย่างบูตสแตรป เช่น เอาก่อน เป็นต้น

ในภาพ แผนภาพแบบ box-whisker แสดงให้เห็นถึงการขาดความปกติสำหรับประชากรที่อยู่เบื้องล่าง ฮิสโตแกรมความสัมพันธ์ที่คำนวณจากข้อมูลตัวแปรบูตสแตรปจะไม่สมมาตร (เลื่อนไปทางซ้าย)

ด้วยเหตุนี้ วิธีบูตสแตรปแบบเปอร์เซ็นไทล์แบบกึ่งกลางจึงเหมาะสมกว่าในกรณีนี้

การวิเคราะห์พบว่าการวัดมีความสัมพันธ์กันอย่างน้อย 78% ของประชากร

ข้อมูลตัวอย่างที่ 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

ข้อมูลตัวอย่างที่ 2:

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

วรรณกรรมมักเสนอแผนการเริ่มต้นระบบที่แตกต่างกันซึ่งสามารถให้ผลลัพธ์ที่เชื่อถือได้ในสถานการณ์ทางสถิติที่แตกต่างกัน

สิ่งที่กล่าวถึงข้างต้นเป็นเพียงองค์ประกอบพื้นฐานที่สุดเท่านั้น และจริงๆ แล้วมีตัวเลือกโครงร่างอื่นๆ อีกมากมาย ตัวอย่างเช่น วิธีใดดีกว่าที่จะใช้ในกรณีของการสุ่มตัวอย่างแบบสองขั้นตอนหรือการสุ่มตัวอย่างแบบแบ่งชั้น

ในกรณีนี้การสร้างแผนการที่เป็นธรรมชาติไม่ใช่เรื่องยาก การบูตสแตรปปิ้งในกรณีของข้อมูลที่มีโมเดลการถดถอยโดยทั่วไปจะดึงดูดความสนใจได้เป็นอย่างมาก มีสองวิธีหลัก: วิธีแรก ความแปรปรวนร่วมและตัวแปรการตอบสนองจะถูกสุ่มใหม่พร้อมกัน (การบูตสแตรปปิ้งแบบคู่) วิธีที่สอง การดำเนินการบูทสแตรปกับส่วนที่เหลือ (การบูตสแตรปปิ้งที่เหลือ)

วิธีจับคู่ยังคงถูกต้อง (ในแง่ของผลลัพธ์ที่ ) แม้ว่าความแปรปรวนของข้อผิดพลาดในแบบจำลองจะไม่เท่ากันก็ตาม วิธีที่สองไม่ถูกต้องในกรณีนี้ ข้อเสียนี้ได้รับการชดเชยโดยข้อเท็จจริงที่ว่ารูปแบบดังกล่าวให้ความแม่นยำเพิ่มเติมในการประมาณค่าข้อผิดพลาดมาตรฐาน

การใช้การบูตสแตรปกับข้อมูลอนุกรมเวลาทำได้ยากกว่ามาก

อย่างไรก็ตาม การวิเคราะห์อนุกรมเวลาเป็นหนึ่งในประเด็นสำคัญในเศรษฐมิติ มีปัญหาหลักสองประการที่นี่ ประการแรก ข้อมูลอนุกรมเวลามักจะขึ้นอยู่กับตามลำดับ นั่นก็คือ ขึ้นอยู่กับ ฯลฯ

ประการที่สอง ประชากรทางสถิติเปลี่ยนแปลงไปตามกาลเวลา กล่าวคือ ความไม่คงที่ปรากฏขึ้น

เพื่อจุดประสงค์นี้ วิธีการได้รับการพัฒนาขึ้นเพื่อถ่ายโอนการพึ่งพาแหล่งข้อมูลไปยังตัวอย่างบูตสแตรป โดยเฉพาะอย่างยิ่งการออกแบบบล็อก

แทนที่จะเป็นตัวอย่างบูตสแตรป ตัวอย่างจะถูกสร้างขึ้นทันที ปิดกั้นข้อมูลที่เก็บการขึ้นต่อกันจากตัวอย่างดั้งเดิม

ขณะนี้มีการวิจัยค่อนข้างมากในสาขาการใช้การบูตสแตรปปิ้งในสาขาเศรษฐมิติ โดยทั่วไปวิธีการนี้กำลังพัฒนาอย่างแข็งขัน

ตัวอย่างที่มีการสังเกตหน่วยจำนวนน้อย (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

ข้อผิดพลาดส่วนเพิ่มของตัวอย่างขนาดเล็กถูกกำหนดโดยสูตร:

ข้อผิดพลาดตัวอย่างเล็กน้อยโดยเฉลี่ย:

ความแปรปรวนตัวอย่างเล็กน้อยอยู่ที่ไหน:

โดยที่ค่าเฉลี่ยของคุณลักษณะในตัวตัวอย่างคือ

จำนวนองศาความเป็นอิสระ

ค่าสัมประสิทธิ์ความเชื่อมั่นของกลุ่มตัวอย่างขนาดเล็ก ขึ้นอยู่กับความน่าจะเป็นของความเชื่อมั่นที่กำหนดเท่านั้น แต่ยังขึ้นอยู่กับจำนวนหน่วยตัวอย่างด้วย

ความน่าจะเป็นที่ค่าเฉลี่ยทั่วไปจะอยู่ภายในขีดจำกัดที่กำหนดโดยสูตร

ค่าของฟังก์ชันของนักเรียนอยู่ที่ไหน

ในการคำนวณค่าสัมประสิทธิ์ความเชื่อมั่น ให้กำหนดค่าของฟังก์ชันโดยใช้สูตร:

จากนั้นใช้ตารางการแจกแจงนักเรียน (ดูภาคผนวก 4) ค่าจะถูกกำหนดค่าขึ้นอยู่กับค่าของฟังก์ชันและจำนวนองศา

ฟังก์ชันนี้ยังใช้เพื่อกำหนดความน่าจะเป็นที่ค่าเบี่ยงเบนมาตรฐานตามจริงจะไม่เกินค่าตาราง


หัวข้อที่ 7 การศึกษาเชิงสถิติความสัมพันธ์: แนวคิดการสื่อสารทางสถิติ ประเภทและรูปแบบของการสื่อสารทางสถิติ ปัญหาการศึกษาทางสถิติความสัมพันธ์ระหว่างปรากฏการณ์ คุณสมบัติของการเชื่อมโยงระหว่างปรากฏการณ์ทางเศรษฐกิจและสังคม วิธีการศึกษาความสัมพันธ์เบื้องต้นทางสถิติ

ความสัมพันธ์ – การเชื่อมต่อที่ไม่ได้แสดงออกมาในแต่ละกรณี แต่ในหลายกรณีในค่าเฉลี่ยในรูปแบบของแนวโน้ม

การวิจัยทางสถิติมีเป้าหมายสูงสุดในการได้รับแบบจำลองการพึ่งพาสำหรับการใช้งานจริง การแก้ไขปัญหานี้ดำเนินการตามลำดับต่อไปนี้

1. การวิเคราะห์เชิงตรรกะของสาระสำคัญของปรากฏการณ์ที่กำลังศึกษาและความสัมพันธ์ระหว่างเหตุและผล เป็นผลให้มีการสร้างตัวบ่งชี้ประสิทธิภาพ (ใช่)ปัจจัยของการเปลี่ยนแปลงโดยมีลักษณะเป็นตัวบ่งชี้ (x ( , x 2 , x 3 ,..., เอ็กซ์")ความสัมพันธ์ระหว่างสองสัญญาณ (ยและ เอ็กซ์)เรียกว่า ความสัมพันธ์คู่. เรียกว่าอิทธิพลของปัจจัยหลายประการต่อลักษณะที่มีประสิทธิผล ความสัมพันธ์หลายประการ.

ในทิศทางทั่วไปสามารถเชื่อมต่อได้ ตรงและ ย้อนกลับ- ด้วยการเชื่อมต่อโดยตรงที่มีลักษณะเพิ่มขึ้น xสัญญาณก็เพิ่มขึ้นเช่นกัน ใช่ในกรณีตรงกันข้าม - โดยมีเครื่องหมายเพิ่มขึ้น เอ็กซ์เข้าสู่ระบบ ที่ลดลง

2. รวบรวมข้อมูลเบื้องต้นและตรวจสอบความสม่ำเสมอและความปกติของการกระจาย ในการประเมินความเป็นเนื้อเดียวกันของประชากร จะใช้ค่าสัมประสิทธิ์ของการแปรผันตามลักษณะของปัจจัย

ประชากรจะถือว่าเป็นเนื้อเดียวกันหากค่าสัมประสิทธิ์การเปลี่ยนแปลงไม่เกิน 33% การตรวจสอบการกระจายตัวแบบปกติของลักษณะปัจจัยที่ศึกษา ( x ( , x 2 , x 3 ,..., เอ็กซ์")ดำเนินการโดยใช้กฎ "สามซิกมา" ผลการทดสอบความเป็นปกติของการกระจายควรนำเสนอในรูปแบบตาราง

วิธีเก็บตัวอย่างขนาดเล็กมีข้อดีมากกว่าวิธีเก็บตัวอย่างขนาดใหญ่หลายข้อ ข้อได้เปรียบหลักคือประการแรก การลดปริมาณงานคำนวณ และประการที่สอง ความสามารถในการติดตามการเปลี่ยนแปลงของความแม่นยำของกระบวนการเมื่อเวลาผ่านไป ซึ่งไม่สามารถทำได้โดยใช้วิธีการสุ่มตัวอย่างจำนวนมาก วิธีการเก็บตัวอย่างจำนวนมากสามารถให้แนวคิดเกี่ยวกับความแม่นยำและความเสถียรของกระบวนการในระหว่างระยะเวลาการสุ่มตัวอย่างเท่านั้น ซึ่งสามารถคงอยู่ได้ในอนาคตหากเงื่อนไขของกระบวนการไม่เปลี่ยนแปลงหลังจากเก็บตัวอย่าง ในความเป็นจริง ไม่สามารถคาดการณ์ความคงที่ของเงื่อนไขการผลิตได้ล่วงหน้า ตัวอย่างเช่น เมื่อทำงานกับเครื่องแท่ง ในระหว่างกะ วัสดุจะถูกเปลี่ยนหลายครั้ง (การเปลี่ยนแท่ง) เครื่องมือถูกเปลี่ยนเนื่องจากการสึกหรอ มีการปรับเครื่องจักร ฯลฯ ซึ่งสามารถปรับเปลี่ยนอย่างมีนัยสำคัญกับค่าที่ได้รับก่อนหน้านี้ พารามิเตอร์การกระจาย วิธีการเก็บตัวอย่างขนาดเล็ก หากใช้วิธีหลังเป็นประจำตลอดกะในช่วงเวลาหนึ่ง จะช่วยให้คุณได้ภาพที่สมบูรณ์ของสถานะของกระบวนการในช่วงเวลาที่ศึกษา กำหนดระดับความเสถียรและระบุเหตุผลด้วย สำหรับความเสถียรของกระบวนการที่ไม่เพียงพอเมื่อเวลาผ่านไป (ถ้ามี)

การวิเคราะห์ทางสถิติด้วยตัวอย่างขนาดเล็กดำเนินการดังนี้ ตัวอย่าง n = 5-10 ชิ้น ถ่ายในช่วงเวลาที่กำหนด (เช่น หลังจาก 15-30 นาที) ระยะเวลาในการสุ่มตัวอย่างถูกกำหนดขึ้นจากการทดลองและขึ้นอยู่กับประสิทธิภาพการทำงานของเครื่องจักร ขนาดตัวอย่าง และระดับความเสถียรของกระบวนการทางเทคโนโลยี สำหรับแต่ละตัวอย่างคุณต้องคำนวณและ - ถัดไป จำเป็นสำหรับตัวอย่างสองตัวที่อยู่ติดกันแต่ละตัวอย่างเพื่อทดสอบสมมติฐานของความเป็นเนื้อเดียวกันของความแปรปรวนตัวอย่างโดยใช้ เอฟ - เกณฑ์ฟิชเชอร์

หากสมมติฐานได้รับการยืนยัน สิ่งนี้จะบ่งบอกถึงความเสถียรของการกระจายตัวหรือตัวอย่างที่นำมาเปรียบเทียบนั้นมาจากประชากรกลุ่มเดียวกัน เมื่อยืนยันสมมติฐานความเป็นเนื้อเดียวกันของความแปรปรวนของสองตัวอย่าง ควรทดสอบสมมติฐานความเป็นเนื้อเดียวกันของตัวอย่างสองวิธี ที -แบบทดสอบของนักเรียน

การยืนยันสมมติฐานความเท่าเทียมกันของตัวอย่างสองตัวอย่างที่อยู่ติดกันหมายความว่าจุดศูนย์กลางของการปรับอุปกรณ์จะไม่เปลี่ยนแปลงในขณะที่เก็บตัวอย่างนี้ และยังคงเหมือนเดิมเมื่อเก็บตัวอย่างก่อนหน้านี้ กล่าวคือ กระบวนการนี้อยู่ในสถานะที่มั่นคง เมื่อสมมติฐานเรื่องความเท่าเทียมกันของตัวอย่างโดยเฉลี่ยสองตัวอย่างไม่ได้รับการยืนยัน สิ่งนี้บ่งชี้ถึงการเปลี่ยนแปลงที่จุดศูนย์กลางของการปรับเครื่องจักรในขณะที่เก็บตัวอย่างนี้ เนื่องจากจะมีการเก็บตัวอย่างในช่วงเวลาหนึ่ง หากตรวจพบการเปลี่ยนแปลงในศูนย์ปรับจูนหรือการเปลี่ยนแปลงในเขตการกระจายตัว จึงสามารถกำหนดระยะเวลาที่เกิดการละเมิดความเสถียรของกระบวนการได้

เมื่อค้นพบข้อเท็จจริงของการละเมิดความเสถียรของกระบวนการแล้ว จึงเป็นไปได้ที่จะกำหนดพื้นที่ที่ควรค้นหาสาเหตุของปรากฏการณ์นี้ ความหลากหลายของความแปรปรวนของตัวอย่าง ซึ่งบ่งบอกถึงความไม่แน่นอนของการกระจายตัว บ่งชี้ว่าควรค้นหาเหตุผลในเครื่องหรือใน คุณสมบัติทางกลวัสดุแปรรูป ความหลากหลายของตัวอย่างหมายถึงการเปลี่ยนแปลงที่ศูนย์กลางของการปรับจูน (ดูสาเหตุในเครื่องมือ)

ดังนั้น โดยการเก็บตัวอย่างขนาดเล็กจากเอาท์พุตปัจจุบันของเครื่องในระหว่างการกะในช่วงเวลาหนึ่ง ค่าเฉลี่ยและความแปรปรวนของตัวอย่างจะถูกคำนวณโดยการเปรียบเทียบและประเมินความคลาดเคลื่อนของพวกมันโดยใช้เกณฑ์ F และ t จึงเป็นไปได้ที่จะกำหนดช่วงเวลา ของความผิดปกติของกระบวนการและแม้กระทั่งแหล่งที่มาของความผิดปกติเหล่านี้

สถิติตัวอย่างขนาดเล็ก

เป็นที่ยอมรับกันโดยทั่วไปว่าจุดเริ่มต้นของ S. m.v. หรือที่มักเรียกกันว่าสถิติ "small n" ก่อตั้งขึ้นในทศวรรษแรกของศตวรรษที่ 20 โดยมีการตีพิมพ์ผลงานของ W. Gosset ซึ่งเขาวางการแจกแจงแบบ t ซึ่งตั้งสมมติฐานโดย "นักเรียน" ที่ ได้รับชื่อเสียงไปทั่วโลกในเวลาต่อมาเล็กน้อย ในขณะนั้น Gossett ทำงานเป็นนักสถิติที่โรงเบียร์ Guinness หน้าที่หนึ่งของเขาคือวิเคราะห์ถังเบียร์ที่ชงใหม่ๆ อย่างต่อเนื่อง ด้วยเหตุผลที่เขาไม่เคยอธิบายจริงๆ Gossett ทดลองใช้แนวคิดในการลดจำนวนตัวอย่างที่นำมาจากถังจำนวนมากในโกดังของโรงเบียร์ลงอย่างมากเพื่อควบคุมคุณภาพของพนักงานยกกระเป๋าแบบสุ่ม สิ่งนี้ทำให้เขาตั้งสมมุติฐานถึงการแจกแจงแบบ t เนื่องจากข้อบังคับของโรงเบียร์กินเนสส์ห้ามมิให้พนักงานเผยแพร่ผลการวิจัย Gossett จึงเผยแพร่ผลการทดลองของเขาโดยเปรียบเทียบการสุ่มตัวอย่างการควบคุมคุณภาพโดยใช้การแจกแจงแบบ t สำหรับตัวอย่างขนาดเล็กและการแจกแจงแบบ z แบบดั้งเดิม (การแจกแจงแบบปกติ) โดยไม่เปิดเผยชื่อภายใต้นามแฝง "นักเรียน " - ดังนั้นชื่อการแจกแจงแบบ t ของนักเรียน)

t-การกระจาย ทฤษฎีการกระจายตัวแบบ t เช่นเดียวกับทฤษฎีการกระจายตัวแบบ z ใช้เพื่อทดสอบสมมติฐานว่างที่ว่าตัวอย่างสองตัวอย่างเป็นเพียงตัวอย่างสุ่มจากประชากรกลุ่มเดียวกัน ดังนั้นสถิติที่คำนวณได้ (เช่น ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐาน) จึงเป็นค่าประมาณของพารามิเตอร์ประชากรที่เป็นกลาง อย่างไรก็ตาม ไม่เหมือนกับทฤษฎีการแจกแจงแบบปกติ ทฤษฎีการแจกแจงแบบ t สำหรับตัวอย่างขนาดเล็กไม่จำเป็นต้องมีความรู้เชิงนิรนัยหรือการประมาณค่าที่คาดหวังและความแปรปรวนของประชากรอย่างแม่นยำ ยิ่งไปกว่านั้น แม้ว่าการทดสอบความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มตัวอย่างขนาดใหญ่ 2 ตัวอย่างสำหรับนัยสำคัญทางสถิตินั้น จำเป็นต้องมีสมมติฐานพื้นฐานที่ว่าคุณลักษณะของประชากรมีการกระจายตามปกติ แต่ทฤษฎีของการแจกแจงแบบ t ไม่จำเป็นต้องอาศัยสมมติฐานเกี่ยวกับพารามิเตอร์

เป็นที่ทราบกันดีว่าลักษณะการกระจายแบบปกตินั้นอธิบายได้ด้วยเส้นโค้งเส้นเดียว - เส้นโค้งเกาส์เซียน ซึ่งเป็นไปตามสมการต่อไปนี้:

ด้วยการแจกแจงแบบ t เส้นโค้งทั้งกลุ่มจะแสดงด้วยสูตรต่อไปนี้:

นี่คือสาเหตุที่สมการของ t รวมฟังก์ชันแกมมาด้วย ซึ่งในทางคณิตศาสตร์หมายความว่าเมื่อ n เปลี่ยนแปลง เส้นโค้งที่แตกต่างกันจะเป็นไปตามสมการที่กำหนด

ระดับความอิสระ

ในสมการของ t ตัวอักษร n หมายถึงจำนวนดีกรีอิสระ (df) ที่เกี่ยวข้องกับค่าประมาณของความแปรปรวนประชากร (S2) ซึ่งแสดงถึงโมเมนต์ที่สองของฟังก์ชันที่สร้างโมเมนต์ใดๆ เช่น สมการสำหรับการแจกแจงค่า t . ใน S. จำนวนระดับความเป็นอิสระบ่งชี้ว่ามีคุณลักษณะจำนวนเท่าใดที่ยังคงเป็นอิสระหลังจากการใช้งานบางส่วนในการวิเคราะห์ประเภทใดประเภทหนึ่งโดยเฉพาะ ในการแจกแจงแบบ t ค่าเบี่ยงเบนค่าหนึ่งจากค่าเฉลี่ยตัวอย่างจะคงที่เสมอ เนื่องจากผลรวมของการเบี่ยงเบนทั้งหมดจะต้องเท่ากับศูนย์ สิ่งนี้ส่งผลต่อผลรวมของกำลังสองเมื่อคำนวณความแปรปรวนตัวอย่างเป็นการประมาณค่าที่เป็นกลางของพารามิเตอร์ S2 และทำให้ df เท่ากับจำนวนการวัดลบหนึ่งสำหรับแต่ละตัวอย่าง ดังนั้น ในสูตรและขั้นตอนการคำนวณสถิติ t เพื่อทดสอบสมมติฐานว่าง df = n - 2

F-pacndivision. สมมติฐานว่างที่ทดสอบโดยการทดสอบทีคือ ทั้งสองตัวอย่างถูกสุ่มมาจากประชากรกลุ่มเดียวกัน หรือสุ่มมาจากประชากรสองกลุ่มที่มีความแปรปรวนเท่ากัน จะทำอย่างไรถ้าคุณต้องการทำการวิเคราะห์ มากกว่ากลุ่ม? คำตอบสำหรับคำถามนี้ถูกค้นหาเป็นเวลายี่สิบปีหลังจากที่ Gosset ค้นพบการกระจายตัวแบบ t นักสถิติที่มีชื่อเสียงที่สุดสองคนแห่งศตวรรษที่ 20 เกี่ยวข้องโดยตรงกับการผลิต คนหนึ่งคือนักสถิติชาวอังกฤษที่ใหญ่ที่สุด R. A. Fisher ผู้เสนอทฤษฎีแรก สูตรการพัฒนาซึ่งนำไปสู่การผลิตการกระจายตัวแบบ F งานของเขาเกี่ยวกับทฤษฎีตัวอย่างเล็กๆ น้อยๆ ซึ่งพัฒนาแนวคิดของ Gosset ได้รับการตีพิมพ์ในช่วงกลางทศวรรษที่ 20 (Fisher, 1925) อีกประการหนึ่งคือ George Snedecor หนึ่งในกาแล็กซีของนักสถิติชาวอเมริกันยุคแรก ผู้พัฒนาวิธีการเปรียบเทียบตัวอย่างอิสระสองตัวอย่างทุกขนาดโดยการคำนวณอัตราส่วนของค่าประมาณความแปรปรวนสองค่า เขาเรียกความสัมพันธ์นี้ว่าอัตราส่วน F ตามชื่อฟิสเชอร์ ผลการวิจัย Snedecor นำไปสู่ความจริงที่ว่าการแจกแจงแบบ F เริ่มถูกระบุเป็นการแจกแจงอัตราส่วนของสถิติสองรายการ c2 โดยแต่ละรายการมีระดับความอิสระของตัวเอง:

จากนี้มาเป็นงานคลาสสิกของฟิชเชอร์เกี่ยวกับการวิเคราะห์ความแปรปรวน ซึ่งเป็นวิธีการทางสถิติที่เน้นไปที่การวิเคราะห์ตัวอย่างขนาดเล็กอย่างชัดเจน

การกระจายตัวอย่าง F (โดยที่ n = df) แสดงด้วยสมการต่อไปนี้:

เช่นเดียวกับการแจกแจงแบบ t ฟังก์ชันแกมมาบ่งชี้ว่ามีกลุ่มของการแจกแจงที่เป็นไปตามสมการของ F อย่างไรก็ตาม ในกรณีนี้ การวิเคราะห์เกี่ยวข้องกับปริมาณ df สองค่า ได้แก่ จำนวนระดับความเป็นอิสระของตัวเศษและสำหรับ ตัวส่วนของอัตราส่วน F

ตารางสำหรับการประมาณค่าสถิติ t- และ F เมื่อทดสอบสมมติฐานว่างโดยใช้ S. ตามทฤษฎีของกลุ่มตัวอย่างขนาดใหญ่ โดยปกติแล้วต้องใช้ตารางค้นหาเพียงตารางเดียวเท่านั้น นั่นคือตารางค่าเบี่ยงเบนปกติ (z) ซึ่งช่วยให้คุณระบุพื้นที่ใต้เส้นโค้งปกติระหว่างค่า z สองค่าใดๆ ก็ได้ ​​​​บนแกน x อย่างไรก็ตาม ตารางสำหรับการแจกแจงแบบ t และ F จำเป็นต้องนำเสนอในชุดตาราง เนื่องจากตารางเหล่านี้อิงตามการแจกแจงที่หลากหลายอันเป็นผลจากจำนวนองศาอิสระที่แตกต่างกัน แม้ว่าการแจกแจงแบบ t และ F เป็นการแจกแจงความหนาแน่นของความน่าจะเป็น เช่นเดียวกับการแจกแจงแบบปกติสำหรับตัวอย่างขนาดใหญ่ แต่ก็แตกต่างจากแบบหลังในสี่วิธีที่ใช้เพื่ออธิบาย ตัวอย่างเช่น การแจกแจงแบบ t มีความสมมาตร (หมายเหตุ t2 ในสมการของมัน) สำหรับ df ทั้งหมด แต่จะมีค่าสูงสุดมากขึ้นเมื่อขนาดตัวอย่างลดลง เส้นโค้งพีค (ที่มีความโด่งมากกว่าปกติ) มีแนวโน้มที่จะไม่มีซีมโทซิสน้อยกว่า (เช่น ใกล้กับแกน x ที่ปลายการกระจาย) น้อยกว่าเส้นโค้งที่มีความโด่งปกติ เช่น เส้นโค้งเกาส์เซียน ความแตกต่างนี้ส่งผลให้เกิดความแตกต่างที่เห็นได้ชัดเจนระหว่างจุดบนแกน x ที่สอดคล้องกับค่า t และ z ด้วย df = 5 และระดับ α สองด้านที่ 0.05, t = 2.57 ในขณะที่ z = 1.96 ที่สอดคล้องกัน ดังนั้น t = 2.57 บ่งชี้นัยสำคัญทางสถิติที่ระดับ 5% อย่างไรก็ตาม ในกรณีของเส้นโค้งปกติ z = 2.57 (2.58 ที่แม่นยำยิ่งขึ้น) จะบ่งบอกถึงระดับนัยสำคัญทางสถิติที่ 1% แล้ว การเปรียบเทียบที่คล้ายกันสามารถทำได้ด้วยการแจกแจงแบบ F เนื่องจาก t เท่ากับ F เมื่อจำนวนตัวอย่างเป็นสองเท่า

อะไรคือตัวอย่างที่ "เล็ก"?

ครั้งหนึ่ง มีคำถามเกิดขึ้นว่าตัวอย่างควรมีขนาดใหญ่แค่ไหนจึงจะถือว่ามีขนาดเล็ก ไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ อย่างไรก็ตาม ขอบเขตทั่วไประหว่างตัวอย่างขนาดเล็กและตัวอย่างขนาดใหญ่ถือเป็น df = 30 พื้นฐานสำหรับการตัดสินใจที่ค่อนข้างไม่มีอำเภอใจนี้เป็นผลมาจากการเปรียบเทียบการแจกแจงแบบ t กับการแจกแจงแบบปกติ ตามที่ระบุไว้ข้างต้น ความคลาดเคลื่อนระหว่างค่า t และ z มีแนวโน้มที่จะเพิ่มขึ้นเมื่อ df ลดลง และลดลงเมื่อ df เพิ่มขึ้น ในความเป็นจริง t เริ่มเข้าใกล้ z อย่างใกล้ชิดก่อนที่จะถึงกรณีที่จำกัด โดยที่ t = z สำหรับ df = ∞ การตรวจสอบค่าตารางของ t ด้วยสายตาอย่างง่าย ๆ แสดงให้เห็นว่าการประมาณนี้ค่อนข้างเร็วโดยเริ่มจาก df = 30 ขึ้นไป ค่าเปรียบเทียบของ t (ที่ df = 30) และ z เท่ากันตามลำดับ: 2.04 และ 1.96 สำหรับ p = 0.05; 2.75 และ 2.58 สำหรับ p = 0.01; 3.65 และ 3.29 สำหรับ p = 0.001

สถิติอื่นๆ สำหรับตัวอย่าง "ขนาดเล็ก"

แม้ว่าสถิติ เช่น t และ F จะได้รับการออกแบบมาเป็นพิเศษเพื่อใช้กับตัวอย่างขนาดเล็ก แต่ก็สามารถนำไปใช้กับตัวอย่างขนาดใหญ่ได้เช่นกัน อย่างไรก็ตาม ยังมีวิธีการทางสถิติอื่นๆ อีกมากมายที่ออกแบบมาเพื่อวิเคราะห์ตัวอย่างขนาดเล็กและมักใช้เพื่อจุดประสงค์นี้ นี่หมายถึงสิ่งที่เรียกว่า วิธีการแบบไม่มีพารามิเตอร์หรือแบบไม่มีการกระจาย โดยพื้นฐานแล้ว สเกลที่ปรากฏในวิธีการเหล่านี้มีจุดประสงค์เพื่อใช้กับการวัดที่ได้รับโดยใช้สเกลที่ไม่เป็นไปตามคำจำกัดความของอัตราส่วนหรือสเกลช่วงเวลา ส่วนใหญ่มักเป็นการวัดลำดับ (อันดับ) หรือการวัดเล็กน้อย เครื่องชั่งแบบไม่อิงพารามิเตอร์ไม่จำเป็นต้องมีสมมติฐานเกี่ยวกับพารามิเตอร์การกระจาย โดยเฉพาะอย่างยิ่งเกี่ยวกับการประมาณการกระจายตัว เนื่องจากเครื่องชั่งลำดับและเล็กน้อยช่วยขจัดแนวคิดเรื่องการกระจายตัวออกไป ด้วยเหตุนี้ จึงใช้วิธีการแบบไม่อิงพารามิเตอร์สำหรับการวัดที่ได้รับโดยใช้สเกลช่วงเวลาและอัตราส่วน เมื่อมีการวิเคราะห์ตัวอย่างขนาดเล็ก และมีแนวโน้มที่จะละเมิดสมมติฐานพื้นฐานที่จำเป็นสำหรับการใช้วิธีพาราเมตริก การทดสอบเหล่านี้ ซึ่งสามารถนำไปใช้กับตัวอย่างขนาดเล็กได้อย่างสมเหตุสมผล ได้แก่: การทดสอบความน่าจะเป็นที่แน่นอนของฟิชเชอร์, การวิเคราะห์ความแปรปรวนแบบไม่มีพารามิเตอร์แบบสองปัจจัยของฟรีดแมน (อันดับ), สัมประสิทธิ์สหสัมพันธ์อันดับของเคนดัลล์, สัมประสิทธิ์ความสอดคล้องของเคนดัลล์ (W), การทดสอบ H ของครูสคัล - วอลเลซ สำหรับการวิเคราะห์ความแปรปรวนทางเดียวแบบไม่อิงพารามิเตอร์ (อันดับ) การทดสอบ U ของแมนน์-วิทนีย์ การทดสอบค่ามัธยฐาน การทดสอบสัญญาณ ค่าสัมประสิทธิ์สหสัมพันธ์อันดับของสเปียร์แมน r และการทดสอบทีวิลคอกซัน

เมื่อศึกษาความแปรปรวนจะแยกแยะลักษณะเชิงปริมาณและเชิงคุณภาพซึ่งการศึกษาจะดำเนินการโดยสถิติการแปรผันซึ่งอยู่บนพื้นฐานของทฤษฎีความน่าจะเป็น ความน่าจะเป็นบ่งบอกถึงความถี่ที่เป็นไปได้ที่แต่ละบุคคลจะพบกับลักษณะเฉพาะ P=m/n โดยที่ m คือจำนวนบุคคลที่มีค่าลักษณะที่กำหนด n คือจำนวนบุคคลทั้งหมดในกลุ่ม ความน่าจะเป็นมีตั้งแต่ 0 ถึง 1 (เช่น ความน่าจะเป็นคือ 0.02 - การปรากฏตัวของฝาแฝดในฝูง กล่าวคือ ฝาแฝด 2 ตัวจะปรากฏขึ้นต่อการคลอด 100 ครั้ง) ดังนั้นวัตถุประสงค์ของการศึกษาไบโอเมตริกซ์จึงเป็นลักษณะที่แตกต่างกันไปซึ่งการศึกษานั้นดำเนินการกับวัตถุบางกลุ่มเช่น จำนวนทั้งสิ้น มีทั้งประชากรทั่วไปและกลุ่มตัวอย่าง ประชากรนี่คือบุคคลกลุ่มใหญ่ที่เราสนใจตามลักษณะที่กำลังศึกษาอยู่ ประชากรทั่วไปอาจรวมถึงสัตว์ประเภทหนึ่งหรือพันธุ์ที่เป็นพันธุ์เดียวกัน ประชากรทั่วไป (สายพันธุ์) ประกอบด้วยสัตว์หลายล้านตัว ในเวลาเดียวกันสายพันธุ์ก็แบ่งออกเป็นหลายกลุ่มเช่น ฝูงฟาร์มแต่ละแห่ง เนื่องจากประชากรทั่วไปประกอบด้วยบุคคลจำนวนมาก จึงเป็นเรื่องยากที่จะศึกษาในทางเทคนิค ดังนั้นพวกเขาไม่ได้ศึกษาประชากรทั้งหมด แต่เพียงบางส่วนเท่านั้นที่เรียกว่า วิชาเลือกหรือ ประชากรตัวอย่าง.

จากประชากรตัวอย่าง จะมีการตัดสินเกี่ยวกับประชากรทั้งหมดโดยรวม การสุ่มตัวอย่างจะต้องดำเนินการตามกฎทั้งหมดซึ่งจะต้องรวมถึงบุคคลที่มีคุณค่าทุกประการของลักษณะที่แตกต่างกัน การคัดเลือกบุคคลจากประชาชนทั่วไปจะกระทำโดยอาศัยหลักการเสี่ยงโชคหรือการจับสลาก ในทางไบโอเมตริกซ์ มีการสุ่มตัวอย่างสองประเภท: ใหญ่และเล็ก ตัวอย่างขนาดใหญ่พวกเขาเรียกสิ่งหนึ่งที่มีบุคคลหรือการสังเกตมากกว่า 30 คนและ ตัวอย่างเล็กๆน้อยกว่า 30 คน สำหรับประชากรกลุ่มตัวอย่างขนาดใหญ่และขนาดเล็กก็มีอยู่ วิธีการต่างๆการประมวลผลข้อมูล แหล่งที่มาของข้อมูลทางสถิติอาจเป็นข้อมูลจากบันทึกทางสัตวเทคนิคและสัตวแพทย์ ซึ่งให้ข้อมูลเกี่ยวกับสัตว์แต่ละตัวตั้งแต่แรกเกิดจนถึงการกำจัด แหล่งข้อมูลอีกแหล่งหนึ่งอาจเป็นข้อมูลจากการทดลองทางวิทยาศาสตร์และการผลิตที่ดำเนินการกับสัตว์จำนวนจำกัด เมื่อได้รับตัวอย่างแล้ว การประมวลผลก็เริ่มต้นขึ้น สิ่งนี้ทำให้สามารถรับปริมาณทางคณิตศาสตร์หรือค่าสัมประสิทธิ์ที่กำหนดลักษณะของกลุ่มสัตว์ที่น่าสนใจได้ในรูปแบบของปริมาณทางคณิตศาสตร์

ได้รับพารามิเตอร์หรือตัวบ่งชี้ทางสถิติต่อไปนี้โดยใช้วิธีไบโอเมตริกซ์:

1. ค่าเฉลี่ยของคุณลักษณะที่แตกต่างกัน (ค่าเฉลี่ยเลขคณิต, โหมด, ค่ามัธยฐาน, ค่าเฉลี่ยเรขาคณิต)

2. ค่าสัมประสิทธิ์ที่ใช้วัดปริมาณความแปรผัน เช่น (ความแปรปรวน) ของคุณลักษณะที่กำลังศึกษา (ส่วนเบี่ยงเบนมาตรฐาน, สัมประสิทธิ์ของการแปรผัน)

3. ค่าสัมประสิทธิ์ที่ใช้วัดขนาดของความสัมพันธ์ระหว่างคุณลักษณะต่างๆ (ค่าสัมประสิทธิ์สหสัมพันธ์ ค่าสัมประสิทธิ์การถดถอย และอัตราส่วนสหสัมพันธ์)

4. ข้อผิดพลาดทางสถิติและความน่าเชื่อถือของข้อมูลทางสถิติที่ได้รับ

5. ส่วนแบ่งของความแปรปรวนที่เกิดขึ้นภายใต้อิทธิพลของปัจจัยต่าง ๆ และตัวบ่งชี้อื่น ๆ ที่เกี่ยวข้องกับการศึกษาปัญหาทางพันธุกรรมและการคัดเลือก

เมื่อประมวลผลตัวอย่างทางสถิติ สมาชิกของประชากรจะถูกจัดระเบียบในรูปแบบของชุดความแปรผัน ชุดของรูปแบบต่างๆ คือการจัดกลุ่มบุคคลออกเป็นชั้นเรียนต่างๆ ขึ้นอยู่กับคุณค่าของลักษณะที่กำลังศึกษา ซีรีย์รูปแบบประกอบด้วยสององค์ประกอบ: คลาสและชุดความถี่ ชุดรูปแบบต่างๆ อาจเป็นแบบไม่ต่อเนื่องหรือต่อเนื่องก็ได้ เรียกว่าคุณสมบัติที่สามารถรับจำนวนเต็มได้เท่านั้น หมายเลขไม่ต่อเนื่องหัว จำนวนไข่ จำนวนลูกสุกร และอื่นๆ คุณสมบัติที่สามารถแสดงเป็นเลขเศษส่วนได้เรียกว่า อย่างต่อเนื่อง(ส่วนสูง ซม., ผลผลิตนมกก., % ไขมัน, น้ำหนักสดและอื่น ๆ )

เมื่อสร้างซีรีส์รูปแบบต่างๆ จะต้องปฏิบัติตามหลักการหรือกฎต่อไปนี้:

1. กำหนดหรือนับจำนวนบุคคลที่จะสร้างชุดรูปแบบ (n)

2. ค้นหาค่าสูงสุดและต่ำสุดของคุณลักษณะที่กำลังศึกษา

3. กำหนดช่วงเวลาคลาส K = สูงสุด - นาที / จำนวนคลาสจำนวนคลาสจะถูกนำไปใช้โดยพลการ

4. สร้างคลาสและกำหนดขอบเขตของแต่ละคลาส min+K

5. แบ่งสมาชิกของประชากรออกเป็นชั้นเรียน

หลังจากสร้างคลาสและกระจายบุคคลออกเป็นคลาสแล้ว ตัวบ่งชี้หลักของซีรีย์รูปแบบ (X, σ, Cv, Mх, Мσ, Мcv) จะถูกคำนวณ ค่าเฉลี่ยของคุณลักษณะได้รับค่าสูงสุดในการระบุลักษณะประชากร เมื่อแก้ไขปัญหาทางสัตวเทคนิค สัตวแพทย์ การแพทย์ เศรษฐกิจ และอื่นๆ ทั้งหมด จะมีการกำหนดค่าเฉลี่ยของลักษณะเสมอ (ผลผลิตนมเฉลี่ยสำหรับฝูง % ไขมัน ภาวะเจริญพันธุ์ในการเลี้ยงสุกร การผลิตไข่ในไก่ และลักษณะอื่นๆ) พารามิเตอร์ที่กำหนดลักษณะค่าเฉลี่ยของลักษณะเฉพาะมีดังต่อไปนี้:

1. ค่าเฉลี่ยเลขคณิต

2. ค่าเฉลี่ยเลขคณิตถ่วงน้ำหนัก

3. ค่าเฉลี่ยเรขาคณิต

4. แฟชั่น (โม)

5. ค่ามัธยฐาน (Me) และพารามิเตอร์อื่นๆ

ค่าเฉลี่ยเลขคณิตแสดงให้เราเห็นว่าแต่ละกลุ่มมีค่าเท่าใดหากเหมือนกันสำหรับทุกคน และพิจารณาจากสูตร X = A + b × K

คุณสมบัติหลักของค่าเฉลี่ยเลขคณิตคือกำจัดความแปรผันของคุณลักษณะและทำให้เป็นเรื่องปกติในประชากรทั้งหมด ในเวลาเดียวกันควรสังเกตว่าค่าเฉลี่ยเลขคณิตใช้ความหมายเชิงนามธรรมเช่น เมื่อคำนวณจะได้รับตัวบ่งชี้เศษส่วนซึ่งในความเป็นจริงอาจไม่มีอยู่จริง ตัวอย่างเช่น: ผลผลิตของลูกวัวต่อวัว 100 ตัวคือ 85.3 น่อง ความอุดมสมบูรณ์ของแม่สุกรคือ 11.8 ลูกสุกร การผลิตไข่ของไก่คือ 252.4 ฟอง และตัวชี้วัดอื่น ๆ

ค่าเฉลี่ยเลขคณิตมีค่าสูงมากในการเลี้ยงปศุสัตว์และลักษณะประชากร ในการเลี้ยงสัตว์ โดยเฉพาะอย่างยิ่งการเลี้ยงโค จะใช้ค่าเลขคณิตถ่วงน้ำหนักเพื่อกำหนดปริมาณไขมันเฉลี่ยในนมระหว่างการให้นม

ค่าเฉลี่ยเรขาคณิตถูกคำนวณหากจำเป็นต้องระบุลักษณะอัตราการเติบโต อัตราการเพิ่มขึ้นของประชากร เมื่อค่าเฉลี่ยเลขคณิตบิดเบือนข้อมูล

แฟชั่น ตั้งชื่อค่าที่พบบ่อยที่สุดของคุณลักษณะที่แตกต่างกัน ทั้งเชิงปริมาณและเชิงคุณภาพ หมายเลขกิริยาสำหรับวัวคือหมายเลขจุกนม -4 แม้ว่าจะมีวัวที่มีจุกนมห้าหรือหกตัวก็ตาม ในซีรีย์รูปแบบต่างๆ คลาสโมดอลจะเป็นคลาสที่มีจำนวนความถี่มากที่สุด และเรากำหนดให้มันเป็นคลาสศูนย์

ค่ามัธยฐาน เรียกว่าตัวแปรที่แบ่งประชากรทั้งหมดออกเป็นสองส่วนเท่าๆ กัน ครึ่งหนึ่งของประชากรจะมีมูลค่าลักษณะที่แปรผันได้น้อยกว่าค่ามัธยฐาน และอีกครึ่งหนึ่งจะมีมูลค่ามากกว่าค่ามัธยฐาน (เช่น มาตรฐานสายพันธุ์) ค่ามัธยฐานมักใช้เพื่อระบุคุณลักษณะเชิงคุณภาพ เช่น รูปร่างของเต้านมเป็นรูปถ้วย กลม เป็นแพะ ด้วยตัวเลือกการสุ่มตัวอย่างที่ถูกต้อง ตัวบ่งชี้ทั้งสามควรเหมือนกัน (เช่น X, Mo, Me) ดังนั้น ลักษณะแรกของประชากรคือค่าเฉลี่ย แต่ไม่เพียงพอที่จะตัดสินประชากร

ตัวบ่งชี้ที่สำคัญประการที่สองของประชากรคือความแปรปรวนหรือความแปรปรวนของลักษณะ ความแปรปรวนของลักษณะถูกกำหนดโดยปัจจัยหลายประการ สภาพแวดล้อมภายนอกและปัจจัยภายใน ได้แก่ ปัจจัยทางพันธุกรรม

การกำหนดความแปรปรวนของลักษณะที่ได้ ความสำคัญอย่างยิ่งทั้งในด้านชีววิทยาและการปฏิบัติงานด้านการเลี้ยงสัตว์ ดังนั้น การใช้พารามิเตอร์ทางสถิติที่วัดระดับความแปรปรวนของลักษณะ จึงเป็นไปได้ที่จะสร้างความแตกต่างของสายพันธุ์ในระดับความแปรปรวนของลักษณะที่มีประโยชน์เชิงเศรษฐกิจต่างๆ เพื่อทำนายระดับการคัดเลือกในสัตว์กลุ่มต่างๆ ตลอดจนประสิทธิภาพของมัน .

สถานะปัจจุบันการวิเคราะห์ทางสถิติไม่เพียงแต่ช่วยให้สามารถกำหนดระดับของการสำแดงความแปรปรวนของฟีโนไทป์ได้เท่านั้น แต่ยังช่วยแบ่งความแปรปรวนของฟีโนไทป์ออกเป็นประเภทส่วนประกอบด้วย กล่าวคือ ความแปรปรวนทางจีโนไทป์และความแปรปรวนพาราไทป์ การสลายตัวของความแปรปรวนนี้ทำได้โดยใช้การวิเคราะห์ความแปรปรวน

ตัวบ่งชี้หลักของความแปรปรวนคือค่าทางสถิติต่อไปนี้:

1. ข้อจำกัด;

2. ส่วนเบี่ยงเบนมาตรฐาน (σ);

3. ค่าสัมประสิทธิ์ความแปรปรวนหรือการแปรผัน (Cv)

วิธีที่ง่ายที่สุดในการนำเสนอจำนวนความแปรปรวนของคุณลักษณะคือผ่านขีดจำกัด ขีดจำกัดถูกกำหนดดังนี้: ความแตกต่างระหว่างค่าสูงสุดและต่ำสุดของแอตทริบิวต์ ยิ่งความแตกต่างนี้มากเท่าใด ความแปรปรวนของลักษณะนี้ก็ยิ่งมากขึ้นเท่านั้น พารามิเตอร์หลักสำหรับการวัดความแปรปรวนของลักษณะคือค่าเบี่ยงเบนมาตรฐานหรือ (σ) และถูกกำหนดโดยสูตร:

σ = ±K ∙ √∑ ป่า 2- ข 2

คุณสมบัติหลักของค่าเบี่ยงเบนมาตรฐานคือ (σ) มีดังต่อไปนี้:

1. ซิกมาจะเป็นค่าที่ระบุชื่อเสมอและแสดงไว้ (เป็นกก. กรัม เมตร ซม. ชิ้น)

2. ซิกมามีค่าเป็นบวกเสมอ

3. ยิ่งค่าของ σ มากเท่าใด ความแปรปรวนของลักษณะก็จะยิ่งมากขึ้นเท่านั้น

4. ในซีรีย์รูปแบบต่างๆ ความถี่ทั้งหมดจะรวมอยู่ใน ±3σ

เมื่อใช้ค่าเบี่ยงเบนมาตรฐาน คุณสามารถกำหนดได้ว่าบุคคลนั้นอยู่ในชุดรูปแบบใด วิธีการระบุความแปรปรวนของคุณลักษณะโดยใช้ขีดจำกัดและส่วนเบี่ยงเบนมาตรฐานมีข้อเสีย เนื่องจากเป็นไปไม่ได้ที่จะเปรียบเทียบคุณลักษณะต่างๆ ตามขนาดของความแปรปรวน จำเป็นต้องทราบความแปรปรวนของลักษณะต่างๆ ในสัตว์ชนิดเดียวกันหรือสัตว์กลุ่มเดียวกัน เช่น ความแปรปรวนของผลผลิตนม ปริมาณไขมันในนม น้ำหนักสด ปริมาณไขมันนม ดังนั้นโดยการเปรียบเทียบความแปรปรวนของลักษณะตรงกันข้ามและระบุระดับของความแปรปรวน ค่าสัมประสิทธิ์ของความแปรปรวนจึงคำนวณโดยใช้สูตรต่อไปนี้:

ดังนั้นวิธีการหลักในการประเมินความแปรปรวนของลักษณะเฉพาะระหว่างสมาชิกของประชากรคือ: ส่วนเบี่ยงเบนมาตรฐาน (σ) และสัมประสิทธิ์ของการแปรผันหรือความแปรปรวน

ในการปฏิบัติงานด้านการเลี้ยงสัตว์และการวิจัยเชิงทดลอง มักต้องจัดการกับตัวอย่างขนาดเล็ก ตัวอย่างเล็กๆ น้อยๆพวกเขาเรียกจำนวนบุคคลหรือสัตว์ไม่เกิน 30 หรือน้อยกว่า 30 รูปแบบที่สร้างขึ้นโดยใช้ตัวอย่างขนาดเล็กจะถูกถ่ายโอนไปยังประชากรทั้งหมด สำหรับตัวอย่างขนาดเล็ก พารามิเตอร์ทางสถิติเดียวกันจะถูกกำหนดเหมือนกับตัวอย่างขนาดใหญ่ (X, σ, Cv, Mx) อย่างไรก็ตาม สูตรและการคำนวณแตกต่างจากกลุ่มตัวอย่างขนาดใหญ่ (เช่น จากสูตรและการคำนวณของชุดรูปแบบต่างๆ)

1. ค่าเฉลี่ยเลขคณิต X = ∑วี

V - ค่าสัมบูรณ์ของตัวเลือกหรือคุณลักษณะ

n คือจำนวนตัวแปรหรือจำนวนบุคคล

2. ส่วนเบี่ยงเบนมาตรฐาน σ = ± √ ∑α 2

α = x-ylx นี่คือความแตกต่างระหว่างค่าของตัวเลือกและค่าเฉลี่ยเลขคณิต ความแตกต่างนี้ α เป็นรูปกำลังสอง และ α 2 n-1 คือจำนวนดีกรีอิสระ เช่น จำนวนตัวแปรหรือบุคคลทั้งหมดลดลงหนึ่ง (1)

คำถามควบคุม:

1.ไบโอเมตริกซ์คืออะไร?

2.พารามิเตอร์ทางสถิติใดที่บ่งบอกถึงลักษณะของประชากร?

3.ตัวบ่งชี้อะไรบ่งบอกถึงความแปรปรวน?

4. ตัวอย่างเล็กๆ น้อยๆ คืออะไร

5. โหมดและค่ามัธยฐานคืออะไร?

การบรรยายครั้งที่ 12

เทคโนโลยีชีวภาพและการปลูกถ่ายเอ็มบริโอ

1. แนวคิดเรื่องเทคโนโลยีชีวภาพ

2. การคัดเลือกโคผู้บริจาคและผู้รับ การปลูกถ่ายตัวอ่อน

3. ความสำคัญของการปลูกถ่ายในการเลี้ยงสัตว์



บทความที่คล้ายกัน
  • ดวงการเงินราศีพิจิก ประจำวันที่ 19 ตุลาคม

    ทุกวันนี้ ชาวราศีเมษจะพบว่าเป็นเรื่องยากที่จะสนองความปรารถนาตามธรรมชาติเพื่อความชัดเจนและความซื่อสัตย์ มีสถานการณ์ที่น่าสับสนมากเกินไป ซึ่งบางครั้งก็มีรากฐานมาจากอดีตที่ผ่านมา เป็นไปได้ว่าสาเหตุนั้นเกิดจากการมีคนรู้จักและผู้ติดต่อมากเกินไป ซึ่งเป็นสาเหตุที่...

    กระเบื้องเซรามิค
  • การปฏิเสธอัครสาวกเปโตร

    พระคัมภีร์ในหน้าต่างๆ เผยให้เราเห็นรายละเอียดปลีกย่อยอันน่าทึ่งของโลกฝ่ายวิญญาณ ชีวิตของเราดูเหมือนเรียบง่ายเท่านั้น ในความเป็นจริงแล้ว แต่ละคนเป็นการผสมผสานที่ซับซ้อนของความคิด อารมณ์ การประเมิน ความปรารถนา แรงจูงใจ และการตัดสินใจ...

    กระเบื้อง
  • ความเข้ากันได้ของชายงูและหญิงสุนัข

    ความเข้ากันได้ของสัญญาณของมนุษย์สุนัขและหญิงงูเป็นสิ่งที่ดีสำหรับความโรแมนติก งูจะสนใจสุนัข เนื่องจากมันจะรู้สึกถึงความทุ่มเทและความสามารถในการรักอย่างไม่เห็นแก่ตัว เขาจะชอบเธอด้วยความแข็งแกร่งและความสดใสที่ซ่อนอยู่ของเธอ อย่างไรก็ตามนี่เป็นเพียง...

    พื้นไม้กระดาน
 
หมวดหมู่