วิธีการกำหนดชนิดการแจกแจงความน่าจะเป็นสำหรับข้อมูล

สารบัญ:

Anonim

เมื่อคุณรวบรวมข้อมูลในระบบหรือกระบวนการของคุณแล้วขั้นตอนต่อไปคือกำหนดประเภทของการกระจายความน่าจะเป็นที่มี ประเภทของการแจกแจงความน่าจะเป็นคือ: เครื่องแบบไม่ต่อเนื่อง, เบอร์นูลลี, ทวินาม, ทวินามลบ, ปัวซอง, เรขาคณิต, ชุดเครื่องแบบต่อเนื่อง, ปกติ (เส้นโค้งระฆัง), การแจกแจงแบบแกมม่าและเบต้า การ จำกัด ให้แคบลงจากรายการความเป็นไปได้ทำให้การกำหนดค่า R กำลังสองที่ใกล้เคียงที่สุดนั้นเร็วกว่ามาก

รายการที่คุณจะต้อง

  • ซอฟต์แวร์สร้างกราฟ

  • หมายถึงการคำนวณค่า R กำลังสอง (การวิเคราะห์แบบเต็มที่ดีที่สุด)

พล็อตข้อมูลสำหรับการแสดงภาพของชนิดข้อมูล

หนึ่งในขั้นตอนแรกในการพิจารณาว่าการกระจายข้อมูลมี - และประเภทสมการที่ใช้ในการสร้างแบบจำลองข้อมูล - คือการออกกฎสิ่งที่มันไม่สามารถ •หากมีจุดสูงสุดในชุดข้อมูลจะไม่สามารถกระจายชุดข้อมูลแบบไม่ต่อเนื่องได้ •ถ้าข้อมูลมีมากกว่าหนึ่งจุดสูงสุดมันไม่ใช่ปัวซองหรือทวินาม •หากมีเส้นโค้งเดียวไม่มียอดเขารองและมีความลาดชันช้าในแต่ละด้านมันอาจเป็น Poisson หรือการกระจายแกมมา แต่มันไม่สามารถเป็นการกระจายตัวแบบไม่ต่อเนื่อง •หากมีการกระจายข้อมูลอย่างสม่ำเสมอและไม่มีการเอียงไปทางด้านใดด้านหนึ่งจะปลอดภัยในการแยกการแจกแจงแกมม่าหรือ Weibull •หากฟังก์ชั่นมีการแจกแจงแบบสม่ำเสมอหรือจุดสูงสุดในช่วงกลางของผลลัพธ์กราฟนั่นไม่ใช่การกระจายทางเรขาคณิตหรือการแจกแจงแบบเอ็กซ์โปเนนเชียล •หากการเกิดขึ้นของปัจจัยแตกต่างกันไปตามตัวแปรสภาพแวดล้อมมันอาจไม่ใช่การกระจายแบบปัวซอง

หลังจากชนิดการแจกแจงความน่าจะเป็นแคบลงให้ทำการวิเคราะห์ R กำลังสองของการแจกแจงความน่าจะเป็นแต่ละประเภทที่เป็นไปได้ ค่าที่มีค่า R กำลังสองสูงสุดนั้นน่าจะถูกต้องมากที่สุด

กำจัดจุดข้อมูลที่ผิดปกติหนึ่งจุด จากนั้นคำนวณ R กำลังสองใหม่ หากประเภทการแจกแจงความน่าจะเป็นแบบเดียวกันเกิดขึ้นเป็นการจับคู่ที่ใกล้เคียงที่สุดจะมีความมั่นใจสูงว่านี่คือการแจกแจงความน่าจะเป็นที่ถูกต้องที่จะใช้สำหรับชุดข้อมูล

เคล็ดลับ

  • หากข้อมูลแสดงการกระจายหลาย ๆ จุดกว้าง ๆ เป็นไปได้ว่ากระบวนการแยกกันสองกระบวนการกำลังดำเนินอยู่หรือมีการสุ่มตัวอย่างผลิตภัณฑ์ผสมกัน จำข้อมูลแล้ววิเคราะห์อีกครั้ง

การเตือน

ตรวจสอบสมการที่สร้างจากชุดข้อมูลในภายหลังเพื่อยืนยันว่ายังคงมีความถูกต้องสำหรับชุดข้อมูล เป็นไปได้ว่าปัจจัยด้านสิ่งแวดล้อมและกระบวนการดริฟท์ทำให้สมการและโมเดลปัจจุบันไม่ถูกต้อง