סטטיסטיקה היא כבר מזמן חלק בלתי נפרד מהחיים. אנשים מתמודדים עם זה בכל מקום. על סמך סטטיסטיקה מוסקות מסקנות לגבי היכן ואיזה מחלות נפוצות, מה מבוקש יותר באזור מסוים או בקרב פלח מסוים באוכלוסייה. אפילו בניית תוכניות פוליטיות של מועמדים לגופים ממשלתיים מבוססת על נתונים סטטיסטיים. הם משמשים גם רשתות קמעונאיות בעת רכישת סחורות, והיצרנים מונחים על ידי נתונים אלה בהצעותיהם.
סטטיסטיקה ממלאת תפקיד חשוב בחיי החברה ומשפיעה על כל אחד מחבריה הפרטיים, אפילו בדברים קטנים. לדוגמה, אם על פי הסטטיסטיקה, רוב האנשים מעדיפים צבעים כהים בבגדים בעיר או באזור מסוים, אז למצוא מעיל גשם צהוב עז עם הדפס פרחוני בחנויות המקומיות יהיה קשה ביותר. אבל איזה כמויותהאם לנתונים אלו יש השפעה כזו? למשל, מה זה "משמעותי סטטיסטית"? למה בדיוק הכוונה בהגדרה הזו?
מה זה?
סטטיסטיקה כמדע מורכבת משילוב של כמויות ומושגים שונים. אחד מהם הוא המושג "משמעות סטטיסטית". זהו שם הערך של משתנים, ההסתברות להופעת אינדיקטורים אחרים בהם היא זניחה.
לדוגמה, 9 מתוך 10 אנשים נועלים נעלי גומי על רגליהם במהלך טיול בוקר לפטריות ביער הסתיו לאחר לילה גשום. הסבירות שבשלב מסוים 8 מהם שמים מוקסינים מבד זניחה. לפיכך, בדוגמה הספציפית הזו, המספר 9 הוא מה שנקרא "משמעות סטטיסטית".
בהתאם לכך, אם נפתח את הדוגמה המעשית שניתנה עוד יותר, חנויות נעליים רוכשות מגפי גומי עד סוף עונת הקיץ בכמויות גדולות יותר מאשר בתקופות אחרות של השנה. לפיכך, לגודל הערך הסטטיסטי יש השפעה על החיים הרגילים.
כמובן, בחישובים מורכבים, למשל, בעת חיזוי התפשטות של וירוסים, נלקחים בחשבון מספר רב של משתנים. אבל עצם המהות של קביעת אינדיקטור מובהק לנתונים סטטיסטיים דומה, ללא קשר למורכבות החישובים ולמספר ערכי המשתנים.
איך זה מחושב?
משמש בעת חישוב הערך של מחוון "המשמעות הסטטיסטית" של המשוואה. כלומר, ניתן לטעון שבמקרה זה הכל נקבע על ידי מתמטיקה.אפשרות החישוב הפשוטה ביותר היא שרשרת של פעולות מתמטיות, שבהן מעורבים הפרמטרים הבאים:
- שני סוגים של תוצאות שהתקבלו מסקרים או מחקר של נתונים אובייקטיביים, כגון כמות הרכישות, מסומנות ב-a ו-b;
- מחוון גודל מדגם עבור שתי הקבוצות – n;
- ערך של נתח המדגם המשולב - p;
- שגיאה רגילה - SE.
השלב הבא הוא לקבוע את הציון הכולל של המבחן - t, ערכו מושווה למספר 1.96. 1.96 הוא הערך הממוצע, המעביר טווח של 95%, בהתאם לפונקציית התפלגות ה-t של הסטודנט.
לעתים קרובות עולה השאלה מה ההבדל בין הערכים של n ו-p. קל להבהיר ניואנס זה באמצעות דוגמה. נניח שהמשמעות הסטטיסטית של נאמנות לכל מוצר או מותג של גברים ונשים מחושבת.
במקרה זה, האותיות יופיעו באותיות הבאות:
- n - מספר משיבים;
- p - מספר המרוצים מהמוצר.
מספר הנשים המרואיינות במקרה זה יסומן כ-n1. בהתאם, גברים - n2. לאותו ערך יהיו המספרים "1" ו-"2" של הסמל p.
השוואת ציון המבחן לממוצע של הגיליונות האלקטרוניים של הסטודנט הופכת למה שנקרא "משמעות סטטיסטית".
למה הכוונה באימות?
ניתן תמיד לבדוק את התוצאות של כל חישוב מתמטי, זה נלמד לילדים בבית הספר היסודי. זה הגיוני להניחשמכיוון שהסטטיסטיקה נקבעת באמצעות שרשרת החישובים, אז הם נבדקים.
עם זאת, בדיקת מובהקות סטטיסטית היא לא רק מתמטיקה. הסטטיסטיקה עוסקת במספר רב של משתנים והסתברויות שונות, אשר רחוקות מלהיות תמיד ניתנות לחישוב. כלומר, אם נחזור לדוגמא של נעלי גומי בתחילת הכתבה, אז הבנייה ההגיונית של נתונים סטטיסטיים שעליהם יסתמכו רוכשי סחורה לחנויות עלולה להפריע למזג אוויר יבש וחם, שאינו אופייני לסתיו.. כתוצאה מתופעה זו, מספר הרוכשים מגפי גומי יקטן והשקעים יספגו הפסדים. כמובן, נוסחה מתמטית אינה מסוגלת לחזות חריגה במזג האוויר. לרגע הזה קוראים "טעות".
זו רק ההסתברות לטעויות כאלה ולוקחת בחשבון את הבדיקה של רמת המובהקות המחושבת. הוא לוקח בחשבון גם אינדיקטורים מחושבים וגם רמות מובהקות מקובלות, כמו גם כמויות הנקראות השערות.
מהי רמת המשמעות?
המושג "רמה" כלול בקריטריונים העיקריים למובהקות סטטיסטית. הוא משמש בסטטיסטיקה יישומית ומעשית. זהו סוג של ערך שלוקח בחשבון את הסבירות של סטיות או שגיאות אפשריות.
הרמה מבוססת על זיהוי הבדלים בדגימות מוכנות, היא מאפשרת לקבוע את המשמעות שלהם או, להיפך, את האקראיות. למושג זה יש לא רק משמעויות דיגיטליות, אלא גם פירושים מוזרים שלהם. הם מסביריםאיך אתה צריך להבין את הערך, והרמה עצמה נקבעת על ידי השוואת התוצאה עם המדד הממוצע, זה מגלה את מידת המהימנות של ההבדלים.
לפיכך, אנו יכולים לדמיין את המושג רמה בפשטות - זהו אינדיקטור לשגיאה או שגיאה מתקבלת על הדעת, או טעות במסקנות המתקבלות מהנתונים הסטטיסטיים שהתקבלו.
באיזה רמות משמעות משתמשים?
המשמעות הסטטיסטית של מקדמי הסתברות שגיאה בפועל מבוססת על שלוש רמות בסיסיות.
הרמה הראשונה היא הסף שבו הערך הוא 5%. כלומר, ההסתברות לטעות אינה עולה על רמת המובהקות של 5%. משמעות הדבר היא שהאמון בחוסר הדופי והאי-טעות של המסקנות המתקבלות על בסיס נתוני מחקר סטטיסטיים הוא 95%.
הרמה השנייה היא הסף של 1%. לפיכך, נתון זה אומר שניתן להנחות את הנתונים שהתקבלו במהלך חישובים סטטיסטיים בביטחון של 99%.
רמה שלישית - 0.1%. עם ערך זה, ההסתברות לטעות שווה לשבריר של אחוז, כלומר, שגיאות כמעט מתבטלות.
מהי השערה בסטטיסטיקה?
שגיאות כמושג מחולקות לשני תחומים, הנוגעים לקבלה או לדחייה של השערת האפס. השערה היא מושג שמאחוריו, על פי ההגדרה, מסתתר אוסף של תוצאות סקר, נתונים או הצהרות אחרות. כלומר, תיאור של התפלגות ההסתברות של משהו הקשור לנושא החשבונאות הסטטיסטית.
יש שתי השערות בחישובים פשוטים - אפס וחלופה. ההבדל ביניהם הוא שהשערת האפס מבוססת על הרעיון שאין הבדלים מהותיים בין המדגמים המעורבים בקביעת המובהקות הסטטיסטית, והחלופה מנוגדת לה לחלוטין. כלומר, ההשערה החלופית מבוססת על נוכחות של הבדל משמעותי בדגימות אלו.
מהן הטעויות?
שגיאות כמושג בסטטיסטיקה עומדות ביחס ישר לקבלה של השערה זו או אחרת כנכונה. ניתן לחלק אותם לשני כיוונים או סוגים:
- הסוג הראשון נובע מקבלת השערת האפס, שהתבררה כלא נכונה;
- second - נגרם עקב ביצוע החלופה.
הסוג הראשון של שגיאה נקרא חיובי שגוי והוא נפוץ למדי בכל התחומים שבהם נעשה שימוש בסטטיסטיקה. בהתאם לכך, השגיאה מהסוג השני נקראת שלילית כוזבת.
למה אנחנו צריכים רגרסיה בסטטיסטיקה?
המשמעות הסטטיסטית של הרגרסיה היא שבעזרתה ניתן לקבוע עד כמה מודל התלות השונות המחושב על בסיס הנתונים תואם את המציאות; מאפשר לך לזהות את הספיקות או היעדר הגורמים לחשבונאות ומסקנות.
ערך הרגרסיה נקבע על ידי השוואת התוצאות עם הנתונים המפורטים בטבלאות פישר. או באמצעות ניתוח שונות. אינדיקטורים של רגרסיה חשובים מתימחקרים סטטיסטיים וחישובים מורכבים הכוללים מספר רב של משתנים, נתונים אקראיים ושינויים סבירים.