# ما هو تأثير الانحراف المعياري على شاشة DEM النقطية؟

أحتاج إلى شرح سبب تقديم ArcGIS للوظيفة "الانحراف المعياري" عند ترميز البيانات النقطية باستخدام طريقة التمديد.

الانحراف المعياري هو مقياس لكيفية توزيع الأرقام ويتم حسابه بواسطة الجذر التربيعي للتباين. يشير التباين في مربع الاختلافات عن المتوسط ​​و "n" في إعداد ArcGIS إلى المجتمع.

إذن ما الذي يحدث بالفعل؟ هل يقوم ArcGIS باستبدال كل قيمة ارتفاع بقيمة StdDev المحسوبة بواسطة وحدات البكسل "n" المجاورة؟ قد يعني ذلك أن الألوان تمثل متوسط ​​"انتشار" الارتفاعات وليس قيم الارتفاع الفعلية نفسها.

هل أنا على الطريق الصحيح هنا؟

إذا يتم توزيع قيمك بشكل طبيعي ، فإن ما يقرب من 68٪ و 95٪ و 99.7٪ من القيم تقع ضمن الانحرافات المعيارية 1 و 2 و 3 على التوالي ، انظر هنا ، لذلك إذا كنت تقوم بتمديد قيم خريطة الألوان باستخدام SD (2) جميع ستكون القيم التي تقل عن 2.5٪ سوداء وستكون جميعها أكثر من 97.5٪ بيضاء ، (اعتمادًا على مقياس اللون الخاص بك بالطبع) - سيسمح لك ذلك بمشاهدة تباين القيم الأكثر شيوعًا دون أن تغرق في الحد الأقصى المطلق و دقيقة.

لنفترض أنك تنظر إلى خريطة ارتفاع تتضمن هياكل ولديك مدخنة واحدة عالية جدًا ومختلفة بعمق واحد مدرج جيدًا في الخريطة ، فقد يؤدي ذلك إلى خطوة لونية تبلغ 50 قدمًا عندما تكون بقية الهياكل الخاصة بك كلها في هذا النطاق ، سيقوم SD بقص هاتين الميزتين مما يسمح لك بمشاهدة تباين الباقي.

## ص & # x02013 القيمة ، اختبار حقيقي للأهمية الإحصائية؟ ملاحظة تحذيرية

في حين أنه ليس نية مؤسسي اختبار الأهمية واختبار الفرضيات أن تتشابك الفكرتان كما لو كانتا متكاملتين ، إلا أن التزاوج المزعج بين العمليتين في ممارسة واحدة متماسكة ومناسبة وغير قابلة للجدل وسوء تفسيرها قد انتشرت في إحصاءاتنا المعيارية الكتب والمجلات الطبية. تدرس هذه الورقة العوامل المساهمة في هذه الممارسة ، وتتبع التطور التاريخي لمدارس فيشر ونيمان بيرسونيان لاختبار الفرضيات ، وكشفت المغالطات ونهج الأرضية غير المألوفة والأرضية المشتركة لهذه المشكلة. أخيرًا ، يقدم توصيات بشأن ما يجب القيام به لتصحيح الوضع.

## 2 إجابات 2

متابعة لتفسير BruceET ، لاحظ أننا إذا قمنا بحساب المقدر غير المتحيز للانحراف المعياري لكل عينة ، وهو $s = sqrt < frac <1> مجموع_^ n (x_i - bar x) ^ 2>،$ وهذا ما تم توفيره ، ثم لاحظ أنه بالنسبة للعينات $boldsymbol x = (x_1، ldots، x_n)$، $boldsymbol y = (y_1، ldots، y_m)$، دع $boldsymbol z = (x_1، ldots، x_n، y_1، ldots، y_m)$ تكون العينة المدمجة ، ومن ثم يكون متوسط ​​العينة المجمعة $bar z = frac <1> يسار ( sum_^ n x_i + sum_^ m y_i right) = fracوبالتالي ، فإن تباين العينة المجمّع هو$ s_z ^ 2 = frac <1> يسار ( sum_^ n (x_i - bar z) ^ 2 + sum_^ m (y_i - bar z) ^ 2 right) ، $حيث من المهم ملاحظة أنه يتم استخدام الوسط المدمج. من أجل الحصول على أي أمل في التعبير عن هذا من حيث$ s_x ^ 2 $و$ s_y ^ 2 $، من الواضح أننا بحاجة إلى تحليل مجاميع المربعات على سبيل المثال ،$ (x_i - bar z) ^ 2 = (x_i - bar x + bar x - bar z) ^ 2 = (x_i - bar x) ^ 2 + 2 (x_i - bar x) ( bar x - bar z) + ( bar x - bar ض) ^ 2 ، $وبالتالي$ sum_^ n (x_i - bar z) ^ 2 = (n-1) s_x ^ 2 + 2 ( bar x - bar z) sum_^ n (x_i - bar x) + n ( bar x - bar z) ^ 2. $لكن المصطلح الأوسط يختفي ، لذلك يعطي هذا$ s_z ^ 2 = frac <(n-1) s_x ^ 2 + n ( bar x - bar z) ^ 2 + (m-1) s_y ^ 2 + m ( bar y - bar z) ^ 2>. عند التبسيط ، نجد $n ( bar x - bar z) ^ 2 + m ( bar y - bar z) ^ 2 = frac،$ لذا تصبح الصيغة $s_z ^ 2 = frac <(n-1) s_x ^ 2 + (m-1) s_y ^ 2> + فارك<(n + m) (n + m-1)>$ هذا المصطلح الثاني هو عامل التصحيح المطلوب.

لم يكن الاقتراح الوارد في إجابة سابقة (محذوفة الآن) ولا الاقتراح الوارد في التعليق التالي صحيحًا بالنسبة لعينة الانحراف المعياري للعينة المدمجة.

البيانات المعروفة للرجوع اليها: أولاً ، من المفيد أن يكون لديك بيانات فعلية في متناول اليد للتحقق من النتائج ، لذلك قمت بمحاكاة عينات بأحجام $n_1 = 137$ و $n_2 = 112$ وهي تقريبًا مماثلة لتلك الموجودة في السؤال.

متوسط ​​العينة المجمعة: أنت تقول "الوسيلة سهلة" لذلك دعونا ننظر إلى ذلك أولاً. يمكن التعبير عن متوسط ​​العينة $bar X_c$ للعينة المجمعة بدلالة الوسيطتين $bar X_1$ و $bar X_2$ للعينتين الأولى والثانية ، على التوالي ، على النحو التالي. لنفترض أن $n_c = n_1 + n_2$ هو حجم عينة العينة المجمعة ، ودع الترميز الذي يستخدم الأقواس بين الرموز يشير إلى مؤشرات العينات المعنية.

دعنا نتحقق من ذلك كثيرًا في R ، باستخدام مجموعة البيانات المحاكاة (في الوقت الحالي ، تجاهل الانحرافات المعيارية):

تقدم الصيغ المقترحة دقة قياسية مجمعة غير صحيحة: في ما يلي توضيح بأن أيا من الصيغتين المقترحتين لم تعثر على $S_c = 34.025$ العينة المجمعة:

وفقًا للصيغة الأولى $S_a = sqrt = 46.165 ne 34.025.$ أحد أسباب خطأ هذه الصيغة هو أنها لا تأخذ في الاعتبار أحجام العينات المختلفة $n_1$ و $n_2.$

وفقًا للصيغة الثانية ، لدينا $S_b = sqrt <(n_1-1) S_1 ^ 2 + (n_2 -1) S_2 ^ 2> = 535.82 ne 34.025.$

لكي نكون منصفين ، فإن الصيغة $S_b ^ prime = sqrt < frac <(n_1-1) S_1 ^ 2 + (n_2 -1) S_2 ^ 2>> = 34.093 ne 34.029$ أكثر منطقية. هذه هي معادلة "الانحراف المعياري المجمع" في اختبار t المجمع المكون من عينتين. إذا كان لدينا عينتان من السكان بوسائل مختلفة ، فهذا معقول تقدير من (المفترض) الانحراف المعياري المشترك للمحتوى $sigma$ للعينتين. ومع ذلك ، فهي ليست معادلة صحيحة للانحراف المعياري $S_c$ للعينة المدمجة.

طريقة SD المدمجة الصحيحة: من الممكن العثور على $S_c$ من $n_1 و n_2 و bar X_1 و bar X_2 و S_1 و$ و $S_2. وسأعطي إشارة إلى كيفية القيام بذلك. الآن ، دعنا نلقي نظرة على نماذج الفروق لتجنب علامات الجذر التربيعي. لدينا كل ما نحتاجه على الجانب الأيمن باستثناء$ sum_ <[c]> X_i ^ 2 = sum_ <[1]> X_i ^ 2 + sum_ <[2]> X_i ^ 2. $الاثنان يمكن الحصول على المصطلحات في هذا المجموع لـ$ i = 1،2 $من$ n_i ، bar X_i $و$ S_c ^ 2 $عن طريق حل$ sum_ <[i]> X_i ^ 2 $في صيغة مماثلة لـ آخر معادلة معروضة. [في الكود أدناه ، نختصر هذا المجموع كـ$ Q_c = sum_ <[c]> X_i ^ 2 = Q_1 + Q_2. $] على الرغم من الفوضى إلى حد ما ، فإن عملية الحصول على تباينات العينة المجمعة (وبالتالي عينات SDs مجتمعة) تُستخدم في العديد من البرامج الإحصائية ، خاصة عند تحديث المعلومات الأرشيفية بعينة لاحقة. التحقق العددي من الطريقة الصحيحة: يتحقق الكود أدناه من أن هذه الصيغة تعطي$ S_c = 34.02507 ، $وهي النتيجة التي حصلنا عليها أعلاه ، مباشرة من العينة المدمجة. ## محتويات ### الانحراف المعياري للسكان للصفوف ثمانية طلاب تحرير لنفترض أن المجموعة المعنية بأكملها هي ثمانية طلاب في فصل معين. بالنسبة لمجموعة محدودة من الأرقام ، يمكن إيجاد الانحراف المعياري للسكان عن طريق أخذ الجذر التربيعي لمتوسط ​​الانحرافات التربيعية للقيم المطروحة من متوسط ​​قيمتها. علامات الفصل المكون من ثمانية طلاب (أي السكان الإحصائيون) هي القيم الثمانية التالية: تحتوي نقاط البيانات الثمانية هذه على متوسط ​​(متوسط) 5: أولاً ، احسب انحرافات كل نقطة بيانات عن المتوسط ​​، وقم بتربيع نتيجة كل منها: التباين هو متوسط ​​هذه القيم: و ال تعداد السكان الانحراف المعياري يساوي الجذر التربيعي للتباين: هذه الصيغة صالحة فقط إذا كانت القيم الثمانية التي بدأنا بها تشكل المجتمع الكامل. إذا كانت القيم بدلاً من ذلك عبارة عن عينة عشوائية مأخوذة من مجموعة كبيرة من الآباء (على سبيل المثال ، كانوا 8 طلابًا تم اختيارهم بشكل عشوائي ومستقل من فصل مكون من 2 مليون) ، ثم نقسم على 7 (وهو ن - 1) بدلاً من 8 (وهو ن) في مقام الصيغة الأخيرة ، والنتيجة هي s = 32/7 ≈ 2.1. < displaystyle s = < sqrt <32/7 >> حوالي 2.1.> في هذه الحالة ، ستسمى نتيجة الصيغة الأصلية عينة الانحراف المعياري ويشار إليه بواسطة س بدلا من σ. < displaystyle sigma.> القسمة على ن - 1 بدلا من ن يعطي تقديرًا غير متحيز للتباين بين أكبر عدد من السكان الأصليين. هذا هو المعروف باسم تصحيح بيسل. [5] [6] تقريبًا ، السبب في ذلك هو أن صيغة تباين العينة تعتمد على الاختلافات الحسابية للملاحظات من متوسط ​​العينة ، وأن الوسط النموذجي نفسه تم إنشاؤه ليكون أقرب ما يمكن إلى الملاحظات ، لذلك فقط قسمة على ن من شأنه أن يقلل من التباين. ### الانحراف المعياري لمتوسط ​​الطول للرجال البالغين تحرير إذا تم توزيع المجتمع محل الاهتمام بشكل طبيعي تقريبًا ، فإن الانحراف المعياري يوفر معلومات حول نسبة الملاحظات التي تزيد أو تقل عن قيم معينة. على سبيل المثال ، يبلغ متوسط ​​طول الرجال البالغين في الولايات المتحدة حوالي 70 بوصة (177.8 سم) ، مع انحراف معياري يبلغ حوالي 3 بوصات (7.62 سم). هذا يعني أن معظم الرجال (حوالي 68٪ ، بافتراض التوزيع الطبيعي) لديهم ارتفاع في حدود 3 بوصات (7.62 سم) من المتوسط ​​(67-73 بوصة (170.18-185.42 سم)) - انحراف معياري واحد - وتقريبًا جميع الرجال ( حوالي 95 ٪) يبلغ ارتفاعها في حدود 6 بوصات (15.24 سم) من المتوسط ​​(64-76 بوصة (162.56–193.04 سم)) - انحرافان معياريان. إذا كان الانحراف المعياري يساوي صفرًا ، فسيكون طول جميع الرجال 70 بوصة (177.8 سم) بالضبط. إذا كان الانحراف المعياري 20 بوصة (50.8 سم) ، فسيكون لدى الرجال ارتفاعات متغيرة أكثر بكثير ، مع نطاق نموذجي من حوالي 50-90 بوصة (127-228.6 سم). تمثل ثلاثة انحرافات معيارية 99.7٪ من عينة السكان التي تتم دراستها ، بافتراض أن التوزيع طبيعي أو على شكل جرس (انظر القاعدة 68-95-99.7 ، أو حكم التجريبية، للمزيد من المعلومات). يترك ميكرومتر هي القيمة المتوقعة (المتوسط) لمتغير عشوائي X بكثافة و (خ): الانحراف المعياري σ من X يعرف ب باستخدام الكلمات ، يكون الانحراف المعياري هو الجذر التربيعي للتباين لـ X. الانحراف المعياري للتوزيع الاحتمالي هو نفسه المتغير العشوائي الذي له هذا التوزيع. ليست كل المتغيرات العشوائية لها انحراف معياري. إذا كان التوزيع يحتوي على ذيول سمين تتجه إلى اللانهاية ، فقد لا يكون الانحراف المعياري موجودًا ، لأن التكامل قد لا يتقارب. التوزيع الطبيعي له ذيول يذهب إلى اللانهاية ، لكن متوسطه وانحرافه المعياري موجودان ، لأن ذيوله تتضاءل بسرعة كافية. توزيع باريتو مع المعلمة α ∈ (1، 2] < displaystyle alpha in (1،2]> له متوسط ​​، لكن ليس انحرافًا معياريًا (بمعنى فضفاض ، الانحراف المعياري غير محدود). توزيع كوشي ليس له أي منهما متوسط ​​ولا انحراف معياري. ### تحرير المتغير العشوائي المنفصل في حالة أين X يأخذ قيمًا عشوائية من مجموعة بيانات محدودة x1, x2, . xن، مع كل قيمة لها نفس الاحتمال ، يكون الانحراف المعياري هو إذا ، بدلاً من وجود احتمالات متساوية ، فإن القيم لها احتمالات مختلفة ، دعنا x1 احتمالية ص1, x2 احتمالية ص2, . xن احتمالية صن. في هذه الحالة ، سيكون الانحراف المعياري ### تحرير المتغير العشوائي المستمر وحيث تعتبر التكاملات تكاملات محددة مأخوذة من أجلها x تتراوح بين مجموعة من القيم المحتملة للمتغير العشوائي X. في حالة عائلة التوزيعات البارامترية ، يمكن التعبير عن الانحراف المعياري من حيث المعلمات. على سبيل المثال ، في حالة التوزيع اللوغاريتمي العادي مع المعلمات ميكرومتر و σ 2 ، الانحراف المعياري يمكن للمرء أن يجد الانحراف المعياري لمجتمع بأكمله في الحالات (مثل الاختبار المعياري) حيث يتم أخذ عينات من كل فرد من السكان. الانحراف المعياري في الحالات التي لا يمكن فيها القيام بذلك σ يتم تقديرها من خلال فحص عينة عشوائية مأخوذة من السكان وحساب إحصائية للعينة ، والتي تستخدم كتقدير للانحراف المعياري للسكان. يسمى هذا الإحصاء بالمقدر ، والمقدر (أو قيمة المقدر ، أي التقدير) يسمى الانحراف المعياري للعينة ، ويشار إليه بواسطة س (ربما مع المعدلات). على عكس حالة تقدير متوسط ​​المجتمع ، حيث يكون متوسط ​​العينة مقدرًا بسيطًا مع العديد من الخصائص المرغوبة (غير متحيز ، فعال ، أقصى احتمالية) ، لا يوجد مقدر واحد للانحراف المعياري مع كل هذه الخصائص ، وتقدير غير متحيز لـ الانحراف المعياري هو مشكلة فنية للغاية. في أغلب الأحيان ، يتم تقدير الانحراف المعياري باستخدام تصحيح الانحراف المعياري للعينة (استخدام ن - 1) ، المعرّف أدناه ، وغالبًا ما يشار إليه باسم "الانحراف المعياري للعينة" ، بدون محددات. ومع ذلك ، تعتبر المقدرات الأخرى أفضل من نواحٍ أخرى: المقدر غير المصحح (باستخدام ن) ينتج خطأ متوسط ​​تربيعي أقل ، أثناء استخدام ن - 1.5 (للتوزيع الطبيعي) يقضي تمامًا تقريبًا على التحيز. ### تحرير نموذج الانحراف المعياري غير المصحح صيغة ملف تعداد السكان يمكن تطبيق الانحراف المعياري (لمجتمع محدود) على العينة ، باستخدام حجم العينة كحجم السكان (على الرغم من أن حجم المجتمع الفعلي الذي يتم سحب العينة منه قد يكون أكبر بكثير). هذا المقدّر ، يُرمز إليه بـ سن، والمعروف باسم الانحراف المعياري للعينة غير المصححة، أو في بعض الأحيان الانحراف المعياري للعينة (تعتبر مجموع السكان) ، ويتم تعريفها على النحو التالي: [7] هذا مقدر متسق (يتقارب في الاحتمالية مع قيمة السكان مع انتقال عدد العينات إلى اللانهاية) ، وهو تقدير الاحتمال الأقصى عندما يتم توزيع السكان بشكل طبيعي. [ بحاجة لمصدر ] ومع ذلك ، يعد هذا مقدرًا متحيزًا ، حيث أن التقديرات منخفضة جدًا بشكل عام. يتناقص التحيز مع نمو حجم العينة ، وينخفض ​​إلى 1 /ن، وبالتالي هو الأكثر أهمية بالنسبة لأحجام العينات الصغيرة أو المتوسطة لـ N & gt 75 < displaystyle N & gt75> التحيز أقل من 1٪. وبالتالي بالنسبة لأحجام العينات الكبيرة جدًا ، يكون الانحراف المعياري للعينة غير المصححة مقبولًا بشكل عام. يحتوي هذا المقدّر أيضًا على متوسط ​​خطأ تربيعي أصغر بشكل منتظم من الانحراف المعياري للعينة المصححة. ### نموذج تصحيح الانحراف المعياري تحرير إذا كان تباين العينة المتحيزة (يتم استخدام اللحظة المركزية الثانية للعينة ، وهي تقدير منحاز إلى أسفل للتباين السكاني) لحساب تقدير الانحراف المعياري للسكان ، والنتيجة هي هنا يؤدي أخذ الجذر التربيعي إلى مزيد من التحيز الهبوطي ، من خلال متباينة جنسن ، نظرًا لكون الجذر التربيعي دالة مقعرة. من السهل تصحيح التحيز في التباين ، ولكن من الصعب تصحيح التحيز من الجذر التربيعي ، ويعتمد على التوزيع المعني. مقدر غير متحيز لـ التباين يتم الحصول عليها عن طريق تطبيق تصحيح بيسل ، باستخدام ن - 1 بدلا من ن للحصول على تباين العينة غير المتحيز ، يعني س 2 : هذا المقدّر غير متحيز إذا كان التباين موجودًا وتم رسم قيم العينة بشكل مستقل مع الاستبدال. ن - 1 يتوافق مع عدد درجات الحرية في متجه الانحرافات عن المتوسط ​​، (x 1 - x ¯، ...، x n - x ¯). - > ، النقاط ، x_- < بار >).> يؤدي أخذ الجذور التربيعية إلى إعادة تقديم التحيز (لأن الجذر التربيعي دالة غير خطية لا تتنقل مع التوقع) ، مما ينتج عنه تصحيح الانحراف المعياري للعينة ، التي يرمز إليها س: [2] كما هو موضح أعلاه ، بينما س 2 هو مقدر غير متحيز للتباين في المجتمع ، س لا يزال مقدرًا متحيزًا للانحراف المعياري للمجتمع ، على الرغم من أنه أقل تحيزًا بشكل ملحوظ من الانحراف المعياري للعينة غير المصححة. يستخدم هذا المقدّر بشكل شائع ويعرف عمومًا ببساطة باسم "الانحراف المعياري للعينة". قد يظل التحيز كبيرًا بالنسبة للعينات الصغيرة (ن اقل من 10). مع زيادة حجم العينة ، تقل كمية التحيز. نحصل على مزيد من المعلومات والفرق بين 1 N < displaystyle < frac <1>>> و 1 N - 1 < displaystyle < frac <1>>> يصبح أصغر. ### غير متحيز عينة الانحراف المعياري تحرير بالنسبة للتقدير غير المتحيز للانحراف المعياري ، لا توجد صيغة تعمل عبر جميع التوزيعات ، على عكس المتوسط ​​والتباين. في حين أن، س يستخدم كأساس ، ويتم قياسه بواسطة عامل تصحيح لإنتاج تقدير غير متحيز. بالنسبة للتوزيع الطبيعي ، يتم إعطاء مقدر غير متحيز بواسطة س/ج4، حيث عامل التصحيح (الذي يعتمد على ن) من حيث دالة جاما ، ويساوي: ينشأ هذا لأن توزيع أخذ العينات للانحراف المعياري للعينة يتبع توزيع كاي (متدرج) ، وعامل التصحيح هو متوسط ​​توزيع كاي. يمكن إعطاء تقريب عن طريق الاستبدال ن - 1 مع ن - 1.5 ، ينتج عن: الخطأ في هذا التقريب يتحلل تربيعيًا (مثل 1 /ن 2) ، وهي مناسبة لجميع العينات باستثناء أصغرها أو أعلى دقة: ل ن = 3 التحيز يساوي 1.3٪ ول ن = 9 التحيز أقل بالفعل من 0.1٪. بالنسبة للتوزيعات الأخرى ، تعتمد الصيغة الصحيحة على التوزيع ، لكن القاعدة الأساسية هي استخدام التحسين الإضافي للتقريب: أين γ2 يدل على التفرطح الزائد للسكان. قد يكون التفرطح الزائد معروفًا مسبقًا لتوزيعات معينة أو مقدّرًا من البيانات. [ بحاجة لمصدر ] ### تحرير الفاصل الزمني للثقة للانحراف المعياري الذي تم أخذ عينات منه الانحراف المعياري الذي نحصل عليه عن طريق أخذ عينات التوزيع في حد ذاته ليس دقيقًا تمامًا ، لأسباب رياضية (موضحة هنا بفاصل الثقة) ولأسباب عملية للقياس (خطأ القياس). يمكن وصف التأثير الرياضي بفاصل الثقة أو CI. لتوضيح كيف ستؤدي عينة أكبر إلى تضييق فاصل الثقة ، ضع في اعتبارك الأمثلة التالية: مجموعة صغيرة من ن = 2 لديه درجة واحدة فقط من الحرية لتقدير الانحراف المعياري. والنتيجة هي أن 95٪ CI من SD تمتد من 0.45 × SD إلى 31.9 × SD ، والعوامل هنا هي كما يلي: عدد أكبر من السكان ن = 10 لديه 9 درجات من الحرية لتقدير الانحراف المعياري. نفس الحسابات المذكورة أعلاه تعطينا في هذه الحالة 95 ٪ CI تعمل من 0.69 × SD إلى 1.83 × SD. لذلك ، حتى مع وجود عينة من السكان مكونة من 10 ، يمكن أن يظل SD الفعلي تقريبًا عامل 2 أعلى من SD الذي تم أخذ عينات منه. لعينة من السكان N = 100 ، هذا انخفض إلى 0.88 × SD إلى 1.16 × SD. لكي نكون أكثر يقينًا من أن SD المعيّن قريبًا من SD الفعلي ، نحتاج إلى أخذ عينة من عدد كبير من النقاط. يمكن استخدام هذه الصيغ نفسها للحصول على فترات ثقة بشأن تباين القيم المتبقية من المربعات الصغرى المناسبة وفقًا للنظرية العادية القياسية ، حيث ك هو الآن عدد درجات الحرية للخطأ. ### تحرير حدود الانحراف المعياري لمجموعة من ن & gt 4 تغطي نطاقًا من القيم ص، حد أعلى على الانحراف المعياري س اعطي من قبل ق = 0.6R. [9] تقدير الانحراف المعياري لـ ن & gt 100 البيانات المأخوذة لتكون طبيعية تقريبًا تتبع من الاستدلال أن 95٪ من المساحة الواقعة تحت المنحنى الطبيعي تقع تقريبًا في انحرافين معياريين على جانبي الوسط ، بحيث ، مع احتمال 95٪ ، النطاق الإجمالي للقيم ص يمثل أربعة انحرافات معيارية بحيث ق ≈ ص / 4. تُعد قاعدة النطاق هذه مفيدة في تقدير حجم العينة ، حيث إن تقدير نطاق القيم الممكنة أسهل من تقدير الانحراف المعياري. قواسم أخرى ك (ن) من هذا النطاق الصورة ≈ R / K (N) متوفرة لقيم أخرى من ن وللتوزيعات غير العادية. [10] الانحراف المعياري ثابت في ظل التغيرات في الموقع ، ويتساوى مباشرة مع مقياس المتغير العشوائي. وهكذا ، من أجل ثابت ج والمتغيرات العشوائية X و ص: يمكن أن يرتبط الانحراف المعياري لمجموع متغيرين عشوائيين بالانحرافات المعيارية الفردية والتغاير بينهما: يمكن أن يرتبط حساب مجموع الانحرافات التربيعية باللحظات المحسوبة مباشرة من البيانات. في الصيغة التالية ، يتم تفسير الحرف E على أنه يعني القيمة المتوقعة ، أي المتوسط. يمكن حساب الانحراف المعياري للعينة على النحو التالي: لدينا عدد محدود من السكان مع احتمالات متساوية في جميع النقاط مما يعني أن الانحراف المعياري يساوي الجذر التربيعي للفرق بين متوسط ​​مربعات القيم ومربع القيمة المتوسطة. راجع الصيغة الحسابية للتباين من أجل الإثبات ، وللحصول على نتيجة مماثلة للانحراف المعياري للعينة. يشير الانحراف المعياري الكبير إلى أن نقاط البيانات يمكن أن تنتشر بعيدًا عن المتوسط ​​ويشير الانحراف المعياري الصغير إلى أنها متجمعة بشكل وثيق حول الوسط. على سبيل المثال ، لكل من المجموعات السكانية الثلاثة <0 ، 0 ، 14 ، 14> ، <0 ، 6 ، 8 ، 14> و <6 ، 6 ، 8 ، 8> متوسط ​​7. الانحرافات المعيارية لها هي 7 ، 5 و 1 على التوالي. يحتوي المحتوى الثالث على انحراف معياري أصغر بكثير من الآخرين لأن قيمه كلها قريبة من 7. هذه الانحرافات المعيارية لها نفس الوحدات مثل نقاط البيانات نفسها. على سبيل المثال ، إذا كانت مجموعة البيانات <0 ، 6 ، 8 ، 14> تمثل أعمار مجموعة من أربعة أشقاء في السنوات ، فإن الانحراف المعياري هو 5 سنوات. كمثال آخر ، قد يمثل عدد السكان <1000 ، 1006 ، 1008 ، 1014> المسافات التي يقطعها أربعة رياضيين ، مقاسة بالأمتار. يبلغ متوسطه 1007 أمتار ، وانحرافه المعياري 5 أمتار. قد يكون الانحراف المعياري بمثابة مقياس لعدم اليقين. في العلوم الفيزيائية ، على سبيل المثال ، يعطي الانحراف المعياري المبلغ عنه لمجموعة من القياسات المتكررة دقة تلك القياسات. عند تحديد ما إذا كانت القياسات تتفق مع التنبؤ النظري ، فإن الانحراف المعياري لتلك القياسات له أهمية حاسمة: إذا كان متوسط ​​القياسات بعيدًا جدًا عن التنبؤ (مع المسافة المقاسة بالانحرافات المعيارية) ، فمن المحتمل أن يتم اختبار النظرية يحتاج إلى المراجعة. هذا منطقي نظرًا لأنها تقع خارج نطاق القيم التي يمكن توقع حدوثها بشكل معقول ، إذا كان التنبؤ صحيحًا وكان الانحراف المعياري محددًا كميًا بشكل مناسب. انظر الفاصل الزمني للتنبؤ. بينما يقيس الانحراف المعياري إلى أي مدى تميل القيم النموذجية إلى البعد عن الوسط ، تتوفر مقاييس أخرى. مثال على ذلك هو متوسط ​​الانحراف المطلق ، والذي يمكن اعتباره مقياسًا مباشرًا أكثر لمتوسط ​​المسافة ، مقارنة بجذر متوسط ​​المسافة التربيعية الملازم للانحراف المعياري. ### أمثلة التطبيق تحرير تكمن القيمة العملية لفهم الانحراف المعياري لمجموعة من القيم في تقدير مقدار التباين الموجود عن المتوسط ​​(المتوسط). #### التجربة والاختبار الصناعي واختبار الفرضيات تحرير غالبًا ما يستخدم الانحراف المعياري لمقارنة بيانات العالم الحقيقي بنموذج لاختبار النموذج. على سبيل المثال ، في التطبيقات الصناعية ، قد يحتاج وزن المنتجات الخارجة من خط الإنتاج إلى الامتثال للقيمة المطلوبة قانونًا. من خلال وزن جزء من المنتجات ، يمكن العثور على متوسط ​​الوزن ، والذي سيكون دائمًا مختلفًا قليلاً عن المتوسط ​​طويل الأجل. باستخدام الانحرافات المعيارية ، يمكن حساب الحد الأدنى والحد الأقصى لقيمة أن متوسط ​​الوزن سيكون ضمن نسبة مئوية عالية جدًا من الوقت (99.9٪ أو أكثر). إذا كان خارج النطاق ، فقد تحتاج إلى تصحيح عملية الإنتاج. الاختبارات الإحصائية مثل هذه مهمة بشكل خاص عندما يكون الاختبار مكلفًا نسبيًا. على سبيل المثال ، إذا كان المنتج بحاجة إلى الفتح والتصريف والوزن ، أو إذا تم استخدام المنتج بطريقة أخرى في الاختبار. في العلوم التجريبية ، يتم استخدام نموذج نظري للواقع. تستخدم فيزياء الجسيمات بشكل تقليدي معيار "5 سيجما"للإعلان عن اكتشاف. يُترجم مستوى الخمس سيغما إلى فرصة واحدة في 3.5 مليون أن يؤدي التذبذب العشوائي إلى النتيجة. وكان هذا المستوى من اليقين مطلوبًا لتأكيد اكتشاف جسيم يتوافق مع بوزون هيغز في تجربتين مستقلتين في سيرن ، [11] أدى أيضًا إلى إعلان الملاحظة الأولى لموجات الجاذبية ، [12] وتأكيد الاحترار العالمي. #### تحرير الطقس كمثال بسيط ، ضع في اعتبارك متوسط ​​درجات الحرارة القصوى اليومية لمدينتين ، إحداهما داخلية والأخرى على الساحل. من المفيد أن نفهم أن نطاق درجات الحرارة القصوى اليومية للمدن القريبة من الساحل أصغر منه في المدن الداخلية. وهكذا ، في حين أن كل من هاتين المدينتين قد يكون لكل منهما نفس متوسط ​​درجة الحرارة القصوى ، فإن الانحراف المعياري لدرجة الحرارة القصوى اليومية للمدينة الساحلية سيكون أقل من تلك الخاصة بالمدينة الداخلية ، حيث أنه في أي يوم معين ، تكون درجة الحرارة القصوى الفعلية أكثر احتمالية أن تكون بعيدة عن متوسط ​​درجة الحرارة القصوى للمدينة الداخلية عنها في المدينة الساحلية. #### تحرير المالية في التمويل ، غالبًا ما يستخدم الانحراف المعياري كمقياس للمخاطر المرتبطة بتقلبات أسعار أصل معين (الأسهم والسندات والممتلكات وما إلى ذلك) ، أو مخاطر محفظة الأصول [14] (الصناديق المشتركة المُدارة بنشاط أو مؤشر الصناديق المشتركة أو صناديق الاستثمار المتداولة). تعد المخاطر عاملاً مهمًا في تحديد كيفية إدارة محفظة الاستثمارات بكفاءة لأنها تحدد التباين في عوائد الأصول و / أو المحفظة وتمنح المستثمرين أساسًا رياضيًا لقرارات الاستثمار (المعروفة باسم تحسين التباين المتوسط). المفهوم الأساسي للمخاطر هو أنه كلما زاد ، يجب أن يزداد العائد المتوقع على الاستثمار أيضًا ، وهي زيادة تُعرف باسم علاوة المخاطرة. بمعنى آخر ، يجب أن يتوقع المستثمرون عائدًا أعلى على الاستثمار عندما يحمل هذا الاستثمار مستوى أعلى من المخاطرة أو عدم اليقين. عند تقييم الاستثمارات ، يجب على المستثمرين تقدير كل من العائد المتوقع وعدم اليقين بشأن العوائد المستقبلية. يوفر الانحراف المعياري تقديرًا كميًا لعدم التأكد من العوائد المستقبلية. على سبيل المثال ، افترض أن المستثمر كان عليه الاختيار بين سهمين. على مدار العشرين عامًا الماضية ، كان متوسط ​​العائد 10 بالمائة ، مع انحراف معياري قدره 20 نقطة مئوية (pp) والمخزون B ، خلال نفس الفترة ، كان متوسط ​​عوائده 12 بالمائة ولكن انحراف معياري أعلى بمقدار 30 pp. على أساس المخاطر والعائد ، قد يقرر المستثمر أن المخزون أ هو الخيار الأكثر أمانًا ، لأن نقطتين مئويتين إضافيتين للسهم ب لا تساوي الانحراف المعياري الإضافي البالغ 10 نقاط (مخاطر أكبر أو عدم يقين من العائد المتوقع). من المحتمل أن يكون المخزون "ب" أقل من الاستثمار الأولي (ولكن أيضًا يتجاوز الاستثمار الأولي) في كثير من الأحيان أكثر من المخزون "أ" في ظل نفس الظروف ، ويُقدر أنه سيعود فقط بنسبة 2 في المائة في المتوسط. في هذا المثال ، من المتوقع أن يكسب المخزون أ حوالي 10 في المائة ، زائد أو ناقص 20 نقطة في البوصة (نطاق من 30 في المائة إلى -10 في المائة) ، حوالي ثلثي عوائد العام المقبل. عند التفكير في العوائد أو النتائج المحتملة الأكثر تطرفًا في المستقبل ، يجب على المستثمر أن يتوقع نتائج تصل إلى 10٪ زائد أو ناقص 60 pp ، أو نطاق من 70٪ إلى -50٪ ، والذي يتضمن نتائج لثلاثة انحرافات معيارية عن متوسط ​​العائد (حوالي 99.7٪ من العوائد المحتملة). سيؤدي حساب المتوسط ​​(أو الوسط الحسابي) لعائد ورقة مالية خلال فترة معينة إلى توليد العائد المتوقع للأصل. لكل فترة ، ينتج عن طرح العائد المتوقع من العائد الفعلي الفرق من المتوسط. تربيع الفرق في كل فترة وأخذ المتوسط ​​يعطي التباين العام لعائد الأصل. كلما زاد التباين ، زادت المخاطر التي يحملها الأمن. سيعطي إيجاد الجذر التربيعي لهذا التباين الانحراف المعياري لأداة الاستثمار المعنية. من المعروف أن السلاسل الزمنية المالية هي سلاسل غير ثابتة ، في حين أن الحسابات الإحصائية أعلاه ، مثل الانحراف المعياري ، تنطبق فقط على السلاسل الثابتة. لتطبيق الأدوات الإحصائية المذكورة أعلاه على السلاسل غير الثابتة ، يجب أولاً تحويل السلسلة إلى سلسلة ثابتة ، مما يتيح استخدام الأدوات الإحصائية التي لديها الآن أساس صالح للعمل من خلاله. ### تحرير التفسير الهندسي للحصول على بعض الرؤى والتوضيح الهندسي ، سنبدأ بمجموعة من ثلاث قيم ، x1, x2, x3. هذا يحدد نقطة ص = (x1, x2, x3) في ص 3. ضع في اعتبارك الخط إل = <(ص, ص, ص) : صص>. هذا هو "القطر الرئيسي" الذي يمر عبر الأصل. إذا كانت جميع القيم الثلاث المعطاة متساوية ، فسيكون الانحراف المعياري صفرًا و ص سوف يكذب عليها إل. لذلك ليس من غير المعقول افتراض أن الانحراف المعياري مرتبط بـ مسافه: بعد من ص ل إل. هذا هو الحال في الواقع. للتحرك بشكل متعامد من إل الى حد، الى درجة ص، يبدأ المرء عند النقطة: ## موثوقية متوسط ​​الانحرافات المعيارية لدي سؤال من المحتمل أن يظهر جهلي بالإحصاءات :). لدي مجموعة كبيرة من الآلات التي تنتج قضبان حديدية بأطوال معينة. لقد أجريت تجارب لكل آلة ولدي قائمة بالأطوال. من هؤلاء يمكنني حساب المتوسط ​​وعينة الانحراف المعياري. أنا لا أهتم حقًا بوسائلهم وأنا أركز بشكل أساسي على الاختلاف. لذلك ، أنا في الأساس أسجل فقط عينة الانحراف المعياري لكل آلة. أعتقد أن نتائج كل جهاز تتبع التوزيع الطبيعي. حتى الان جيدة جدا :) أريد الآن دمج هذه الاختلافات في رقم واحد. لذلك ، أحسب المتوسط ​​التربيعي لكل اختلاف آلة ، دعنا نسميها X. في الخطوة التالية ، أود أيضًا أن أقدم تقديرًا للسبريد حول X. ما يسمى هذا الرقم وما هي أفضل طريقة لحسابه؟ لست متأكدًا من أنه مرتبط بفاصل الثقة للانحراف المعياري ولا أعرف ما إذا كانت القياسات مستقلة (سيظهر خطأ في التصميم بالكامل ، وربما في بعض الإنشاءات فقط). مثال. سأحاول التوضيح بمثال. لنفترض أنني قمت بقياس 3 آلات ووجدت أنها تنتج أطوالًا M1: 100 +/- 7 M2: 120 +/- 8 M3: 130 +/- 9 حيث الأرقام الموجودة خلف +/- هي الانحرافات المعيارية النموذجية للقيم المرصودة على هذا الجهاز الفردي. كما قيل من قبل ، أنا لا أهتم بالوسائل ولكن فقط في السبريد ، لذلك أنا أعرّف = <7،8،9>. متوسطها التربيعي هو X = RMS (X_i) =$ sqrt <194> $وأعتقد أن X هو مؤشر على متوسط ​​انتشار الجهاز في متنزهي. افترض أنني كنت سأجد = <3،8،11>. متوسطهم التربيعي هو نفسه$ sqrt <194> $، لكن من الواضح أن الفارق حوله أكبر. ثقتي في صحة$ sqrt <194> $حيث يجب أن يكون متوسط ​​انتشار الجهاز أقل (أود اختبار بعض الأجهزة الأخرى ، على سبيل المثال) وأود التعبير عن هذا في رقم. ## 2 إجابات 2 الفرق الرئيسي بين هذه المعادلات هو طبيعة الخطأ: بينما يتم استخدام الأول خطأ منهجي، والثاني يستخدم ل أخطاء عشوائية. المعادلة الأولى هي المشتق الكلي$ f = f (x، y) $عند النقطة$ (x_0، y_0)  tag1 df = df (x_0، y_0) = frac < جزئي f (x_0، y_0)> < جزئي x> dx + frac < جزئي f (x_0، y_0)> < جزئي y> dy $هذا صحيح لأي دالة وأي متغير. حيث منهجي هي الأخطاء ثوابت غير معروفة تباينها هو صفر. ومع ذلك ، مكافئ. (1) يخبرنا ، كيف أن & quotsystematic offset & quot$ dx $يولد & quotsystematic offset & quot$ df $: الأخطاء المنهجية$ dx $مرجحة بالمشتق$ frac < جزئي f> < جزئي x> $، لأن الخطورة يعتمد الخطأ على مدى سرعة تغيير الوظيفة$ f $حول النقطة$ (x_0، y_0) $. لهذا السبب نستخدم مكافئ. (1) لتقدير الخطأ النظامي. في المقابل ، تخبرنا المعادلة الثانية كيف المتغيرات العشوائية يؤثر$ x $و$ y $على متغير الاستجابة$ f (x، y) $. بتربيع كلا الجانبين نحصل على$ tag2 Var [f (x_0، y_0)] تقريبًا يسار ( frac < جزئي f (x_0، y_0)> < جزئي x> يمين) ^ 2Var [x] + يسار ( frac < جزئي f (x_0، y_0)> < جزئي y> يمين) ^ 2 Var [y] $حيث أستخدم$ sigma_x ^ 2 = Var [x] $. The variance of$x$is non-zero, because if we try to set the input to$x_i=x_0$, we actual get$x_i=x_0 + epsilon_i$, where$epsilon_i$is a random error. I hope this statements make it clear that$dx e sigma_x$. Although both are "uncertainties", systematic and random errors are fundamentally different. Sidemark: The confusion regarding the words uncertainty and standard deviation is understandable, because people often use them as synonyms. However, historically there exists other "conventions". Thus, I strongly recommend that you do not use the word "uncertainty" unless you have either previously defined it, or use it only in a qualitative (non-quantitative) fashion. How do we estimate the variance$Var[f(x,y)]$in eq. (2)? Let's consider a simple example, where we have only a single random input variable$x$(no second input$y$). Thus, we have several options This stems from the property of variance. For a random variable$X$and a constant$a$,$mathrm(aX)=a^2mathrm(x)$. Therefore, if you divide the data by its standard deviation ($sigma$),$mathrm(X/sigma)=mathrm(X)/sigma^2=sigma^2/sigma^2=1$. Standardizing is is just changing the units so they are in "standard deviation" units. After standardization, a value of 1.5 means "1.5 standard deviations above 0". If the standard deviation were 8, this would be equivalent to saying "12 points above 0". An example: when converting inches to feet (in America), you multiply your data in inches by a conversion factor,$frac<1 foot><12 inches>$, which comes from the fact that 1 foot equals 12 inches, so you're essentially just multiplying your data points by a fancy version of 1 (i.e., a fraction with equal numerator and denominator). For example, to go from 72 inches to feet, you do$72 inches imes frac<1 foot><12 inches>=6feet$. When converting scores from raw units to standard deviation units, you multiply your data in raw units by the conversion factor$frac<1sd>$. So if you had a score of 100 and the standard deviation ($sigma$) was 20, your standardized score would be$100 points imes frac<1 sd><20 points>=5sd$. Standardization is just changing the units. Changing the units of a dataset doesn't affect how spread out it is you just change the units of the measure of spread you're using so that they match. So if your original data had a standard deviation of 20 points, and you've changed units so that 20 original points equals 1 new standardized unit, then the new standard deviation is 1 unit (because 20 original units equals 1 new unit). ## 2 إجابات 2 Q: Is it safe to say that standard deviation indicates how reliable the mean of some values is? Standard deviation is one of two main factors contributing to the reliability of the population mean. This reliability is often quantified as the standard error (SE) of the mean, which is equal to the standard deviation ($sigma$) divided by the square root of the sample size ($n\$).

In general standard errors can be expressed differently depending on what is being done.

Q: Is it safe to say that standard deviation indicates how reliable the mean of some values is?

If you are comparing two normally-distributed variables on the same measurement scale then yes, you can regard the standard deviation as an indicator of how reliable the mean is--the smaller the standard deviation, the better able you are to "zero in" on the actual population mean. You can also use the Fisher Information to do this (the larger the Fisher Information, the more reliable the mean is).

But if your variables are not normally distributed then it becomes trickier. For unimodal distributions, the "reliability" of a population mean depends on the degree to which the distribution is symmetric. For symmetric and unimodal (i.e. Gaussian) distributions the mean is a very useful measure of central tendency. As a unimodal distribution becomes more skewed, the mean is increasingly sensitive to "outliers" in the direction of the skew and thus becomes less reliable. For skewed distributions the median is a more reliable measure of central tendency. In normal distributions the mean and median are equal. I suppose that the difference between the mean and median might in some cases be a kind of rote measurement of the "reliability" of the mean. This general concept is built into tests of normality like Shapiro-Wilk.

As the square root of the second central moment, the standard deviation is a measure of spread about the mean. In normal distributions the standard deviation is independent from the mean but in skewed distributions it becomes a function of the mean. In light of this, normal distributions are adequately described by their mean and standard deviation while skewed distributions are better described by the 5-number summary (minimum, Q1, median, Q3, maximum).

سؤال: Usefulness of standard deviation/alternatives for highly variable measurements?

Standard deviation will tell you whether or not the measurements are highly variable, it's not that you use "standard deviation" to predict the weather, it's that you use standard deviation to tell you if the آخر value (for which the standard deviation is provided) can be relied on as a predictor.

Even that alone is no guarantee. Example: It rained on this date 100% for the past 100 years, will it rain today? Answer: There's a good chance, but if there are no clouds in the sky there's 0% chance. The standard deviation of a single value is not the certainty of a result.

"Everybody knows that when it comes to climate and weather, there really is no difference between Oklahoma and Hawaii. What. You mean you don't believe me? Well, let's look at the statistics (after all, this is a stat course). The average (mean) daily temperature in Hawaii is 78 degrees farenheit. The average daily temperature in Oklahoma is 77 degrees farenheit. You see. no difference.

You still don't buy it huh? Well you are indeed smarter than you look. But how about those numbers? Are they wrong? Nope, the numbers are fine. But what we learn here is that our measures of central tendency (mean, median and mode) are not always enough to give us a complete picture of a distribution. We need more information to distinguish the difference.

Well before we go any further, let me ask a question: Which average temperature more accurately describes that state? Is 78 degrees more accurate of Hawaii than 77 degrees is of Oklahoma? Well if you live in Oklahoma I suspect you decided that 77 degrees is a fairly meaningless number when it comes to describing the climate here.

.

Okay. so the mean temperatures were 78 for Hawaii and 77 for Oklahoma. right? But notice the difference in standard deviation. Hawaii is a mere 2.52 while Oklahoma came in at 10.57. What does this mean you ask? Well the standard deviation tells us the standard amount that the distribution deviates from the average. The higher the standard deviation, the more varied that distribution is. And the more varied a distribution, the less meaningful the mean. You see in Oklahoma, the standard deviation for temperature is higher. This means that our temperatures are much more varied. And because the temperature varies so much, the average of 77 doesn't really mean much. But look at Hawaii. There the standard deviation is very low. This of course means the temperature there does not vary much. And as a result the average of 78 degrees is much more descriptive of the Hawaiin climate. I wonder if that has anything to do with why people want to vacation in Hawaii rather than Oklahoma?

From: "Probabilistic Forecasting - A Primer" by Chuck Doswell and Harold Brooks of the National Severe Storms Laboratory Norman, Oklahoma:

"Probabilistic forecasts can take on a variety of structures. As shown in Fig. 0, it might be possible to forecast Q as a probability distribution. [Subject to the constraint that the area under the distribution always sums to unity (or 100 percent), which has not been done for the schematic figure.] The distribution can be narrow when one is relatively confident in a particular Q-value, or wide when one's certainty is relatively low. It can be skewed such that values on one side of the central peak are more likely than those on the other side, or it can even be bimodal [as with a strong quasistationary front in the vicinity when forecasting temperature]. It might be possible to make probabilistic forecasts of going past certain important threshold values of Q. Probabilistic forecasts don't all have to look like PoPs! When forecasting for an area, it is quite likely that forecast probabilities might vary from place to place, even within a single metropolitan area.".

سؤال: However is standard deviation only useful/make sense for normal distributions?

All that standard deviation will tell you about "highly variable measurements" is that they are highly variable, but you knew that already if the standard deviation is very low you can rely more, but not absolutely, on historical measurements.

As a sidequestion: would the mean value be more accurate, with lower coefficient of variation if one has one million or billion years of measurements of data, even when each data point (spread) is highly variable?

Q: Mean more accurate with more data points?: Yes.

Q: Lower variation (standard deviation)?: No, not if the "data point (spread) is highly variable".

The "standard deviation" doesn't affect the accuracy of your calculation of the mean, regardless of the standard deviation you have equal mathematical skills and calculate both the mean and standard deviation equally well. It's that with a standard deviation (accurately calculated) the mean (or any other value) has less meaning when the standard deviation is large. It's a less useful predictor.

With a very low standard deviation any prediction based on a single value (for example, the mean) isn't 100% reliable.

سؤال: Looking for answers which preferably are relevant to above example. Links to relevant studies are highly appreciated. Answers/research that provide intuitive examples/explanations are also highly appreciated. Of course answers to the other questions also are appreciated.

- Understanding the difference between climatological probability and climate probability

"Bayesian probability is an interpretation of the concept of probability, in which, instead of frequency or propensity of some phenomenon, probability is interpreted as reasonable expectation representing a state of knowledge or as quantification of a personal belief.

The Bayesian interpretation of probability can be seen as an extension of propositional logic that enables reasoning with hypotheses, i.e., the propositions whose truth or falsity is uncertain. In the Bayesian view, a probability is assigned to a hypothesis, whereas under frequentist inference, a hypothesis is typically tested without being assigned a probability.

Bayesian probability belongs to the category of evidential probabilities to evaluate the probability of a hypothesis, the Bayesian probabilist specifies some prior probability, which is then updated to a posterior probability in the light of new, relevant data (evidence). The Bayesian interpretation provides a standard set of procedures and formulae to perform this calculation.".

- Modern Forecasting Papers

That should get you started, each of those papers has citation links which lead to newer papers.

## محتويات

Statistical significance dates to the 1700s, in the work of John Arbuthnot and Pierre-Simon Laplace, who computed the ص-value for the human sex ratio at birth, assuming a null hypothesis of equal probability of male and female births see ص-value § History for details. [22] [23] [24] [25] [26] [27] [28]

In 1925, Ronald Fisher advanced the idea of statistical hypothesis testing, which he called "tests of significance", in his publication Statistical Methods for Research Workers. [29] [30] [31] Fisher suggested a probability of one in twenty (0.05) as a convenient cutoff level to reject the null hypothesis. [32] In a 1933 paper, Jerzy Neyman and Egon Pearson called this cutoff the significance level, which they named α . They recommended that α be set ahead of time, prior to any data collection. [32] [33]

Despite his initial suggestion of 0.05 as a significance level, Fisher did not intend this cutoff value to be fixed. In his 1956 publication Statistical Methods and Scientific Inference, he recommended that significance levels be set according to specific circumstances. [32]

### Related concepts Edit

Sometimes researchers talk about the confidence level γ = (1 − α) instead. This is the probability of not rejecting the null hypothesis given that it is true. [34] [35] Confidence levels and confidence intervals were introduced by Neyman in 1937. [36]

Statistical significance plays a pivotal role in statistical hypothesis testing. It is used to determine whether the null hypothesis should be rejected or retained. The null hypothesis is the default assumption that nothing happened or changed. [37] For the null hypothesis to be rejected, an observed result has to be statistically significant, i.e. the observed ص-value is less than the pre-specified significance level α .

To determine whether a result is statistically significant, a researcher calculates a ص-value, which is the probability of observing an effect of the same magnitude or more extreme given that the null hypothesis is true. [6] [13] The null hypothesis is rejected if the ص-value is less than (or equal to) a predetermined level, α . α is also called the significance level, and is the probability of rejecting the null hypothesis given that it is true (a type I error). It is usually set at or below 5%.

For example, when α is set to 5%, the conditional probability of a type I error, given that the null hypothesis is true, is 5%, [38] and a statistically significant result is one where the observed ص-value is less than (or equal to) 5%. [39] When drawing data from a sample, this means that the rejection region comprises 5% of the sampling distribution. [40] These 5% can be allocated to one side of the sampling distribution, as in a one-tailed test, or partitioned to both sides of the distribution, as in a two-tailed test, with each tail (or rejection region) containing 2.5% of the distribution.

The use of a one-tailed test is dependent on whether the research question or alternative hypothesis specifies a direction such as whether a group of objects is heavier or the performance of students on an assessment is better. [3] A two-tailed test may still be used but it will be less powerful than a one-tailed test, because the rejection region for a one-tailed test is concentrated on one end of the null distribution and is twice the size (5% vs. 2.5%) of each rejection region for a two-tailed test. As a result, the null hypothesis can be rejected with a less extreme result if a one-tailed test was used. [41] The one-tailed test is only more powerful than a two-tailed test if the specified direction of the alternative hypothesis is correct. If it is wrong, however, then the one-tailed test has no power.

### Significance thresholds in specific fields Edit

In specific fields such as particle physics and manufacturing, statistical significance is often expressed in multiples of the standard deviation or sigma (σ) of a normal distribution, with significance thresholds set at a much stricter level (e.g. 5σ). [42] [43] For instance, the certainty of the Higgs boson particle's existence was based on the 5σ criterion, which corresponds to a ص-value of about 1 in 3.5 million. [43] [44]

In other fields of scientific research such as genome-wide association studies, significance levels as low as 5 × 10 −8 are not uncommon [45] [46] —as the number of tests performed is extremely large.

Researchers focusing solely on whether their results are statistically significant might report findings that are not substantive [47] and not replicable. [48] [49] There is also a difference between statistical significance and practical significance. A study that is found to be statistically significant may not necessarily be practically significant. [50] [20]

### Effect size Edit

Effect size is a measure of a study's practical significance. [50] A statistically significant result may have a weak effect. To gauge the research significance of their result, researchers are encouraged to always report an effect size along with ص-values. An effect size measure quantifies the strength of an effect, such as the distance between two means in units of standard deviation (cf. Cohen's d), the correlation coefficient between two variables or its square, and other measures. [51]

### Reproducibility Edit

A statistically significant result may not be easy to reproduce. [49] In particular, some statistically significant results will in fact be false positives. Each failed attempt to reproduce a result increases the likelihood that the result was a false positive. [52]

### Overuse in some journals Edit

Starting in the 2010s, some journals began questioning whether significance testing, and particularly using a threshold of α =5%, was being relied on too heavily as the primary measure of validity of a hypothesis. [53] Some journals encouraged authors to do more detailed analysis than just a statistical significance test. In social psychology, the journal Basic and Applied Social Psychology banned the use of significance testing altogether from papers it published, [54] requiring authors to use other measures to evaluate hypotheses and impact. [55] [56]

Other editors, commenting on this ban have noted: "Banning the reporting of ص-values, as Basic and Applied Social Psychology recently did, is not going to solve the problem because it is merely treating a symptom of the problem. There is nothing wrong with hypothesis testing and ص-values per se as long as authors, reviewers, and action editors use them correctly." [57] Some statisticians prefer to use alternative measures of evidence, such as likelihood ratios or Bayes factors. [58] Using Bayesian statistics can avoid confidence levels, but also requires making additional assumptions, [58] and may not necessarily improve practice regarding statistical testing. [59]

The widespread abuse of statistical significance represents an important topic of research in metascience. [60]

### Redefining significance Edit

In 2016, the American Statistical Association (ASA) published a statement on ص-values, saying that "the widespread use of 'statistical significance' (generally interpreted as 'ص ≤ 0.05') as a license for making a claim of a scientific finding (or implied truth) leads to considerable distortion of the scientific process". [58] In 2017, a group of 72 authors proposed to enhance reproducibility by changing the ص-value threshold for statistical significance from 0.05 to 0.005. [61] Other researchers responded that imposing a more stringent significance threshold would aggravate problems such as data dredging alternative propositions are thus to select and justify flexible ص-value thresholds before collecting data, [62] or to interpret ص-values as continuous indices, thereby discarding thresholds and statistical significance. [63] Additionally, the change to 0.005 would increase the likelihood of false negatives, whereby the effect being studied is real, but the test fails to show it. [64]

In 2019, over 800 statisticians and scientists signed a message calling for the abandonment of the term "statistical significance" in science, [65] and the American Statistical Association published a further official statement [66] declaring (page 2):

We conclude, based on our review of the articles in this special issue and the broader literature, that it is time to stop using the term "statistically significant" entirely. Nor should variants such as "significantly different," " p ≤ 0.05 ," and "nonsignificant" survive, whether expressed in words, by asterisks in a table, or in some other way.