أكثر

إنشاء رسم بياني / إحصائيات / مخطط مبعثر بواسطة أداة التصنيف في ArcMap؟


أعمل حاليًا على تصنيف الغطاء الأرضي باستخدام صور لاندسات 8. لقد أخضعت الصور بالفعل للمعالجة المسبقة (تصحيح الغلاف الجوي والطبوغرافي) وقمت بعمل الفسيفساء لصورتين. الآن أريد تطبيق تصنيف في ArcMap. أنا أفهم ما يجب أن أفعله ، لكن بطريقة ما لا يمكنني إدارة إنشاء الإحصائيات / الرسوم البيانية / المخططات المبعثرة. عندما أنقر على الإحصائيات ، تكون جميع القيم صفرية. عندما ألقي نظرة على خصائص الطبقات النقطية من ناحية أخرى ، يمكنني رؤية الإحصائيات المحسوبة باستخدام أداة "حساب الإحصائيات". لا يقوم بإنشاء رسم بياني على الإطلاق وتكون المخططات المبعثرة نقطة واحدة فقط في منتصف الشاشة. هل يعرف أحد ما هي مشكلتي وكيف يمكنني حلها؟


قد تكون المشكلة أنك لم تحدد الطبقة النقطية المناسبة في شريط أدوات التصنيف.

ما عليك سوى التحقق من الطبقة النقطية المميزة في شريط أدوات التصنيف والتحقق من أنها نفس البيانات النقطية التي تريد تصنيفها.


إذا كان خطك النقطي هو النقطة العائمة ، فستواجه هذه المشكلة. لذا فأنت بحاجة إلى أن تكون في عدد صحيح ، ستساعدك أداة الرياضيات Int () في ذلك.


علم الأوبئة ورؤى ArcGIS - الجزء 1

لقد قضيت معظم حياتي المهنية في التحليل المكاني وعلم الأوبئة. كانت هذه مصطلحات غالبًا ما قوبلت بنظرات فارغة عندما سئلت عما فعلته. ولكن الآن ، بعد سنوات من الاضطرار إلى شرح ما تعنيه ، علاوة على ذلك ، كيفية ارتباط نظم المعلومات الجغرافية ، خلال جائحة COVID-19 دخلت المصطلحات المتخصصة سابقًا مثل "منحنى الوباء" إلى اللغة اليومية. لذلك يبدو أنه وقت مثالي لمدونة سريعة حول هذا الموضوع.

يقع علم الأوبئة عند تقاطع عدد من التخصصات المختلفة ويستخدم المعرفة والأساليب ، على سبيل المثال ، من مجالات الصحة والطب والإحصاء. هناك العديد من التخصصات حتى داخل الإطار الواسع لعلم الأوبئة التي تركز على الأمراض المعدية ، وعلم الوراثة ، والأمراض المزمنة ، وعلم الأوبئة البيئية والمكانية. بينما يمكنني أن أكتب بشغف عن علم الأوبئة البيئية والمكانية على وجه الخصوص ، فقد حاولت أن أبقي هذه المدونة أكثر عمومية ، لكنني اعتقدت أنني يجب أن أعلن تحيزي (المكاني) مقدمًا. لتحقيق الاتساق ، خلال هذه النظرة العامة ، سأوضح علم الأوبئة باستخدام أمثلة لـ COVID-19 اعتبارًا من أبريل 2020. وسأوضح أيضًا كيف يوفر ArcGIS Insights حلاً قويًا وسهل الوصول لبعض الاحتياجات التحليلية لعالم الأوبئة ، وكيف يمكن أن يكون تستخدم في انسجام مع الأساليب الوبائية الأخرى المستخدمة على نطاق واسع ، وكيف يمكن أن تساعد في نقل المعلومات إلى عامة الناس وصناع القرار.

لقد حددت عشرة مواضيع رئيسية سأستكشفها بإيجاز مع أمثلة. سيتم تقسيم هذه المدونات بين مدونتين ، فقط لإبقائهم على طول فترة استراحة القهوة! في المجموع ، تحدد المدونتان عشرة مجالات رئيسية للدراسة الوبائية ونطاق نظم المعلومات الجغرافية لتوفير إطار تحليلي. في الجزء الأول ، حدد & # 8217ll المناطق الخمسة الأولى. في الجزء 2 I & # 8217ll ، قم بتدويره مع خمس مناطق أخرى إلى عشرة.

خصائص البيانات الصحية

حتى أبسط بيانات الأحداث الصحية سيتم جمعها وتحليلها والإبلاغ عنها بطرق مختلفة للغاية. غالبًا ما يتم استخدام العدد الإجمالي للحالات ومعدل الأحداث الصحية بالتبادل ، ولكن كل منها ينقل معلومات مختلفة تمامًا.

يمكن أن يكون العدد الإجمالي للأحداث الصحية ذا قيمة لتخطيط القدرات والتمويل. في أوقات الاستجابة الصحية ، يكون عدد الأحداث الصحية مثل الوفاة والولادة والاستشفاء أمرًا ذا قيمة لتحديد مدى أي تدابير وقائية مطلوبة ، أو في الواقع الرعاية الصحية التي قد تكون مطلوبة.

في معظم الحالات الأخرى ، لا يمكن فهم عدد الأحداث الصحية إلا بالرجوع إلى حجم السكان الذي اشتُق منه. في علم الأوبئة ، المعدل هو تكرار حدوث الحدث في مجموعة محددة من السكان خلال فترة زمنية محددة. وبالتالي ، تعد المعدلات مفيدة لمقارنة الأحداث الصحية في مجموعات سكانية مختلفة.

يتطلب تعيين المجاميع والمعدلات أيضًا تقنيات مختلفة ، والأكثر شيوعًا باستخدام الرموز المتناسبة والكلمات التوضيحية على التوالي. يجب أن يكون الإسقاط المستخدم لعرض خريطتك أيضًا في الاعتبار ، خاصةً مع المعدلات ، عندما يتم عرض القيم حسب المنطقة ، وخاصةً مع المناطق الأكبر (أي المقاييس الأصغر).

توزيعات البيانات الصحية

قبل أي نمذجة ، يجب استكشاف البيانات وفهمها جيدًا. تتطلب العديد من الأساليب عددًا من الافتراضات ليتم الوفاء بها. تتميز الأحداث الصحية عادةً بأحداث غير متكررة ، وأحيانًا متكررة ، مثل الاستشفاء ، التي لا يتم توزيعها بشكل طبيعي ، وتكون منحرفة بشكل إيجابي للغاية مع توزيع بواسون (يستخدم توزيع بواسون لوصف توزيع الأحداث النادرة في عدد كبير من السكان). في معظم التحليلات الصحية ، غالبًا ما تكون هناك علاقات متبادلة قوية ، وتعد العلاقة الخطية المتداخلة للبيانات أحد الاعتبارات المهمة لبعض الأساليب.

لفهم توزيعات البيانات ، يمكن استخدام الرسوم البيانية و boxplots ، جنبًا إلى جنب مع الإحصائيات مثل الانحراف والتفرطح. يمكن تقييم ارتباطات البيانات بين المتغيرات باستخدام مصفوفات المخططات المبعثرة ومصفوفات مخطط الانتشار ، بينما يمكن استخدام تحليل الانحدار لتقدير قوة واتجاه العلاقة بين المتغيرات التابعة والمستقلة. يجب أيضًا تحليل توزيعات البيانات المكانية للتحقق من وجود فجوات أو أنماط أو انحراف في البيانات.

يسمح الرسم البياني باستكشاف توزيع البيانات الرقمية. أنها تسمح بالتقييم المرئي لشكل التوزيع ، والميل المركزي ، وتباين البيانات والفجوات أو القيم المتطرفة في قيم البيانات. يمكن إضافة بعض الإحصائيات إلى المدرج التكراري مثل التوزيع المتوسط ​​والمتوسط ​​والطبيعي. يمكن أيضًا حساب الإحصائيات الإضافية ذات الصلة على البيانات ، وفي ArcGIS Insights ، يتم تضمينها تلقائيًا في الجزء الخلفي من بطاقات المخطط لتحديد الرسم البياني. الرسم البياني ذو التوزيع الطبيعي متماثل وسيكون له انحراف قدره 0. ويظهر اتجاه الانحراف بواسطة ذيل التوزيع ، لذلك إذا كان الذيل على اليمين أطول (كما هو موضح أعلاه) ، يكون الانحراف موجبًا. إذا كان الذيل على الجانب الأيسر أطول ، يكون الانحراف سالبًا.

يمكن تجميع مخططات الصندوق بواسطة متغير فئوي ، مثل الحالة ، مما يسمح بمقارنة التوزيعات. يتم رسم البيانات بحيث يكون 50٪ من البيانات داخل المربع بين الربع السفلي (Q1) والربيع الأعلى (Q3) ، ويتم عرض الوسيط كخط. تحتوي الشعيرات على 25٪ إضافية من البيانات ، أعلى وأسفل النطاق الربيعي (IQR) ، وهو طول الصندوق (الربع العلوي - الربع السفلي). القيم التي تتجاوز 1.5 IQR هي القيم المتطرفة.

يعد استكشاف البيانات بصريًا خطوة أساسية في التحليل ويمكن أن يخفف من أخطاء النمذجة. أثناء النمذجة ، غالبًا ما يتم تجميع البيانات للتأكد من وجود نقاط بيانات كافية في التحليل حتى تتمتع بقوة إحصائية ، ولكن هذه الخطوة يمكن أن تخفي البيانات المفقودة أو تغييرات جمع البيانات ، مثل التغييرات في التصنيف الدولي لممارسات ترميز المرض.

ستعطي التصورات المختلفة منظورًا مختلفًا للبيانات ويمكن أن تساعد القدرة على استكشاف البيانات وتصورها بطرق عديدة في فهم العديد من جوانب بيانات الدراسة. كلما كان التحليل أكثر ارتباطًا ، زادت أهمية وصف البيانات وتصورها قبل تنفيذ أي نمذجة.

الأبعاد الزمنية للبيانات الصحية

غالبًا ما يتم تصور ارتباطات وأنماط الوقت مع البيانات الوبائية باستخدام الرسوم البيانية الخطية لبيانات التاريخ / الوقت المستمرة ، والمنحنيات الوبائية التي تستخدم تقليديًا أشرطة بدون فجوات.

تظهر المنحنيات الوبائية بيانياً تواتر الحالات الجديدة مقارنة بتاريخ ظهور المرض. يُظهر منحنى الوباء أو epi تاريخ أو وقت ظهور المرض بين الحالات على المحور السيني وعموديًا ، يُظهر المحور الصادي عدد الحالات. تعتمد وحدة الوقت المستخدمة على فترة حضانة المرض والوقت الذي يتم خلاله توزيع الحالات. يمكن أن يكشف الشكل العام للمنحنى عن نوع التفشي (على سبيل المثال ، مصدر مشترك أو مصدر نقطة أو منتشر).

يمكن أن تتضمن التحليلات الوبائية بيانات تمتد لفترات طويلة من الزمن (لالتقاط أحداث كافية أو نتائج نادرة) ، والتي قد يكون هناك العديد من التغييرات في منهجية جمع البيانات. كجزء من عملية التحليل ، يجب أن تكون بيانات الإدخال مفهومة جيدًا ، ويجب ملاحظة القيود بشكل خاص للدراسات ذات التفاعلات المعقدة التي قد لا تكون مفهومة تمامًا. قد يكون الشيء نفسه صحيحًا بالنسبة للأمراض الجديدة التي ، بحكم تعريفها ، ستكون غير مفهومة جيدًا. على الرغم من أنه سيتم استخدام المعلومات السابقة والأحداث المماثلة لفهم الأنماط المحتملة لانتشار المرض عبر المكان والزمان ، فإن البيانات المبلغ عنها في المراحل المبكرة ستكون عرضة لخطأ غير معروف (وغير قابل للقياس الكمي) وعدم اليقين. هذا الشك له تأثير إضافي يجعل من الصعب فهم ما إذا كانت الأحداث السابقة متشابهة في الواقع وبالتالي قابلة للمقارنة.

يساعد تصور البيانات الزمنية على جدول زمني في الكشف عن فجوات البيانات ، على سبيل المثال ، في جمع البيانات. لا ينبغي أن يتم تحليل البيانات التي قد تختلف عبر المكان والزمان دون تقييم البيانات قبل التحليل ، من حيث الوقت والمكان.

سيستخدم الكثير من التحليلات الزمنية البيانات العامة ، مثل نتائج مسوح التعداد العشري ، لتقييم الأنماط بين المجموعات السكانية الفرعية المختلفة. ومع ذلك ، كلما ابتعدت عن سنة التعداد ، كلما قلت دقة تلك البيانات. على الرغم من أنه يجب قبول هذا القيد ، فإن استكشاف الاختلافات الزمنية بين البيانات المعروفة قد يساعد في النمذجة ويمكن أن يساعد بالتأكيد في التفسير.

التعامل مع مناطق جغرافية صحية مختلفة

يمكن أن تختلف مجالات التدخل والاستجابة عن تلك المستخدمة في التحليل الوبائي ، ولكل منها متطلبات مختلفة للغاية. قد تكون احتياجات الاستجابة مدفوعة بالمناطق الصحية ، على سبيل المثال ، في حين أن التحليل يميل إلى أن يكون أكثر اتساقًا مع مناطق التعداد بسبب توافر البيانات المساعدة (غالبًا ما يفترض) التجانس الاجتماعي والاقتصادي لتلك المناطق.

يمكن استخدام التحليل المكاني لتحديد منطقة (مناطق) الدراسة. يمكن إجراء تصفية البيانات عن طريق تحديد مناطق من الخريطة أو استخدام مجموعات بيانات حدودية إضافية. يمكن أن يكون هذا مفيدًا لتقسيم البيانات فرعيًا إلى مجموعات أو حالات مكشوفة ومجموعات غير مكشوفة أو مجموعة خاضعة للمراقبة. سيتم تجميع معظم البيانات المستخدمة للتحليل على أساس الحدود الإدارية ، في حين أن السكان المعرضين لم تحددهم المناطق الإدارية.

في بعض الحالات ، عندما تحتوي مجموعة البيانات على وحدات مكانية كحقل بيانات ، يمكن تحليل البيانات بشكل غير مكاني من خلال حدود جغرافية مختلفة. في حالات أخرى ، عندما تحتاج البيانات إلى "نقل" إلى مناطق جغرافية غير واردة في مجموعة البيانات ، يمكن استخدام الموقع المكاني "لنقل" البيانات إلى مناطق مختلفة. في هذه الحالات ، يمكن أن تكون البيانات متاحة كأعداد فردية أو حتى إجمالية حسب المنطقة. تسمح إعادة توزيع البيانات بين المناطق الجغرافية المختلفة بترجمة البيانات بين مناطق جغرافية مختلفة جدًا ، وبالتالي ، يسمح بالإبلاغ عن البيانات المجمعة عند حدود مختلفة.

تقليديا ، كانت هناك اختلافات اجتماعية واقتصادية ملحوظة بين سكان الحضر والريف. على الرغم من أن هذا الاتجاه بدأ يتغير ، فإن دقة البيانات المكانية ودقتها غالبًا ما ترتبط بالكثافة السكانية ، حيث تميل المناطق الريفية إلى تغطية مناطق كبيرة يمكن أن تشمل اختلافات اجتماعية واقتصادية ملحوظة. يمكن أن تؤدي هذه الاختلافات إلى تفاوتات بين المناطق الحضرية والريفية. يضمن دمج التحليل المكاني إمكانية تقسيم البيانات بسهولة إلى طبقات ، على سبيل المثال حسب المناطق الحضرية / الريفية من أجل النمذجة الوبائية.

تنضم أنواع مختلفة من البيانات للتحليل الصحي

تقليديا ، يقوم نظام المعلومات الجغرافية بتخزين البيانات المكانية كميزة حسب الموقع. قد تكون البيانات نقطية ، باستخدام خلايا منتظمة ، أو متجه ، باستخدام النقاط أو الخطوط أو المضلعات (المناطق). في كل موقع قد يكون هناك جزء واحد أو أكثر من المعلومات المرتبطة (على سبيل المثال ، عدد السكان حسب المنطقة الإدارية). ومع ذلك ، في علم الأوبئة ، يجب أن تتضمن جميع التحليلات تقريبًا مكونات متعددة حسب الموقع (على سبيل المثال ، السكان حسب العمر وتفصيل الجنس). من الناحية الفنية ، يتطلب هذا علاقة رأس بأطراف (سمة للمتغيرات الصحية والديموغرافية).

للتغلب على هياكل البيانات المختلفة هذه ، يمكن ضم البيانات كخطوة من خطوات التحليل بحيث يمكن ربط كل موقع ، سواء كان تلك النقطة أو الخط أو المنطقة ، بسمات متعددة أو صفوف من المعلومات. هذه خطوة حاسمة في ضمان أن التحليل المكاني والوبائي يمكن أن يتكامل بنجاح. علاوة على ذلك ، في بعض الحالات ، تكون الوصلات المركبة مطلوبة (على سبيل المثال ، باستخدام الموقع والوقت).

ملخص

حددت هذه المدونة بإيجاز خمسة موضوعات يتم أخذها في الاعتبار في علم الأوبئة وكيف يمكن استخدام ArcGIS Insights كجزء من حل التحليل.

كثير من هذه الموضوعات أكثر انخراطًا بكثير ، وكما هو الحال مع جميع الأعمال التحليلية ، يتطلب التحليل الفعال بيانات موثوقة ، جنبًا إلى جنب مع المعرفة السليمة بالدراسات السابقة ذات الصلة. يجب أن يكون عالم الأوبئة ضليعًا في التعامل مع نقص أي منهما وفي كثير من الأحيان ، هذا هو المكان الذي تكمن فيه الخبرة الحقيقية.

تعتبر النماذج المعقدة والتواصل الفعال للنتائج جزءًا أساسيًا من العملية. في الجزء الثاني من هذه المدونة ، سوف نستكشف هذه الموضوعات من بين أمور أخرى.


إذا كنت تستخدم هذه المادة للتدريس أو البحث أو أي شيء آخر ، فيرجى إبلاغي (Andy) عبر Twitter أو البريد الإلكتروني - a [dot] maclachlan [at] ucl [dot] ac [dot] uk).

يشارك - نسخ وإعادة توزيع المادة بأي وسيلة أو صيغة

تأقلم - إعادة مزج المواد وتحويلها والبناء عليها لأي غرض ، حتى لأغراض تجارية.

ومع ذلك ، فإنك تمنح الائتمان المناسب ، وتوفر ارتباطًا للترخيص ، وتوضح ما إذا تم إجراء تغييرات. إذا قمت بإعادة مزج المواد أو تحويلها أو البناء عليها ، فيجب عليك توزيع مساهماتك بموجب نفس ترخيص الأصل.

ولكن ، لا يتعين عليك الامتثال لترخيص عناصر المواد الموجودة في المجال العام أو حيث يُسمح باستخدامك بموجب استثناء أو قيد ساري.

الكود الموجود في هذا الكتاب العملي متاح بموجب ترخيص معهد ماساتشوستس للتكنولوجيا ، لذا فهو مجاني للاستخدام (لأي غرض) طالما أنك تستشهد بالمصدر.


ضوابط التنقل مخطط مبعثر

  • لتكبير أو تصغير المؤامرة ، انقر في مخطط مبعثر ولف عجلة الماوس لأعلى للتكبير ، ولأسفل للتصغير. أو اضغط مع الاستمرار على زر الماوس الأوسط (العجلة) واستخدمه كنترول+ اسحب لرسم مربع حول المنطقة التي تريد تكبيرها. لإعادة تعيين عرض قطعة الأرض ، انقر فوق إعادة تعيين النطاق زر .
  • إذا لم يكن مخطط التشتت في فرقة كاملة الوضع ، يمكنك التكبير في كل من نافذة الصورة ومؤامرة مبعثر. انقر في نافذة الصورة وقم بتدوير عجلة الماوس لأعلى أو لأسفل.
  • يمكنك النقر فوق معالجات أخرى في شريط الأدوات الرئيسي للتكبير ، والتحريك ، والتحليق ، وما إلى ذلك في نافذة الصورة. لإعادة التركيز إلى نافذة Scatter Plot ، انقر فوق أداة مخطط مبعثر زر.

في هذا التحديث المهم ، وسع SpaceStat نطاق أنواع ملفات الاستيراد / التصدير إلى تنسيق قاعدة البيانات الجغرافية (gdb). يتم دمج تقنيات التصور المتقدم وتحليل الزمان والمكان والنمذجة في SpaceStat بسهولة في تدفقات العمل التي تستخدم تقنيات Esri. على سبيل المثال ، يمكنك استخدام ArcGIS الخاص بـ Esri للحصول على بياناتك وتحريرها ومعالجتها ، ثم استخدام SpaceStat لتحليل البيانات الديناميكية للوقت لاستهداف التدخلات الصحية وتقييم التفاوتات الصحية والقيام بالنمذجة التنبؤية.

(ملاحظة حول تغيير المصطلحات: استنادًا إلى نتائج دراسات قابلية الاستخدام والاستطلاع الذي أجريناه ، في هذا الإصدار ، قمنا بتغيير اسم الطريقة & # 8220 الاستيفاء المكاني & # 8221 إلى & # 8220 مقياس التحويل / الاستيفاء & # 8221 لمساعدة مستخدمينا على فهم تطبيقات متعددة يمكن لهذا الإجراء أن يخدم مستخدمينا.)

(تُعد Esri و esri.com علامتين تجاريتين أو علامتين تجاريتين مسجلتين أو علامتي خدمة لـ Esri في الولايات المتحدة أو المجتمع الأوروبي أو بعض الولايات القضائية الأخرى.)


إنشاء رسم بياني / إحصائيات / مخطط مبعثر بواسطة أداة التصنيف في ArcMap؟ - نظم المعلومات الجغرافية

تطبيق معالجة الصور لعرض وتحليل الصور الجغرافية المكانية

يجب عليك تسجيل الدخول قبل أن تتمكن من تشغيل هذه الأداة.

إصدار 3.51 - تم النشر بتاريخ 10 سبتمبر 2020

فئة

نشرت في

الملخص

MultiSpec هي أداة لمعالجة الصور لعرض وتحليل الصور الجغرافية المكانية. يحتوي الإصدار عبر الإنترنت على جميع الميزات الموجودة في إصدارات سطح مكتب Macintosh و Windows. يمكن العثور على مزيد من المعلومات حول MultiSpec على موقع MultiSpec.

لاحظ أنك تحتاج إلى إنشاء حساب (تسجيل) على mygeohub. يمكنك إعداده بحيث تظل مسجلاً للدخول حتى لا تضطر إلى تسجيل الدخول في كل مرة. (لاحظ أنه سيكون هناك تأخير بعد التسجيل قبل الموافقة على الحساب. أرسل بريدًا إلكترونيًا إلى b & # x69e & # x68l & # 64 & # x70 & # 117 & # x72d & # x75 & # x65. & # x65du للتحقق من الموافقة على الحساب.)

يحتوي مرجع MultiSpec على وثائق MultiSpec. تتوفر أيضًا العديد من البرامج التعليمية (المدرجة أدناه).

تتوفر البرامج التعليمية حول استخدام عنصر قائمة Processor- & gtDisplay Image على:

- البرنامج التعليمي 2: ميزات تحسين الصورة.

يوجد برنامج تعليمي عن التصنيف غير الخاضع للإشراف في:

- البرنامج التعليمي 3: يستخدم المعالج- & gtCluster عنصر القائمة.

يوجد برنامج تعليمي حول التصنيف الخاضع للإشراف في:

- البرنامج التعليمي 4: يستخدم عنصر قائمة Processor- & gtStatistics (والعديد من عناصر القائمة الأخرى).

البرامج التعليمية الأخرى ميزات الإضاءة العالية في MultiSpec هي:

- الدرس 5: دمج ملفات الصور المنفصلة في ملف صورة واحد متعدد الأطياف.

- الدرس 6: تراكب ملفات الشكل في نافذة الصورة.

- البرنامج التعليمي 7: تحديد المناطق في نافذة الصورة وعرض الإحداثيات.

- الدرس 8: تكوين صور لمؤشرات الغطاء النباتي.

- الدرس 9: التعامل مع ملفات الصور المنسقة HDF و netCDF.

- الدرس 10: تصور صور يوم تزايد الدرجات (GDD).

تم إجراء التغييرات بحيث يتم ربط أوصاف القنوات بمجموعات بيانات لاندسات تحليل جاهزة (ARD) وملفات صور Sentinel. سيتم التعرف على ملفات صور الحارس مثل S2A_ و S2B_ في مكان ما في اسم المسار الكامل.

تم إجراء تغيير حتى تتم قراءة إحصائيات الرسم البياني للملفات المنسقة ERDAS Imagine بشكل صحيح. لم ينجح الأمر مع بعض الملفات ذات التنسيق Imagine.

تم إجراء إصلاح بحيث يقوم MultiSpec بحفظ المنطقة الصحيحة عند استخدام تحديد نافذة الصورة بدلاً من نافذة الصورة بأكملها.

تم إجراء إصلاح بحيث لا يتعطل MultiSpec عند حفظ الرسوم البيانية إلى ملف القرص. تحدث الأعطال بشكل متكرر مع إصدار MacOS في كثير من الأحيان في إصدارات Windows والإصدارات عبر الإنترنت. تم إجراء تغييرات أيضًا في تنسيق ملخصات المدرج التكراري.

تم تغيير الحد الأقصى لطول أوصاف القنوات ، التي يتم تضمينها في مربعات حوار القناة وإخراج المعالج في نافذة النص ، من 16 إلى 24. وتتضمن أوصاف القناة الافتراضية لأجهزة الاستشعار المعروفة مثل تلك الخاصة بـ Landsat و Sentinel الآن تعريف النطاق كـ Bn ) قبل معلومات الطول الموجي. تحاول MultiSpec ، افتراضيًا ، وضع النطاقات في ترتيب الطول الموجي الذي لا يكون في بعض الحالات ترتيب تعريف نطاق المستشعر.

الإصدار 3.33 (03/31/2020) يعمل على إصلاح مشكلة في عنصر قائمة Edit- & gtMap Parameters والتي تسببت في عدم التعرف على أنظمة الإحداثيات الجغرافية المحددة بواسطة أكواد EPSG و / أو معالجتها بشكل صحيح. كما تم إجراء تغيير للسماح بمزيد من الدقة لأحجام البكسل الأفقية والعمودية. قد يكون هذا ضروريًا لأنظمة الإحداثيات الجغرافية.

الإصدار 3.32 (02/20/2020) يتضمن تغييرات في معلومات الترخيص في كل ملف استعدادًا لعمل رمز MultiSpec Online مفتوح المصدر.

cjlin / libsvm للحصول على تفاصيل حول مصنف SVM والخيارات المتاحة.

مفتاح Shift: إذا ضغط المرء على مفتاح Shift لأسفل ، فسيتغير المؤشر إلى عين. سيؤدي النقر فوق زر الماوس (الأيسر) لأسفل إلى تغيير لون الفصل أو المجموعة إلى لون الخلفية. سيؤدي تحرير زر الماوس إلى تغيير اللون مرة أخرى إلى اللون الأصلي.

Shift and Control أو z أو / Keys: إذا استمر الشخص في الضغط على Shift والتحكم أو Z أو / Keys ، فسيتغير المؤشر إلى عين. سيؤدي النقر فوق زر الماوس لأسفل إلى تغيير لون جميع الفئات أو المجموعات الأخرى إلى لون الخلفية. سيؤدي تحرير زر الماوس إلى تغيير الألوان مرة أخرى إلى اللون الأصلي. لاحظ أن استخدام الشخص لمفاتيح Control أو z أو / / يعتمد على المتصفح. مفتاح التحكم لا يعمل في بعض المتصفحات. لذلك لا يتم توفير خيارات أخرى بشكل مثالي ولكن القدرة تعمل.

Shift و Option أو a or & # 39 Keys: إذا احتفظ المرء بمفاتيح Shift و option أو & # 39 مفتاحًا لأسفل ، فسيتغير المؤشر إلى عين. سيؤدي النقر فوق زر الماوس لأسفل إلى تغيير ألوان هذه الفئة أو المجموعة وكلها بأرقام فئة / مجموعة أقل من اللون المحدد إلى لون الخلفية. سيؤدي تحرير زر الماوس إلى تغيير الألوان مرة أخرى إلى اللون الأصلي. تم توفير هذا الخيار بشكل خاص للصور الاحتمالية التي تم إنشاؤها بواسطة معالج التصنيف.


تصنيف الأراضي واستخدامات الأراضي

بعد الانتهاء من مهام الإسناد الجغرافي الخاصة بي (أعوام 1995 و 1975 و 1959) ، تم إعطائي الخيار بين المزيد من الإسناد الجغرافي (1965) أو مسار مختلف قليلاً ، والذي يتكون من إنشاء طريقة لتصنيف أنواع الأراضي والأراضي الاستخدامات. إذا لم يكن & # 8217t واضحًا بالعنوان ، فقد اخترت الإسناد الجغرافي 1965 & # 8230

تصنيف الأرض هو طريقة لتحديد ماهية الميزة في الصور بناءً على قيمة البكسل (يمكن تفسير قيمة البكسل بشكل مختلف اعتمادًا على الموقف). يتيح ذلك عرضًا وفصلًا ملونًا ، مما يؤدي إلى سهولة قراءة وتصور سياق حيث توجد الميزات المختلفة. يمكن أن تختلف النتائج وتعتمد بشكل كبير على جودة الصورة. كلما قلت جودة الصورة أو الصور ، زاد تعميم التصنيفات وعدم دقتها.

على أي حال ، يمكن أن يكون تصنيف الأراضي بسيطًا وقد يكون أيضًا صعبًا للغاية. إذا كنت تستخدم أدوات موجودة بالفعل ، أو برامج تم إنشاؤها لتصنيف الصور ، فيمكنك بسهولة بدء تصنيف الأراضي / استخدام الأراضي. إذا كنت تستخدم مادة موجودة مسبقًا ، فستتحول سريعًا إلى مسألة العثور على المجموعة الصحيحة من الأرقام من أجل الحصول على التصنيفات التي تريدها. هذه الطريقة ليست صعبة للغاية ، ولكنها أكثر إرهاقًا فيما يتعلق بالحصول على النتيجة. ومع ذلك ، إذا اقتربت منه من الصفر ، فسيكون أكثر جاذبية. من أجل الاقتراب منه من الأسفل إلى الأعلى ، عليك أن تقوم بتشريح العملية بشكل أساسي. يجب عليك تحليل صورك ، واستخراج قيم البكسل ، وتجميع قيم البكسل ، ودمجها جميعًا في ملف واحد ، وأخيراً ترميزها بناءً على الإسناد أو قيمة البكسل التي تم تسجيلها مسبقًا. القول أسهل بكثير من الفعل.

أقترب حاليًا من المهمة عبر أدوات تم إنشاؤها بالفعل ، ولكن إذا كان لدي خيار في هذا الشأن ، كنت سأقترب منه عبر الطريقة من أسفل إلى أعلى وحاولت إنشائه من نقطة الصفر حيث يوجد المزيد من التعلم في ذلك وهو أكثر من ذلك بكثير تناشدني. بغض النظر ، أقوم بإنشاء ملفات معلومات أو ملفات تحتوي على الأرقام والنطاقات والتصنيفات التي أستخدمها لتحديد تصنيفات الأراضي الجيدة. على عكس ما ذكرته سابقًا ، هذا صعب جدًا بالنسبة لي لأن الصور منخفضة الجودة ولست من المعجبين بالكتابة المستمرة في النطاقات حتى أقوم بربط الإبرة.

الأداة الحالية التي أستخدمها هي أداة إعادة التصنيف المتوفرة من خلال مجموعة ESRI وتتطلب ملحق Spatial Analyst. تسمح هذه الأداة بإدخال صورة واحدة ، والنطاقات التي ترغب في استخدامها لتصنيف الصورة المحددة ، وملف الإخراج. بعد الكثير من الاختبارات ، أنا متأكد من أنه لا يمكن أن يكون هناك سوى 24 تصنيفًا كحد أقصى (وهو على الأرجح أكثر من كافٍ). بالإضافة إلى ذلك ، يمكن تشغيل الأداة دفعة واحدة (كما يمكن أن تكون معظم أدوات ESRI) ، مما يعني أنه يمكن تشغيلها على صور متعددة في وقت واحد. هذه ميزات مطلوبة بشدة للعديد من المواقف ، كما أفترض في معظم الأوقات ، لن يقوم الأفراد بتصنيف صورة واحدة ويتم القيام بها (أو على الأقل لن أكون واحدة ونفعل).

هذه صورة تم إعادة تصنيفها باستخدام أداة إعادة التصنيف. لست متأكدًا من مدى جودة هذا التصنيف لأنني لم أستوعب الأداة تمامًا حتى الآن وفي كل مرة أعطيها نطاقات ، فإنها تبث نفس النطاقات العامة التي لم أدخلها (وهو أمر محبط بعض الشيء ، لكنه يأتي مع الإقليم). أنا متأكد من أنه خطأ بشري على الرغم من أنه ليس الأداة معطلة. لست متأكدًا مما يفترض أن تكون النتيجة النهائية ، لكنني سأحرص على ملء بياناتك بمجرد تحقيقها (إذا فعلت ذلك في أي وقت & # 8230).


تحليل توزيع متغير واحد

الرسم البياني

نبدأ تحليلنا بوصف بسيط لتوزيع متغير واحد. يمكن القول إن الرسم الإحصائي الأكثر شيوعًا هو الرسم البياني ، وهو تمثيل منفصل لوظيفة الكثافة للمتغير. من حيث الجوهر ، يتم تقسيم نطاق المتغير (الفرق بين الحد الأقصى والحد الأدنى) إلى عدد من الفواصل الزمنية المتساوية (أو الصناديق) ، ويظهر عدد الملاحظات التي تقع داخل كل حاوية في رسم بياني شريطي.

يتم بدء وظيفة المدرج التكراري عن طريق التحديد استكشاف & gt المدرج التكراري من القائمة ، أو عن طريق النقر فوق الرسم البياني رمز شريط الأدوات ، وهو الرمز الموجود في أقصى اليسار في المجموعة في الشكل 2.

هذا يطرح ملف إعدادات متغيرة الحوار ، الذي يسرد جميع المتغيرات الرقمية في مجموعة البيانات (لا يمكن تحليل متغيرات السلسلة). قم بالتمرير لأسفل القائمة كما في الشكل 3 حتى تتمكن من التحديد الاطفال 2000، النسبة المئوية للأسر التي لديها أطفال دون سن 18 عامًا في عام 2000. هذا هو نفس المتغير الذي استخدمناه لتوضيح بعض وظائف رسم الخرائط.

الشكل 3: اختيار متغير الرسم البياني

بعد النقر نعم، يظهر الرسم البياني الافتراضي ، يوضح توزيع الـ 55 ملاحظة على سبع سلال ، كما في الشكل 4. ومن المثير للاهتمام ، وجدنا أن الحاوية الثانية تفتقر إلى الملاحظات ، مما يشير إلى أن مجموعة مختلفة من الفواصل الزمنية قد تكون أكثر ملاءمة.

الشكل 4: الرسم البياني الافتراضي

هناك عدد من الخيارات المهمة للرسم البياني. يمكن القول إن أهمها هو تعيين عدد الصناديق أو ، بدلاً من ذلك ، قيم نقاط القطع.

يتم عرض خيارات المدرج التكراري الموضحة في الشكل 5 بالطريقة المعتادة ، عن طريق النقر بزر الماوس الأيمن على الرسم البياني.

الشكل 5: اختر خيار الرسم البياني للفترات الزمنية

تحديد عدد صناديق الرسم البياني

ال اختر فترات يسمح الخيار ، الموضح في الشكل 5 ، بتخصيص عدد الصناديق في الرسم البياني. يظهر مربع حوار يتيح لك تعيين هذه القيمة بشكل صريح. الافتراضي هو 7 ، ولكن في مثالنا ، قمنا بتغيير هذا إلى 5 ، كما في الشكل 6.

الشكل 6: فترات الرسم البياني مضبوطة على 5

يحتوي الرسم البياني الناتج الآن على خمسة أشرطة ، كما في الشكل 7.

الشكل 7: الرسم البياني مع 5 فترات زمنية

هذا يعتني بمشكلة الحاوية ذات الملاحظات المفقودة.

باستخدام تصنيف مخصص

تذكر كيف أنشأنا تصنيفًا مخصصًا للخريطة استنادًا إلى نطاق القيم لـ الاطفال 2000، ووصفها العرف 1. إذا قمت بتحميل ملف المشروع ببيانات مدينة نيويورك ، فسيتم إدراج هذا التصنيف المخصص كخيار لـ تصنيف المدرج التكراري، كما هو موضح في الشكل 8. إذا بدأت من الصفر ، فسيتعين عليك إعادة إنشاء التصنيف المخصص (للحصول على التفاصيل ، راجع فصل التعيين).

الشكل 8: تحديد تصنيف مخصص للمدرج التكراري

التصنيف المخصص هو الطريقة التي تسمح بها GeoDa بتحديد نقاط القطع ، بدلاً من عدد الصناديق. مع العرف 1 المحدد ، يأخذ الرسم البياني الشكل كما في الشكل 9 ، مع ستة صناديق ، كما هو محدد في هذا التصنيف. الرسم البياني له نفس الشكل الموضح في محرر الفئات عند إنشاء هذه الفئات المخصصة.

الشكل 9: الرسم البياني بفواصل زمنية مخصصة

الرسوم البيانية للمتغيرات الفئوية

المنطق الافتراضي وراء المدرج التكراري هو النظر في نطاق متغير الاهتمام (الحد الأقصى - دقيقة) وحساب نقاط القطع بناءً على عدد الصناديق المحدد. بالنسبة للمتغيرات الفئوية ، يؤدي هذا إلى نتائج غير مرغوب فيها.

لتوضيح ذلك ، نقوم بإنشاء خريطة لـ الاطفال 2000 مع ال العرف 1 الفئات والاستخدام حفظ الفئات لإنشاء متغير فئوي (على سبيل المثال كاتكيد 20) لهذا التصنيف. 2 الرسم البياني الافتراضي لهذا المتغير هو كما في الشكل 10 ، من الواضح أنه ليس شيئًا يعكس قيم الأعداد الصحيحة المنفصلة المرتبطة بالفئات. بدلاً من ذلك ، تستند نقاط القطع إلى النطاق 5 ، مقسومًا على العدد الافتراضي للصناديق 7 ، أو عرض الحاوية بحوالي 0.7. في الواقع ، ينتقل الحاوية الأولى من 1 إلى 1.7.

الشكل 10: الرسم البياني الافتراضي للمتغيرات الفئوية

ال منظر يوفر خيار الرسم البياني طريقة للتعامل مع المتغيرات الفئوية عن طريق تعيين كقيمة فريدة العنصر ، الموضح في الشكل 11. يتعرف هذا الخيار على الطبيعة المنفصلة للمتغير الفئوي ويضبط نقطة القطع وفقًا لذلك.

الشكل 11: تحديد تصنيف فريد للرسم البياني للقيمة

تظهر النتيجة في الشكل 12 ، مع ست فئات مرتبطة كل منها بقيمة تحديد عدد صحيح.

الشكل 12: الرسم البياني للقيمة الفريدة للمتغيرات الفئوية

عرض إحصائيات الرسم البياني

من الخيارات المهمة للرسم البياني (وأي رسم بياني إحصائي آخر) أن تكون قادرًا على عرض إحصائيات وصفية لمتغير الاهتمام. يتم تحقيق ذلك عن طريق الاختيار عرض الإحصائيات في ال منظر خيار الرسم البياني (انظر الشكل 11)

يضيف هذا الخيار عددًا من الواصفات أسفل الرسم البياني. يتم تقديم ملخص الإحصائيات في الأسفل ، كما هو موضح في الشكل 13 لـ الاطفال 2000 مع الفئات المخصصة. نلاحظ أن 55 ملاحظة لها قيمة دنيا تبلغ 8.3815 وحد أقصى 55.3666 ومتوسط ​​38.2278 ومتوسط ​​36.04 وانحراف معياري 11.2881. بالإضافة إلى ذلك ، بالنسبة إلى المدرج التكراري ، يتم توفير إحصائيات وصفية لكل فترة زمنية ، توضح نطاق الفاصل الزمني ، وعدد الملاحظات كعدد وكنسبة مئوية من العدد الإجمالي للملاحظات ، وعدد الانحرافات المعيارية بعيدًا عن المتوسط لمركز السلة. هذا يسمح لنا بتحديد القيم المتطرفة المحتملة ، على سبيل المثال ، كما هو محدد من خلال تلك الملاحظات ، أكثر من انحرافين معياريين عن المتوسط. في مثالنا ، لا توجد فئة تفي بهذا المعيار.

تظهر أيضًا خصائص الملخص لحاوية معينة في شريط الحالة عند تحريك المؤشر فوق الشريط المقابل. يعمل هذا سواء كان خيار الإحصاء الوصفي قيد التشغيل أم لا. في مثالنا في الشكل 13 ، يكون المؤشر فوق الفئة الرابعة.

الشكل 13: الرسم البياني مع الإحصاء الوصفي

خيارات الرسم البياني الأخرى

العناصر الأخرى المتوفرة في منظر يتضمن الخيار تخصيص دقة المحاور والإحصائيات المعروضة ، على التوالي من خلال عرض & gt ضبط دقة العرض على المحاور و عرض & gt تعيين دقة العرض.

بالإضافة إلى ذلك ، تشتمل الخيارات القياسية للرسم البياني على تعديلات على إعدادات الألوان المختلفة (اللون) ، حفظ التحديد (على غرار ما رأيناه لوظيفة الخريطة) ، انسخ الصورة إلى الحافظة وحفظ الرسم البياني كملف صورة (مرة أخرى ، مطابق لوظيفة الخريطة).

ربط الرسم البياني والخريطة

لتوضيح مفهوم مرتبط الرسوم البيانية والخرائط ، نواصل مع المدرج التكراري المخصص ونتأكد من توفر الخريطة الافتراضية الخالية من السمات. عندما نحدد الشريطين في أقصى اليمين في الرسم البياني (انقر مع الضغط على مفتاح shift وانقر لتوسيع التحديد) ، تحتفظ الأشرطة المميزة بلونها ، بينما تصبح الأشرطة غير المحددة شفافة ، كما هو الحال في الرسم البياني الأيمن في الشكل 14 هذا هو النهج القياسي لتصور التحديد في رسم بياني في GeoDa. 3

Immediately upon selection of the bars in the graph, the corresponding observations in the map are also highlighted, as in the left-hand graph in Figure 14. In our current example, the map is a simple themeless map (all areal units are green), but in more realistic applications, the map can be any type of choropleth map, for the same variable or for a different variable. The latter can be very useful in the exploration of categorical overlap between variables.

Figure 14: Linking a histogram and a map

The reverse linking works as well. For example, using a rectangular selection tool on the themeless map, we can select sub-boroughs in Manhattan and adjoining Brooklyn, as in the map in Figure 15. The linked histogram (right-hand graph in Figure 15) will show the attribute distribution for the selected spatial units as highlighted fractions of the bars (the transparent bars correspond to the unselected areal units).

In practice, we will be interested in assessing the extent to which the distribution of the selected observations (e.g., a sub-region) matches the overall distribution. When it does not, this may reveal the presence of spatial heterogeneity, to which we return below.

Figure 15: Linking a map and a histogram

As we have seen before, it is also possible to save the selection in the form of a 0-1 indicator variable with the Save Selection option.

The technique of linking, and its dynamic counterpart of brushing (more later) is central to the data exploration philosophy that is behind GeoDa (for a more elaborate exposition of the philosophy behind GeoDa , see Anselin, Syabri, and Kho 2006) .

Box Plot

A box plot is an alternative visualization of the distribution of a single variable. It is invoked as Explore > Box Plot, or by selecting the Box Plot as the second icon from the left in the toolbar, shown in Figure 2.

Identical to the approach followed for the histogram, next appears a Variable Settings dialog to select the variable. In GeoDa , the default is that the variable from any previous analysis is already selected. In our example, we change this to the variable rent2008, which we already encountered in the illustration of the box map in the mapping Chapter.

The box plot for rent2008 is shown in Figure 16 (make sure to turn off any previous selection of observations).

Figure 16: Default box plot

The box plot focuses on the quartiles of the distribution. The data points are sorted from small to large. The median (50 percent point) is represented by the horizontal orange bar in the middle of the distribution. The green dot above corresponds with the mean.

The brown rectangle goes from the first quartile (25th percentile) to the third quartile (75th percentile). The difference between the values that correspond to the third (1362.5) and the first quartile (1000) is referred to as the inter-quartile range (IQR). The inter-quartile range is a measure of the spread of the distribution, a non-parametric counterpart to the standard deviation. In our example, the IQR is 362.5 (1362.5 - 1000).

The horizontal lines drawn at the top and bottom of the graph are the so-called fences أو hinges. They correspond to the values of the first quartile less 1.5xIQR (i.e., roughly 1000 - 362.5x1.5 = 275), and the third quartile plus 1.5xIQR (i.e., roughly 1362.5 + 362.5x1.5 = 2087.5). Observations that fall outside the fences are considered to be outliers. 4

In our example in Figure 16, we have a single lower outlier value (corresponding to three observations), and six upper outlier observations. Note that the lower outliers are the observations that correspond with a value of 0 (the minimum), which we earlier had flagged as potentially suspicious. The outlier detection would seem to confirm this. Checking for strange values that may possibly be coding errors or suggest other measurement problems is one of the very useful applications of a box plot.

Box plot options

The default in GeoDa is to list the summary statistics at the bottom of the box plot. As was the case for the histogram, the statistics include the minimum, maximum, mean, median and standard deviation. In addition, the values for the first and third quartile and the resulting IQR are given as well. The listing of descriptive statistics can be turned off by unchecking View > Display Statistics (i.e., the default is the reverse of what held for the histogram, where the statistics had to be invoked explicitly).

The typical multiplier for the IQR to determine outliers is 1.5 (roughly equivalent to the practice of using two standard deviations in a parametric setting). However, a value of 3.0 is fairly common as well, which considers only truly extreme observations as outliers. The multiplier to determine the fence can be changed with the Hinge > 3.0 option (right click in the plot to select the options menu, and then choose the hinge value, as in Figure 17).

Figure 17: Change the box plot hinge

The resulting box plot, shown in Figure 18, no longer characterizes the lowest value as an outlier.

Figure 18: Box plot with hinge = 3.0

The other options for the box plot can be seen in Figure 17. Except for the Hinge option, these are the same as for the histogram, and are not further considered here.

Also, as is the case for any graph in GeoDa , linking and brushing are implemented, as already illustrated in the mapping Chapter.

The main purpose of the box plot in an exploratory strategy is to identify outlier observations. We have already seen how that is implemented in the idea of a box map to show whether such outliers also coincide in space. In later Chapters, we will cover more formal methods to assess such patterns.


6. Conclusions

This study was designed as a demonstration project to quantify the spatial and temporal characteristics of supercells across Oklahoma over a 10-yr period. A criteria-based approach was applied to the identification and classification of storm types using level-II and level-III radar data. Furthermore, GIS was utilized in a new and innovative way to organize, visualize, and analyze the spatial aspects of storms across various time scales. This methodology resulted in the identification of 943 supercells across Oklahoma during 1994–2003. While the observation of nearly 1000 supercells during a decade is quite significant, the sample size is too small to represent long-term spatial and temporal characteristics of supercell thunderstorms across Oklahoma.

A number of key findings resulted from the spatiotemporal analysis of supercells across Oklahoma during the limited 10-yr demonstration study period. Key results included the following:

  • The location of the maxima of supercell occurrences was identified across three main regions: east-central Oklahoma, southwest Oklahoma, and west-central into northeast Oklahoma.
  • The mean supercell initiation location moved west between January and September and moved east from September through the end of the calendar year.
  • Initiation was most frequent between 2000 and 0000 UTC.
  • Termination was most common between 2300 and 0300 UTC.
  • Supercell initiation density was the greatest across portions of southwest, north-central, and east-central Oklahoma.
  • Supercell termination density was most common across northern and northeastern Oklahoma.
  • The month of May was composed of three important climatological features: a supercell outbreak peak in early May, a midmonth relative minimum of activity, and a peak in supercell days at the end of May.
  • The secondary supercell season was identified during late September to early October.
  • The monthly mean supercell tracks were oriented from southwest to northeast from January through May, from northwest to southeast from June through September, and from southwest to northeast through the end of the year.

Storm report data were analyzed using several spatial density tools and revealed that the distribution of point reports (wind, hail, and tornadoes) was approximately correlated with population centers. The density of tornado tracks did not exhibit the same population bias however, only north-central Oklahoma was strongly correlated with supercell locations for the same period. Overall, the GIS-based supercell dataset was found to be a valuable, new form of storm archive that enabled the efficient query of past storms, powerful spatial analyses, and multiple data overlay. The combined use of radar storm classification and GIS as a database creation and analysis tool proved highly effective in quantifying the spatial characteristics of past supercells across Oklahoma during a 10-yr period. If applied on a larger scale, utilizing a set of more automated methods such as storm algorithm identification combined with quality assurance measures, similar detailed analyses could be extended to larger regions of the United States over longer periods of time.

It is the authors’ recommendation that a national center be given the task of creating an automated framework for developing GIS datasets consisting of critical storm information gathered in a real-time, quality-assured manner. While Storm Data will continue to serve as a useful storm reporting and National Weather Service verification tool, new approaches are needed to more effectively document and research storm occurrences. For example, with the availability of extensive WSR-88D coverage across the country, the potential exists for more effective use and storage of important radar-derived storm features such as hail detections, mesocyclone detections, or storm cell identification and tracking information. The storage of such data into GIS datasets would enable effective data mining of past storm days, facilitate incorporation with other datasets, and ultimately foster further meteorological research and data discovery. The resultant storm datasets would provide beneficial information to a range of sectors, including forecast operations, synoptic and mesoscale research, and economic interests. With continued increases in GIS-compatible meteorological datasets, such as the ones proposed herein, it appears likely that GIS will serve as an important tool for archiving, visualizing, and analyzing a vast array of meteorological data in the future.


Statistics of Multiple Attributes

A data set often has multiple attributes that may or may not depend on each other.

Dependence and Independence

Quite often two sets of data may be related to each other, at the very least because their values are measured at the same time or location, or both. For example, a weather station might make hourly measurements of temperature, humidity, wind speed, etc.

Census data is another common example, such as the layer MASSCENSUS2010BLOCKGROUPS.shp , whose attribute table includes information not only about total population but also the white population, black population, hispanic population, housing units, etc. in particular locations in a particular year:

Beyond the basic connection they have due to their location-based collection, these different sets of data might have other relationships, e.g. there can be simple constraints of definition such as:

POP_2010 = POP_WHITE + POP_BLACK + POP_NATV + POP_ASN + POP_ISLND + POP_OTHER + POP_MULTI

See the U.S. Census Bureau's document “About Race” to learn how they define these categories.

The Census Bureau also allows for the possiblity that a person of Hispanic or Latinx ethnicity could be in any one of these categories. See the U.S. Census Bureau Guidance on the Presentation and Comparison of Race and Hispanic Origin Data for more information.

Importantly, there can also be more complicated relationships resulting from societal factors. For example, the ratio of blacks to whites is not uniform but tends to be inversely related as whites and blacks cluster together in different locations.

The relationship between different attributes can be visualized, to some extent, by plotting each pair within a record on a two-dimension graph of their values, which is known as a .

Procedure 5: Visualizing Attribute Relationships with Scatterplots

  1. In ArcMap , menu View , then select the menu item Graphs , and then select the menu item Create Scatterplot Matrix… .
  2. In the dialog Create Scatterplot Matrix Wizard , in the menu Layer/Table , select the layer or table of interest, e.g. MASSCENSUS2010BLOCKGROUPS.shp .

  1. Show all features/records with selected items highlighted (the default)
  2. Show all features/records with selected items appearing the same as others
  3. Show only selected records.

Scatterplots often reveal several types of relationships between attributes:

    A linear relationship, clearly visible in the the POP_OTHER vs. HISPanic graph expanded above:

Recall that &alpha (the Greek letter “alpha”) is the and &beta (the Greek letter “beta”) is the of the line.

In other words, where there are more whites there are fewer blacks, and where there are fewer whites, there are more blacks.

Inverse relationships can often be approximated by linear relationships with negative slopes.

Some pairs of attributes may have no obvious relationship, such as POP_OTHER vs. POP_MULTI, perhaps indicating an overlap in meaning or a more complicated relationship involving other attributes. Relationships between z-scores can sometimes be clearer, because these values are mostly smaller than 1 (mathematically speaking, nonlinear terms will be less important).

When an attribute remains constant relative to another attribute, or if they have a purely random relationship, we can say that they are of each other if, on the other hand, the attribute has a clear mathematical relationship to another attribute, we can say they are on each other.

Somewhat confusingly, when expressed as a mathematical relationship such as the above, the attribute on the left of the equal sign is called the or the , and the attribute in the expression on the right is called the , which implies an asymmetric relationship that requires qualification or justification.

An important aphorism to remember when considering dependent relationships is that correlation does not imply causation, i.e. two attributes may be dependent upon each other not because one causes the other, but because they both arise from a third attribute. For example, black households are more likely to have lower incomes than white households, not because being black causes lower incomes but because of their historical origins and ongoing discrimination.

Correlation

The degree to which the two sets of data have a linear relationship can be described by calculating their , defined by Pearson as

This expression multiplies two attributes’ z-scores feature-by-feature, sums the result, and divides by the total number N (replaced by N̂ &minus 1 for sample data sets).

The correlation of two attributes will vary between &minus1 and +1, with the latter occurring if all pairs of values < ai , bi > are exactly the same (because the sum is then the same as that of the standard deviation squared), and the former when the values differ only by a minus sign.

If two attributes are independent of each other, the correlation will be close to zero. This is obviously true when one of the attributes is constant, since that value will equal its mean and its z-score will always be zero. More generally, since z-scores are distributed around zero, there will be roughly the same number of positive and negative terms, which will tend to cancel each other out.

In ArcGIS, you can calculate the correlation of two attributes by calculating their z-scores, then calculating a third attribute that is the product of their z-scores, then summarizing the latter to find its mean value. (You can also calculate a linear regression see the next section.) Excel provides a function CORREL which is somewhat easier to use to calculate correlations.

For the Massachusetts data above, we can create a with the same form as the scatterplot matrix:

POP_WHITE 0.88
POP_BLACK 0.13 -0.27
POP_NATV 0.16 -0.02 0.24
POP_ASN 0.33 0.10 0.10 0.00
POP_ISLND 0.13 0.03 0.12 0.15 0.06
POP_OTHER 0.14 -0.21 0.40 0.46 0.03 0.20
POP_MULTI 0.42 0.04 0.52 0.41 0.27 0.24 0.70
HISP 0.17 -0.16 0.38 0.48 0.05 0.20 0.95 0.67
POP_2010 POP_WHITE POP_BLACK POP_NATV POP_ASN POP_ISLND POP_OTHER POP_MULTI

The color codes indicate the strength and sign of the correlation (similar to the standardized map above). From this we see that the POP_OTHER and HISP attributes have the strongest correlation at 0.95, while for POP_WHITE and POP_BLACK there is a weak negative correlation of &minus0.27, both matching our visual characterization.

Question: The second strongest correlation is between the white and total populations at 0.88 why do you think that would be?

Linear Regression

An attribute such as the Hispanic population can be characterized by its mean value and standard deviation, but consider the graph at the right, which plots HISP on the y axis vs. POP_OTHER on the x axis.

The mean value of HISP, &mu = 126 (the solid green line), is also plotted, along with the confidence interval 3 &sigma = 636 (the dashed green line).

Clearly a significant fraction of the HISP data is quite far from the mean and even outside of the 3 &sigma confidence interval — but it’s much closer to the blue line, which varies with POP_OTHER.

If we want to model the relationship between , the simplest type of relationship between two attributes A and B is a linear one, viz.

The &alpha and &beta are called the and , respectively. Note that if the slope &beta is zero, then A will be represented by the constant value &alpha , which we might expect to be the mean &mu .

In general there will be a dispersion of data that prevents a perfect representation by such a line, as in the graph at the right.

The difference between a dependent value and the corresponding calculated value of a representational line is known as a :

(&epsilon is the Greek letter “epsilon”).

We’d like to calculate values for the coefficients &alpha and &beta , a process known as . The most common procedure, , is based on the idea that the line that fits the data best is the one that minimizes the :

squaring the residuals puts values above and below the regression line on an even footing. Also note that, if the slope &beta is zero, the sum is the same as that in the expression for &sigmaأ , since the mean &mu is the value of &alpha that minimizes the sum.

Question: Where have you seen a least-squares fit previously? (Hint: the residuals were represented by blue lines between two geographic locations.)

is also possible when there is more than one explanatory variable:

In this case, with n coefficients and n – 1 different explanatory variables, it’s helpful to express the latter as z-scores in order to compare their relative importance to the dependent variable. Then the slopes < &beta ك > will represent the effect of a one-standard-deviation change in the corresponding variables.

The derived expressions for the intercept &alpha and slopes < &beta ك > are unenlightening and won’t be listed here. But they can be calculated with a number of tools, including Excel and ArcGIS (see below).

As an example, consider the relationship discussed earlier,

which was notable because these two attributes appear to be strongly correlated. It has least-squares intercept and slope of

resulting in the equation

HISP = 16.5 + 1.788 × POP_OTHER

and the solid blue regression line that is plotted in the graph above.

Question: How might you interpret a slope of 1.788 in this case?

Goodness of Fit

How well a linear regression equation fits the data is an important consideration, and a number of statistical measures have been devised to test its .

The describes the distribution of the dependent values around the best-fit line, and is similar to the standard deviation around the mean value:

Again the &epsiloni are the residuals of the dependent values, and smaller values represents a smaller spread from the regression line, as seen in the graph to the right.

As before N is the number of data points, so if more of them fit within a given spread of residuals, that will reduce the standard error.

Finally, n is the number of coefficients the more of them there are the greater the standard error, because they add to the equation and make it easier to fit more precisely, even though the data hasn’t changed. It is therefore subtracted from the total number of data points N , which decreases the denominator and increases the standard error.

Remember “ n equations for n unknowns”? That means that one data point is required for each coefficient to determine them exactly, and the remaining N – n data points are responsible for the variation around the line (the residuals).

The standard error of the HISP(POP_OTHER) regression is

Note that in the above graph, almost all of the data lies close to the regression line, falling within the confidence interval ±3 &Sigma = ±201, denoted by the dashed blue lines. This is much better than simply describing the dependent variable by its mean value, since ±3 &sigmaأ = ±636. This model therefore accounts for a large fraction of the variation in the HISP data, leaving a much smaller set of residuals that must be accounted for by other factors. We can say that we have the variation between the model and the remaining residuals.

The is a convenient and accepted way to compare the standard error of the equation &Sigma and the dependent variable’s standard deviation &sigmaأ , and thereby describe the overall goodness-of-fit of the equation:

If the regression line perfectly fits the data, the residuals &epsilon i will all be zero and R 2 will be one when the residuals approach the standard deviation of the dependent variable, the second term will be one and R 2 will be zero.

One way to interpret the coefficient of determination is as a generalization of correlation to a set of explanatory variables. It can be shown that, when there is only one explanatory variable, R 2 will equal the square of the correlation &rho with the dependent variable. For the HISP(POP_OTHER) regression,

which matches the correlation calculated above, since 0.95 2 = 0.90. So R 2 .

Because the coefficient of determination can improve simply by adding more explanatory variables, i.e. by increasing n , a related quantity that provides a better estimate of significance is the :

R̅ 2 will always be less than or equal to R 2 , and it can be negative, unlike R 2 . The significance of your equation will be greatest when R̅ 2 is maximized.

For the example regression,

since N (4979) is much larger than n (2).

The is another common way to analyze the dependence of your model on the number of explanatory variables you’ve chosen. It compares the “explained” variance R 2 that follows from these n – 1 variables to the “unexplained” variance 1 – R 2 remaining in the N – n unfitted data points:

F can be as small as 0, when the numerator R 2 /( n – 1) is 0: none of the variance in the dependent variable is explained.

F can be as large as ∞, when the denominator (1 – R 2 )/( N – n ) is 0: الكل of the variance in the dependent variable is explained.

So the regression is better when F >> 1 for the HISP(POP_OTHER) regression, F = 45,000.

But could a different set of coefficient values be substituted and produce a better result? When coefficient values are selected with random probability and their F values are calculated, an results, such as the graph of ∂F p versus F shown at the right clearly some F values are more likely than others.

Generally speaking values of F >> 1 have a low probability per unit value ∂F p , and the total probability p that random coefficient values will have F > F Regression is very small, as suggested by the red portion of the F distribution graph.

Is there a significant probability p that random coefficient values could produce better results than the regression best-fit? This question is an example of a .

A is a value of p below which you may decide to reject the null hypothesis, i.e. decide that F Regression is significant. Commonly these are stated in the form p < 0.1 or p < 0.05. The former represents a less-than-1-in-10 chance and the latter a less-than-1-in-20 chance that a random result will produce a better F .

For the HISP(POP_OTHER) regression, p ≈ 0, so F Regression is clearly significant and we can reject the null hypothesis.

Standard Errors of the Coefficients

Once the overall goodness-of-fit has been established, the individual coefficients should come under scrutiny.

Because the best-fit regression line is only one of many that could pass through the data, the coefficients also clearly have a range of values, e.g. tilting the line upward for a larger slope or downward for a smaller slope. These values therefore have their own distributions whose widths are described by , which for the HISP(POP_OTHER) regression are:

You will commonly see coefficient errors expressed together with the coefficients in the form &beta ± s &beta , e.g.

HISP = (16.5 ± 1.1) + (1.788 ± 0.008) × POP_OTHER

Note that this is an expression of just one possible confidence interval to claim more certainty, a multiple of this value is generally necessary.

In addition, we can set up another null hypothesis: can these values be left out of the model with little effect, i.e. are they significantly different than zero? A simple test for their significance is based on the :

Like the F-statistic, we can test these values with the , which, like the F distribution, charts the probability that a random set of values could produce the observed coefficient.

When these values are greater than two, i.e. the coefficients ± the standard errors are significantly different than zero, the values are considered good estimates. More precisely, suppose the data was completely random, e.g. HISP showed no dependence on POP_OTHER then we would expect the coefficients to be all zero and &alpha = &mu .

The coefficient of determination for the dependence of the HISP attribute on the POP_OTHER attribute is good, but looking at the scatterplot matrix there appears to be correlation not just with POP_OTHER but also with POP_MULTI and, to a lesser extent, with POP_BLACK and POP_NATV. In general, we also know that Spanish-speaking people can be of any racial background. We may therefore be able to produce a better fit by including them in the analysis with a multiple linear regression.

Procedure 6: Multiple Linear Regression

ArcGIS provides a tool for calculating the ordinary least squares fit to a multiple linear regression of an attribute dependent on multiple other attributes, providing detailed statistical characteristics of a fit described by the equation

This includes the coefficient of determination R 2 , meaning that it can also be used to calculate the correlation between any pair of attributes, too.

  1. The Ordinary Least Squares tool requires that the input feature class have an integer attribute with unique values for every feature if your layer doesn’t already have one, open its attribute table and add a new field, e.g. UniqueID , and use the field calculator as described above to copy the attribute FID (which unfortunately doesn’t work for this purpose).
  2. In ArcMap , open ArcToolbox (see Constructing and Sharing Maps for details).
  3. Double-click on Spatial Statistics Tools , then on Modeling Spatial Relationships , and finally on Ordinary Least Squares .
  4. In the dialog Ordinary Least Squares , in the menu Input Feature Class , select the data layer to be symbolized, e.g. MASSCENSUS2010BLOCKGROUPS . If the layer is not already added to ArcGIS, you can click instead on the button Browse to select one.
  5. In the menu Unique ID Field , choose an integer field with unique values, e.g UniqueID .
  6. In the text field Output Feature Class , choose a location and name for the output layer file, e.g. Geostatistics.gdbHISP_OLS , by typing it or by clicking on the button Browse to select it. You will probably want to put it in the same location as the data layer it’s modeling.
  7. In the menu Dependent Variable , choose the attribute you would like to explain, e.g HISP .
  8. In the menu Explanatory Variables , click على the attribute(s) that you think will explain the dependent variable, e.g POP_OTHER_Z .
  9. In the text field Output Report File , choose a location and name for an output report in PDF format, e.g. HISP_OLS_Report.pdf , by typing it or by clicking on the button Browse to select it. You will probably want to put it in the same location as the data layer it’s modeling.
  10. Optionally, you can request a Coefficient Output Table and a Diagnostic Output Table these have almost the same information as in the PDF report, but in a table format that can and will be loaded into ArcGIS. One statistic the former provides that isn’t in the PDF report is the standard error of the equation S .
  11. Click on the button OK .
  12. If you have turned off background processing (see Constructing and Sharing Maps for details), the dialog Ordinary Least Squares will appear, describing the process, and eventually displaying the Completed results (you may need to enlarge the window and scroll up to see everything):

Quite a few statistical characteristics are included here, including the ones we have already described. In particular, this model of the hispanic population

Again, if there are a large number of polygons you may want to turn off the polygon outlines as described in step 12 of Procedure 2.

Excel provides a function LINEST that can also be used to calculate regression coefficients and standard errors, but it’s a bit cumbersome to use.


شاهد الفيديو: Histogram in ArcMap (شهر اكتوبر 2021).