أكثر

QGIS Raster Calculator: يلزم تعيين القيم على 0 بدلاً من عدم وجود بيانات


لدي خريطة مساحة أرضية بقيم مختلفة لخيارات استخدام الأراضي ، على سبيل المثال 190 للمناطق المستخدمة تجاريًا. الآن أريد استخراج هذه المناطق فقط باستخدام حاسبة البيانات النقطية مع التعبير

"النقطية @ 1" = 190

يعمل هذا بشكل جيد ، حيث تحتوي البيانات النقطية الناتجة على القيمة 1 لجميع الخلايا التي كانت فيها 190 قبل (كما يفترض) ولكن لا توجد قيم بيانات (قيم سلبية عالية) لجميع الخلايا الأخرى ، والتي أحتاج إلى أن تكون صفرًا بدلاً من ذلك. عندما أجريت نفس العملية على البيانات النقطية الأخرى ، كان QGIS يضبط الخلايا الأخرى على 0 ، وهو أمر ضروري في هذه الحالة بالنسبة لي لإضافة النتيجة النقطية إلى خطوط نقطية أخرى لاحقًا.

هل من أفكار حول كيفية تجنب قيام QGIS بتعيين الخلايا على عدم وجود خلايا بيانات؟ وما هو سبب تعاملها بشكل مختلف مع البيانات النقطية من نفس التنسيق عند تطبيق نفس العملية باستخدام الآلة الحاسبة النقطية؟ كلا النقطتين هما .tif ولكن من مصادر مختلفة.


في QGIS ، أجد أن الآلة الحاسبة النقطية محدودة بعض الشيء ، ولكن يمكنك استخدام أداة معالجة SAGA "إعادة تصنيف خلايا الشبكة" (Processing Toolbox> SAGA> Grid-Tools

في المعلمات ، يمكنك تحديد "[1] النطاق" للطريقة ، وتوفير النطاق الخاص بك ، وتحديد 0 لـ "القيمة الجديدة للقيم الأخرى".


لقد عثرت للتو على أدوات SAGA والحاسبة النقطية الأفضل المتوفرة. لقد قمت بحل المشكلة باستخدام الصيغة التالية:

ifelse (مكافئ (أ ، 190) ، 1 ، 0)

التي تعيّن بنشاط جميع الخلايا بقيمة غير 190 إلى صفر.

تحرير: لقد وجدت للتو سبب تعامل QGIS بشكل مختلف أيضًا: كنت مخطئًا في التصريح بأن كلا النقطتين لهما نفس التنسيق. في الحالة الأولى ، كانت البيانات النقطية المدخلة بتنسيق ASCII ومجموعة أصفار QGIS. عند إجراء نفس العملية بتنسيق tif ، لا يقوم بتعيين أي قيم بيانات.


يلتمس قسم الطاقة من قسم التخطيط والتطوير في مقاطعة سانتا باربرا نصيحتك بشأن طاقة الرياح. لقد تلقوا منحة لبذر إنتاج طاقة الرياح على نطاق صغير من خلال دعم توربينات WES 250kW للتركيب داخل مقاطعة سانتا باربرا. تعمل هذه التوربينات على ارتفاعات محورية تتراوح بين 30 م و 50 م.

بالنظر إلى النفقات الرأسمالية للتوربينات (CAPEX) ، ونفقات التشغيل (OPEX) ، والعمر ، وتعرفة التغذية ، لن تكون WES 250kW مجدية اقتصاديًا إذا تم تشغيلها في مواقع ذات كثافة طاقة رياح أقل من 300 واط / م / م في المحور ارتفاع. بافتراض توزيع Weibull بقيمة Weibull k تبلغ 2.0 ، فإن كثافة طاقة الرياح 300 W / m / m تقابل متوسط ​​سرعة رياح سنوي يبلغ 6.4 م / ث.

يريد قسم الطاقة قائمة مرتبة من 10 مواقع محتملة ، يحتوي كل منها على 4 هكتارات متجاورة على الأقل ، تفي بمتطلبات ملاءمتها ، مكتوبة على النحو التالي:

  • ريح: يجب أن تحتوي المواقع على كثافة طاقة رياح كافية.
  • الطرق: يجب أن تكون المواقع في نطاق 7.5 كم من طريق رئيسي.
  • المطارات: لا يمكن أن تكون المواقع في نطاق 7.5 كم من المطار.
  • الحضاري: لا يمكن أن تكون المواقع في نطاق ميل واحد من منطقة حضرية قائمة.
  • إطلاق النار: لا يمكن أن تكون المواقع ضمن مناطق خطر الحريق
  • عام: لا يمكن أن تكون المواقع على أرض عامة

الجواب المختصر هو أن هذا مثير للجدل. على عكس النصيحة التي ذكرتها ، يتخذ الأشخاص في العديد من المجالات وسائل المقاييس الترتيبية وغالبًا ما يكونون سعداء وهذا يعني أن يفعلوا ما يريدون. أحد الأمثلة على ذلك هو متوسط ​​درجات النقاط أو ما يعادلها في العديد من الأنظمة التعليمية.

ومع ذلك ، فإن البيانات الترتيبية التي لا يتم توزيعها بشكل طبيعي ليست سببًا صالحًا ، لأن المتوسط ​​هو

تستخدم على نطاق واسع للتوزيعات غير العادية

محدد جيدًا رياضيًا للعديد من التوزيعات غير الطبيعية ، باستثناء بعض الحالات المرضية.

قد لا تكون فكرة جيدة استخدام الوسيلة في الممارسة إذا كانت البيانات بالتأكيد ليست موزعة بشكل طبيعي ، ولكن هذا مختلف.

سبب أقوى لعدم استخدام المتوسط ​​مع البيانات الترتيبية هو أن قيمته تعتمد على الاصطلاحات في الترميز. عادةً ما يتم اختيار الرموز الرقمية مثل 1 ، 2 ، 3 ، 4 فقط من أجل البساطة أو الراحة ، ولكن من حيث المبدأ يمكن أن تكون أيضًا 1 ، 23 ، 456 ، 7890 بقدر ما تتوافق مع ترتيب محدد كما هو معني. إن أخذ الوسيلة في كلتا الحالتين ينطوي على أخذ هذه الاتفاقيات حرفيًا (أي ، كما لو أن الأرقام ليست تعسفية ، ولكنها مبررة) ، ولا توجد أسباب صارمة للقيام بذلك. أنت بحاجة إلى مقياس فاصل يمكن أن تؤخذ فيه الفروق المتساوية بين القيم حرفيًا لتبرير أخذ الوسائل. أعتبر أن هذا هو الحجة الرئيسية ، ولكن كما أشرنا بالفعل ، غالبًا ما يتجاهلها الناس ويتعمدون ، لأنهم يجدون وسائل مفيدة ، بغض النظر عن ما يقوله علماء القياس.

هنا مثال إضافي. كثيرًا ما يُطلب من الأشخاص اختيار "أعارض بشدة". "أوافق بشدة" و (اعتمادًا جزئيًا على ما يريده البرنامج) يقوم الباحثون بتشفير ذلك كـ 1 .. 5 أو 0 .. 4 أو ما يريدون ، أو يعلنون عنه كعامل مرتب (أو أي مصطلح يستخدمه البرنامج). الترميز هنا تعسفي ومخفي عن الأشخاص الذين يجيبون على السؤال.

ولكن غالبًا ما يُسأل الأشخاص أيضًا (قل) على مقياس من 1 إلى 5 ، كيف تقيم شيئًا ما؟ الأمثلة كثيرة: مواقع الويب والرياضة وأنواع أخرى من المسابقات والتعليم. هنا يتم عرض مقياس على الأشخاص ويطلب منهم استخدامه. من المفهوم على نطاق واسع أن الأعداد غير الصحيحة منطقية ، ولكن يُسمح لك فقط باستخدام الأعداد الصحيحة كمصطلح. هل هذا مقياس ترتيبي؟ البعض يقول نعم، ويقول البعض لا. وبخلاف ذلك ، فإن جزءًا من المشكلة هو أن المقياس الترتيبي هو في حد ذاته منطقة ضبابية أو موضع نقاش.

ضع في اعتبارك مرة أخرى درجات العمل الأكاديمي ، لنقل من E إلى A. غالبًا ما يتم التعامل مع هذه الدرجات أيضًا عدديًا ، لنقل من 1 إلى 5 ، ويقوم الأشخاص بشكل روتيني بحساب متوسطات الطلاب والدورات والمدارس وما إلى ذلك وإجراء مزيد من التحليلات لهذه البيانات. في حين أنه يظل صحيحًا أن أي تعيين إلى الدرجات الرقمية هو تعسفي ولكنه مقبول طالما أنه يحافظ على النظام ، ومع ذلك في الممارسة العملية ، يعرف الأشخاص الذين يقومون بتعيين الدرجات وتلقيها أن الدرجات لها معادلات رقمية ويعرفون أنه سيتم حساب متوسط ​​الدرجات.

أحد الأسباب العملية لاستخدام الوسائل هو أن المتوسطات والأساليب غالبًا ما تكون ملخصات ضعيفة للمعلومات الموجودة في البيانات. افترض أن لديك مقياسًا يبدأ من لا أوافق بشدة إلى موافق بشدة وللتيسير على تلك النقاط من 1 إلى 5. تخيل الآن عينة واحدة مشفرة 1 ، 1 ، 2 ، 2 ، 2 وأخرى 1 ، 2 ، 2 ، 4 ، 5. الآن ارفع يديك إذا كنت تعتقد أن الوسيط والنمط هما الملخصات الوحيدة المبررة لأنها مقياس ترتيبي. الآن ارفع يديك إذا وجدت أن الوسيلة مفيدة أيضًا ، بغض النظر عما إذا كانت المبالغ محددة جيدًا ، وما إلى ذلك.

بطبيعة الحال ، سيكون المتوسط ​​عبارة عن ملخص شديد الحساسية إذا كانت الرموز عبارة عن مربعات أو مكعبات من 1 إلى 5 ، على سبيل المثال ، وقد لا يكون هذا ما تريده. (إذا كان هدفك هو التعرف على النشرات العالية بسرعة ، فقد يكون هذا هو ما تريده بالضبط!) ولكن هذا هو بالضبط السبب في أن الترميز التقليدي مع أكواد صحيحة متتالية يعد خيارًا عمليًا ، لأنه غالبًا ما يعمل جيدًا في الممارسة. هذه ليست حجة تحمل أي وزن مع منظري القياس ، ولا ينبغي لها ذلك ، ولكن يجب أن يهتم محللو البيانات بإنتاج ملخصات غنية بالمعلومات.

أتفق مع أي شخص يقول: استخدم التوزيع الكامل لترددات الدرجات ، لكن هذا ليس هو موضوع الخلاف.


5 إجابات 5

لا تنس حزمة rms ، بقلم فرانك هاريل. ستجد كل ما تحتاجه لتركيب GLM والتحقق من صحتها.

إليك مثال على لعبة (مع متنبئ واحد فقط):

الآن ، باستخدام وظيفة lrm ،

ستحصل قريبًا على الكثير من مؤشرات تناسب الطراز ، بما في ذلك Nagelkerke $ R ^ 2 $ ، مع الطباعة (mod1b):

هنا ، $ R ^ 2 = 0.445 $ ويتم حسابها على أنها $ left (1- exp (- text/ n) right) / left (1- exp (- (- 2L_0) / n) right) $ ، حيث LR هو $ chi ^ 2 $ stat (مقارنة بالنموذجين المتداخلين اللذين وصفتهما) ، بينما المقام هو فقط القيمة القصوى لـ $ R ^ 2 $. للحصول على نموذج مثالي ، نتوقع $ text= 2L_0 $ ، أي $ R ^ 2 = 1 $.

ناقش Ewout W. Steyerberg استخدام $ R ^ 2 $ مع GLM في كتابه نماذج التنبؤ السريري (Springer، 2009، § 4.2.2 pp.58-60). في الأساس ، العلاقة بين إحصاء LR و Nagelkerke $ R ^ 2 $ خطية تقريبًا (ستكون أكثر خطية مع حدوث منخفض). الآن ، كما تمت مناقشته في الخيط السابق الذي ربطته في تعليقي ، يمكنك استخدام مقاييس أخرى مثل إحصائية $ c $ التي تعادل إحصائية AUC (هناك أيضًا توضيح لطيف في المرجع أعلاه ، انظر الشكل 4.6).

للحصول بسهولة على صورة زائفة لـ McFadden $ R ^ 2 $ لطراز ملائم في R ، استخدم حزمة "pscl" بواسطة Simon Jackman واستخدم الأمر pR2. http://cran.r-project.org/web/packages/pscl/index.html

كن حذرًا عند حساب Pseudo- $ R ^ 2 $:

تم حساب McFadden's Pseudo- $ R ^ 2 $ على أنه $ R ^ 2_M = 1- frac<>_><>_> $ ، حيث $ ln hat_$ هو احتمال تسجيل الدخول للنموذج الكامل ، و $ ln hat_$ هو احتمال تسجيل الدخول للنموذج مع التقاطع فقط.

طريقتان لحساب Pseudo- $ R ^ 2 $:

استخدام الانحراف: منذ $ deviance = -2 * ln (L_) $، null.deviance = -2 * ln (L_)$

pR2 = 1 - mod $ deviance / mod $ null.deviance # يعمل مع glm

لكن النهج أعلاه لا يعمل مع Pseudo $ R ^ 2 $ خارج العينة

استخدم وظيفة "logLik" في R والتعريف (يعمل أيضًا في العينة)

1 ، الأسرة = ذات الحدين ، البيانات = العينة) 1- logLik (mod) / logLik (mod_null)

يمكن تعديل هذا بشكل طفيف لحساب Pseudo $ R ^ 2 $ خارج العينة

خارج العينة الزائفة R

عادةً ، يتم حساب الشكل الزائف خارج العينة- $ R ^ 2 $ على أنه $ R_p ^ 2 = 1− frac<>><>>، $ حيث $ L_$ هو احتمالية السجل لفترة خارج العينة بناءً على المعاملات المقدرة لفترة داخل العينة ، بينما $ L_$ هو احتمال السجل لنموذج الاعتراض فقط لفترة خارج العينة.

pred.out.link & lt- توقع (mod، outSample، type = "link") mod.out.null & lt- gam (افتراضي

1 ، الأسرة = ذات الحدين ، البيانات = الخارج) pR2.out & lt- 1 - sum (outSample $ y * pred.out.link - log (1 + exp (pred.out.link))) / logLik (mod.out. باطل)

agegp + tobgp * alcgp، data = esoph، family = ذو الحدين) واستدعاء model1 $ deviance و -2 * logLik (model1). $ endgroup $ & ndash توماس 2 نوفمبر 2019 الساعة 11:22

إذا كان الانحراف متناسبًا مع احتمالية السجل ، ويستخدم المرء التعريف (انظر على سبيل المثال McFadden's هنا)

ثم الزائفة $ R ^ 2 $ أعلاه ستكون $ 1 - frac <198.63> <958.66> $ = 0.7928

السؤال هو: هل تم الإبلاغ عن انحراف متناسب مع احتمالية تسجيل الدخول؟

إذا كان خارج العينة، إذن أعتقد أنه يجب حساب $ R ^ 2 $ باستخدام احتمالية السجل مثل $ R ^ 2 = 1- frac<>><>> $ ، حيث $ ll_$ هو احتمالية تسجيل بيانات الاختبار مع النموذج التنبئي الذي تمت معايرته في مجموعة التدريب ، و $ ll_$ هو احتمالية تسجيل بيانات الاختبار مع نموذج ثابت فقط مثبت على مجموعة التدريب ، ثم استخدم الثابت الملائم للتنبؤ بمجموعة الاختبار لحساب الاحتمالات وبالتالي الحصول على احتمالية تسجيل الدخول.


شاهد الفيديو: QGIS - Lavbund til sø, raster calculator, WCS, terrain profile, raster to vector, fix geometries, cl (شهر اكتوبر 2021).