الانحدار (تحليل-)
انحدار (تحليل)
Regression analysis - Analyse de régression
محمد زينو
يُعدّ تحليل الانحدار (الانكفاء) regression analysis إحدى طرائق الإحصاء الاستدلالي التي تُعنى بتفسير العلاقة بين متغيرين كمّيين أو أكثر، ويمكن بوساطتها التنبؤ بمتوسط قيم متغير عشوائي أو عدة متغيرات عشوائية على ضوء قيم وقياسات معلومة لمتغير عشوائي أو عدة متغيرات عشوائية أخرى.
تعود مسألة الانحدار إلى القرن الثامن عشر عندما استُخدمت في حل مسائل الملاحة الفلكية. وفي عام 1805 طور لوجندر Legendre طريقة المربعات الصغرى لتعيين موسطات parameters نموذج الانحدار. ثم بيّن غاوصGauss عام 1809 أن هذه الطريقة هي فعلاً الحل الأمثل عندما يكون توزع الأخطاء العشوائية طبيعياً. وقد استُخدمت هذه المنهجية في وقت لاحق في العلوم الفيزيائية حتى القرن التاسع عشر. وكان غالتون Galton من أوائل الذين استخدموا مصطلح «الانحدار إلى المعدل» ثم الانحدار، وذلك في دراسته لأطوال الآباء وأبنائهم في أواخر العام 1800. وكان للعالم بيرسون Pearson (1936-1851) الفضل في تطوير طرائق الانحدار والارتباط التي قدمها غالتون؛ بالمشاركة مع مجموعة من زملائه الآخرين. وهذا ما أحدث منعطفاً في العمل الإحصائي من حيث الأسلوب والتطبيقات الممكنة التي وجَدت استخداماً واسعاً في العلوم النفسية والطبية وعلم الاجتماع وعلم الاقتصاد والعلوم الحياتية.
تتوفر نماذج متعددة للانحدار تختلف بحسب طبيعة البيانات وتوزيعها وارتباط بعضها ببعض. فإذا احتوى نموذج الانحدار على متغير مستقل واحد سُمِّي بنموذج الانحدار البسيط simple regression model، وإذا احتوى على أكثر من متغير مستقل فهو نموذج الانحدار المتعددmultiple regression model ، ويمكن لنموذج الانحدار أن يكون خطياً linear أو غير خطي non- linear. تعتمد النماذج الآنفة الذكر على متغيرات كمّية، أما إذا كان المتغير التابع dependent variable فئوياً (له عدد محدود من الفئات، ومن ثمَّ له توزع غير طبيعي) فيجب استخدام نموذج آخر مثل نموذج الانحدار اللوجستي logistic regression؛ الذي يدرس العلاقة بين متغير الاستجابة response variable ذات الفئتين والمتغير المفسِّر explanatory variable الذي يمكن أن يكون مستمراً (كمياً) أو متقطعاً. وكما هو الحال في نموذج الانحدار المتعدد فإن نموذج الانحدار اللوجستي قد يكون متعدداً إذا استخدم أكثر من متغير مستقل التنبؤ.
من الأمثلة على مسائل الانحدار:
• التنبؤ بضغط الدم اعتماداً على وزن الشخص.
• التنبؤ بالوزن المفقود لمريض بدلالة عدد الأسابيع التي اتبع فيها نظاماً غذائياً معيناً.
• التنبؤ بمدى الالتزام بالعمل للأشخاص في الشركات بدلالة أعمارهم ومقدار كسبهم الشهري.
• التنبؤ بدرجات الحرارة في الأيام القادمة بدلالة عدة عوامل مناخية وجغرافية.
• ازدياد طول مسافة التوقف لسيارة ذات دفع قوي مع ازدياد سرعتها.
يُستَخدم نموذج الانحدار ليعبِّر عن العلاقة بين متغير تابع (X) (أيضاً يسمى متغير استجابة أو متغير خرج outcome variable) وبين واحد أو أكثر من المتغيرات المستقلة (X) independent variable (ويسمى أيضاً متغير تنبؤ predictor variable، أو متغير منحدر regressor variable أو متغير مفسِّر).
لا يُعدّ تحديد طبيعة المتغير تابعاً أو مستقلاً أمراً يسيراً، وفي بعض الأحيان قد يكون قراراً اعتباطياً من الباحث. ومثال ذلك اختيار المتغير المنحدر في دراسة العلاقة بين طول الشخص ووزنه.
وعموماً عندما يُقال عن متغيرين عشوائيين X و Y إنهما مرتبطان بعلاقة احتمالية، فهذا لا يعني أن تغيرات X تؤدي إلى تغيرات معينة لـ Y، وإنما فقط عندما تتغير X تميل Y إلى التغير زيادةً أو نقصاناً.
إذن: الارتباط والاستقلال بين المتغيرات العشوائية في الإحصاء مفهوم مختلف لما هو مألوف في الرياضيات، حيث يمكن حساب قيمة المقدار Y بدقة إذا كان مرتبطاً تابعياً مع X وفق علاقة محدَّدة، لذلك فإن الارتباط التابعي المعروف في الرياضيات هو الحد الأقصى للارتباط الاحتمالي القوي، في حين أن الحد الأدنى هو الاستقلالية التامة.
يُعدّ هذا النموذج من أبسط أشكال نماذج الانحدار، وله صيغة نظرية تُحسب من بيانات المجتمع الكلي، وتأخذ الشكل الآتي (العلاقة 1):
حيث: : المتغير التابع، : المتغير المستقل، الحد الثابت أو موسط تقاطع خط الانحدار مع محور العينات، وهو مجهول على الأغلب يُطلب تقديره، : موسط الميل (ميل خط الانحدار على محور السينات) وهو مجهول على الأغلب يُطلب تقديره، : الخطأ العشوائي (ويسمى أيضاً المتبقي residual) وهو متغير عشوائي يمثل الفرق بين القيمة الحقيقية والقيمة التقديرية بحيث ، ويُفترض أن يتوزع طبيعياً بمتوسط يساوي الصفر وتباين ثابت (فرضية تجانس تباين الخطأ العشوائي homoscedasticity). يجب أن يحقق نموذج الانحدار الخطي البسيط - إضافةً إلى الفرضيات المتعلقة بالخطأ العشوائي الآنفة الذكر - فرضية خطية العلاقة بين و. يمكن التوثق من تحقق الفرضيات السابقة بوساطة مخططات الانتثار scatter plots (الشكل1)، حيث المحور الأفقي يمثل القيمة التقديرية والمحور العمودي يمثل الأخطاء المعيارية لـ .
الشكل (1): أنواع الأخطاء العشوائية في نموذج الانحدار الخطي. |
وفيه يشير الشكل (1-أ) إلى تحقق فرضيات النموذج، أما الشكل (1- ب) فيدل على أن هناك اتجاهاً عاماً في زيادة تباين الخطأ العشوائي كلما زادت ، وهذا يعني عدم تجانس تباين الخطأ ويستوجب المعالجة، وكذلك يشير الشكل (1- ج) إلى المشكلة نفسها في تباين الخطأ العشوائي، في حين يحوي الشكل (1- د) إشارة واضحة إلى وجوب الاستعاضة عن النموذج الخطي بنماذج أخرى، مثلاً ينبغي هنا استخدام نموذج من الدرجة الثانية لعدم ملاءمة العلاقة الخطية المفترضة.
أما عن كيفية الحصول على الخط المستقيم الذي يمثل نقاط انتشار البيانات المدروسة تمثيلاً جيداً، فقد يكون بالإمكان تقدير ذلك بدراسة توزع النقاط، ومن ثمَّ تحديد الخط المستقيم المار منها نظرياً؛ لكن ذلك يؤدي إلى عدة مستقيمات تختلف باختلاف الأشخاص. لذا لا بد من تقدير الموسطين و من بيانات العينة بأفضل طريقة ممكنة، وإن إحدى الطرائق لتقديرها هي طريقة المربعات الصغرى، ومن ثَم الحصول على معادلة الخط المستقيم الأفضل المسمى خط الانحدار.
أ ـ طريقة المربعات الصغرى
تشير نظرية المربعات الصغرى (LSM) least squares method إلى أن مجموع مربعات الفروق بين القيم الحقيقية للمتغير التابع والقيم المقدَّرة estimated له هي في النهاية الصغرى لها (أقل قيمة ممكنة)؛ أي يجب أن تكون: في نهايتها الصغرى، ومنه يمكن الحصول على القيم الرقمية المقدَّرة لمعادلة الخط المستقيم بالشكل الآتي (العلاقتان 2 و3):
و
حيث يمكن تفسير على أنها قيمة عندما ، وحيث تمثل معدل الزيادة في قيمة المتغير التابع لكل زيادة واحدة في المتغير المستقل. تسمح هاتان القيمتان المقدَّرتان من البيانات المدروسة بتحديد معادلة خط الانحدار.
ب- طريقة المربعات الصغرى الموزونة
إذا كانت فرضية تجانس الأخطاء العشوائية غير محقَّقة - وعلى الأغلب يكون ذلك في الدراسات المقطعية العرضانية cross-sectional studies- فيمكن استخدام طريقة المربعات الصغرى الموزونة التي تتلخص بضرب طرفي معادلة الانحدار بمقدار معين يمثل الوزن weight، وهذا من شأنه أن يجعل تباين الخطأ العشوائي ثابتاً.
مثال: لشرح كيفية عمل تحليل الانحدار البسيط تؤخذ البيانات الواردة في الجدول (1) التي تمثل ضغط الدم والوزن لعينة من المرضى المصابين بمرض ارتفاع ضغط الدم وعددهم 10 مرضى.
|
من هذه البيانات يمكن بسهولة ملاحظة ارتفاع ضغط الدم عند ازدياد الوزن. وبرسم العلاقة بين هذين المتغيرين بيانياً يتوضح- كما في الشكل (2)- إمكانية رسم خط مستقيم يشكل ملاءمة مرضية على الرغم من وجود نقاط لا تقع تماماً عليه.
الشكل (2): الخط المستقيم الموافق لبيانات الجدول (1). |
للعثور على معادلة خط الانحدار رياضياً- وبافتراض أن النموذج المفترض خطي- ينبغي تقدير الموسطين و من بيانات العينة، ويجري ذلك باستخدام طريقة المربعات الصغرى.
|
ويمكن الحصول على العلاقة (4):
وعلى العلاقة (5):
وتُعطى معادلة المستقيم الناتج (أو النموذج المقدَّر) بحسب طريقة المربعات الصغرى بالعلاقة (6):
وتسمى معادلة خط الانحدار.
يشير هذا النموذج إلى علاقة طردية بين الوزن والضغط، وأن زيادة العمر سنة واحدة تؤدي إلى زيادة ضغط الدم بمقدار 1.019 مم زئبقي.
وعلى سبيل المثال يمكن التنبؤ باستخدام هذه المعادلة إلى أن مريضاً وزنه 82 كغ يبلغ ضغط الدم لديه 101.722 أو 102 مم زئبقي.
اختبار صلاحية نموذج الانحدار لتمثيل العلاقة بين متغيرين
لا تعني صلاحية أي نموذج رياضي أنه صحيح، بل إنه قد يؤدي إلى فرضيات قابلة للاختبار اختباراً جيداً.
إن أهم مؤشر لجودة نموذج الانحدار هو معامل التحديدr2 coefficient of determination ويعطى بالعلاقة (7)
وهو يمثل نسبة مجموع المربعات العائدة إلى الانحدار (التباين المفسِّر) إلى مجموع المربعات الكلية. وهو في المثال السابق ، ويعني ذلك أن من الممكن شرح نسبة قدرها 95% من التباينات في المتغير التابع للمتغير المستقل، وأن 5% من التباينات ترجع إلى عوامل عشوائية، منها مثلاً عدم الأخذ بالحسبان لمتغيرات مستقلة مهمة في نموذج الانحدار. وكلما اقتربت قيمة من 100%، دلّ ذلك على جودة النموذج.
ويجب الانتباه لأن العلاقة التشاركية بين المتغيرات والتي تدل عليها القيمة المرتفعة لـ ؛ وأيضاً جوهرية الموسطات الموجودة في النموذج، دلالتان على أن زيادة يرافقها زيادة في قيم ، وهذا لا يعني مطلقاً أن تسبب تغيّر . ولا بدّ لتأكيد السببيَّة من فهم طبيعة المتغيرات ودعم ذلك بدراسة وتحليل منطقي. وفي المثال السابق ثمة سبب قوي للقول إن زيادة الوزن تؤثر في ارتفاع ضغط الإنسان، وكما هو معروف فإن السمنة تساعد على زيادة الإصابة بمرض السكر الذي يزيد من احتمال رفع ضغط الدم، ولكن زيادة الوزن ليست العامل الوحيد الذي يجب الأخذ به، فهناك مثلاً الاستعداد الوراثي وملح الطعام والضغط العصبي ونمط الحياة وقلة الحركة والخمول، إضافة إلى عوامل أخرى.
الاستيفاء والاستقراء
يجري التنبؤ بقيم المتغير التابع باستخدام معادلة خط الانحدار المقدَّرة. فإذا كانت قيم تقع ضمن حدود مشاهدات العينة المدروسة سمي التنبؤ بالاستيفاء interpolation، وإذا كانت قيم تقع خارج حدود بينات العينة المدروسة سمي التنبؤ بالاستقراء extrapolation، وتتعلق جودة التنبؤ بجودة النموذج. وتجدر الإشارة إلى أنه عند استخدام نموذج الانحدار لمجموعة من البيانات ينبغي الانتباه بعناية لحدود المشاهدات المدروسة أو نطاقها، وإن محاولة استخدام معادلة الانحدار للتنبؤ بقيم خارج هذه المشاهدات ستكون على الأغلب غير مناسبة، وربما تسفر عن إجابات غير صادقة. فمثلاً لا يمكن تطبيق النموذج الخطي الذي يربط زيادة الوزن بالسن للأطفال الصغار على البالغين أو المراهقين (فالاستقراء يخفق هنا)؛ إذ إن العلاقة بين زيادة الوزن والعمر ليست متسقة لجميع الفئات العمرية.
يشابه الانحدار غير الخطي في مفهومه الأساسي الانحدار الخطي، وذلك باستخدام متغير تابع يعتمد على متغيرات مستقلة تفيد بالتنبؤ. يكون الانحدار غير الخطي بسيطاً simple non-linear regression إذا حوى متغيراً مستقلاً واحداً، ويكون متعدداً multiple إذا حوى أكثر من متغير مستقل. تتميز معادلة الانحدار غير الخطية بأن متغيراتها ترتبط فيما بينها بطريقة غير خطية، فهي معادلة منحنٍ وليست معادلة خط مستقيم كما في نموذج الانحدار الخطي. تأتي أهمية نماذج الانحدار غير الخطي من حاجة معظم الظواهر الطبيعية والاقتصادية والبيولوجية والفيزيائية إلى عوامل تنبئية تستند الى تابع له شكل محدَّد، وهو غير خطي غالباً. فمثلاً علاقة معدل التكلفة بكمية الإنتاج لها الشكل ، وهي معادلة غير خطية من الدرجة الثانية وتسمى علاقة الانحدار التربيعي (الشكل 3).
الشكل (3): مثال على منحني انحدار غير خطي من الدرجة الثانية. |
يجب الانتباه إلى أن مصطلح «علاقة غير خطية» يشير في جوهره إلى الموسطات المجهولة في النموذج وليس إلى العلاقة بين و.
استخدام تحليل الانحدار في الحزم البرمجية الإحصائية
صار تحليل البيانات data analysis ميسراً وسهلاً نظراً للتطور الهائل والسريع في الحزم الإحصائية الحاسوبية المتكاملة لإدخال البيانات الرقمية وتحليلها، وتمتاز هذه البرمجيات الإحصائية بالدقة والسرعة العالية في معالجة البيانات التي يزداد حجمها مع التطور العلمي. ويتوفر العديد من البرمجيات الإحصائية المزوَّدة بوظائف إحصائية جاهزة، مثل البرمجية الإحصائية الواسعة الانتشار، وهي الحزمة الإحصائية للعلوم الاجتماعية (SPSS) Statistical Package for Social Sciences التي لا تسمح فقط بإمكانية تحليل بيانات العلوم الاجتماعية والتي كانت سبباً مباشراً في تطويرها، وإنما تشتمل في إصداراتها الحديثة على معظم الاختبارات الإحصائية المشهورة لجميع أنواع بيانات العلوم الأخرى والتي جعلت منها أداة فعالة لاستخدامها في شتى أنواع البحوث العلمية. كما أن هذه البرمجية تتوافق مع معظم البرمجيات الأخرى لقراءة البيانات.
وثمة أيضاً حزم برمجية لا تقل أهمية عن البرمجية SPSS بل إن بعضها يتفوق عليها، ويختلف بعضها عن بعض بمكوِّناتها وسرعة إنجاز التحليل أو وضوح الأشكال التخطيطية الناتجة. من هذه البرمجيات مثلاً S-PLUS, R, SAS, Minitab، وكمثال على الحزم البرمجية الإحصائية البسيطة التي تساعد على إجراء التحليلات الإحصائية الأساسية (منها تحليل الانحدار بشكله البسيط) برنامج مايكروسوفت إكسل MS Excel المعروف لكل مستخدمي الحاسوب.
مراجع للاستزادة: - A. Gelman and J. Hill, Data Analysis using Regression and Multilevel / Hierarchical Models, Cambridge University Press, 2007. - J. B. Gray, Introduction to linear Regression Analysis, John Wiley & Sons, 2002. - S. Weisberg, Applied Linear Regression, John Wiley & Sons, 2005. |
- المجلد : المجلد الثالث مشاركة :