انحدار (تحليل)
Regression analysis - Analyse de régression

الانحدار (تحليل -)

محمد زينو

نماذج الانحدار

المفهوم الرياضي للانحدار

الانحدار الخطي البسيط

الانحدار غير الخطي

 

يُعدّ تحليل الانحدار (الانكفاء) regression analysis إحدى طرائق الإحصاء الاستدلالي التي تُعنى بتفسير العلاقة بين متغيرين كمّيين أو أكثر، ويمكن بوساطتها التنبؤ بمتوسط قيم متغير عشوائي أو عدة متغيرات عشوائية على ضوء قيم وقياسات معلومة لمتغير عشوائي أو عدة متغيرات عشوائية أخرى.

تعود مسألة الانحدار إلى القرن الثامن عشر عندما استُخدمت في حل مسائل الملاحة الفلكية. وفي عام 1805 طور لوجندر Legendre طريقة المربعات الصغرى لتعيين موسطات parameters نموذج الانحدار. ثم بيّن غاوصGauss عام 1809 أن هذه الطريقة هي فعلاً الحل الأمثل عندما يكون توزع الأخطاء العشوائية طبيعياً. وقد استُخدمت هذه المنهجية في وقت لاحق في العلوم الفيزيائية حتى القرن التاسع عشر. وكان غالتون Galton من أوائل الذين استخدموا مصطلح «الانحدار إلى المعدل» ثم الانحدار، وذلك في دراسته لأطوال الآباء وأبنائهم في أواخر العام 1800. وكان للعالم بيرسون Pearson (1936-1851) الفضل في تطوير طرائق الانحدار والارتباط التي قدمها غالتون؛ بالمشاركة مع مجموعة من زملائه الآخرين. وهذا ما أحدث منعطفاً في العمل الإحصائي من حيث الأسلوب والتطبيقات الممكنة التي وجَدت استخداماً واسعاً في العلوم النفسية والطبية وعلم الاجتماع وعلم الاقتصاد والعلوم الحياتية.

نماذج الانحدار

تتوفر نماذج متعددة للانحدار تختلف بحسب طبيعة البيانات وتوزيعها وارتباط بعضها ببعض. فإذا احتوى نموذج الانحدار على متغير مستقل واحد سُمِّي بنموذج الانحدار البسيط simple regression model، وإذا احتوى على أكثر من متغير مستقل فهو نموذج الانحدار المتعددmultiple regression model ، ويمكن لنموذج الانحدار أن يكون خطياً linear أو غير خطي non- linear. تعتمد النماذج الآنفة الذكر على متغيرات كمّية، أما إذا كان المتغير التابع dependent variable فئوياً (له عدد محدود من الفئات، ومن ثمَّ له توزع غير طبيعي) فيجب استخدام نموذج آخر مثل نموذج الانحدار اللوجستي logistic regression؛ الذي يدرس العلاقة بين متغير الاستجابة response variable ذات الفئتين والمتغير المفسِّر explanatory variable الذي يمكن أن يكون مستمراً (كمياً) أو متقطعاً. وكما هو الحال في نموذج الانحدار المتعدد فإن نموذج الانحدار اللوجستي قد يكون متعدداً إذا استخدم أكثر من متغير مستقل التنبؤ.

من الأمثلة على مسائل الانحدار:

• التنبؤ بضغط الدم اعتماداً على وزن الشخص.

• التنبؤ بالوزن المفقود لمريض بدلالة عدد الأسابيع التي اتبع فيها نظاماً غذائياً معيناً.

• التنبؤ بمدى الالتزام بالعمل للأشخاص في الشركات بدلالة أعمارهم ومقدار كسبهم الشهري.

• التنبؤ بدرجات الحرارة في الأيام القادمة بدلالة عدة عوامل مناخية وجغرافية.

• ازدياد طول مسافة التوقف لسيارة ذات دفع قوي مع ازدياد سرعتها.

المفهوم الرياضي للانحدار

يُستَخدم نموذج الانحدار ليعبِّر عن العلاقة بين متغير تابع (X) (أيضاً يسمى متغير استجابة أو متغير خرج outcome variable) وبين واحد أو أكثر من المتغيرات المستقلة (X) independent variable (ويسمى أيضاً متغير تنبؤ predictor variable، أو متغير منحدر regressor variable أو متغير مفسِّر).

لا يُعدّ تحديد طبيعة المتغير تابعاً أو مستقلاً أمراً يسيراً، وفي بعض الأحيان قد يكون قراراً اعتباطياً من الباحث. ومثال ذلك اختيار المتغير المنحدر في دراسة العلاقة بين طول الشخص ووزنه.

وعموماً عندما يُقال عن متغيرين عشوائيين X و Y إنهما مرتبطان بعلاقة احتمالية، فهذا لا يعني أن تغيرات X تؤدي إلى تغيرات معينة لـ Y، وإنما فقط عندما تتغير X تميل Y إلى التغير زيادةً أو نقصاناً.

إذن: الارتباط والاستقلال بين المتغيرات العشوائية في الإحصاء مفهوم مختلف لما هو مألوف في الرياضيات، حيث يمكن حساب قيمة المقدار Y بدقة إذا كان مرتبطاً تابعياً مع X وفق علاقة محدَّدة، لذلك فإن الارتباط التابعي المعروف في الرياضيات هو الحد الأقصى للارتباط الاحتمالي القوي، في حين أن الحد الأدنى هو الاستقلالية التامة.

الانحدار الخطي البسيط

يُعدّ هذا النموذج من أبسط أشكال نماذج الانحدار، وله صيغة نظرية تُحسب من بيانات المجتمع الكلي، وتأخذ الشكل الآتي (العلاقة 1):

الوصف: D:\المجلد 3 تقانة اخراج\31\Image188627.jpg

حيث: الوصف: D:\المجلد 3 تقانة اخراج\31\Image188635.jpg: المتغير التابع، الوصف: D:\المجلد 3 تقانة اخراج\31\Image188642.jpg: المتغير المستقل، الوصف: D:\المجلد 3 تقانة اخراج\31\Image188651.jpgالحد الثابت أو موسط تقاطع خط الانحدار مع محور العينات، وهو مجهول على الأغلب يُطلب تقديره، الوصف: D:\المجلد 3 تقانة اخراج\31\Image188659.jpg: موسط الميل الوصف: D:\المجلد 3 تقانة اخراج\31\Image433172.jpg(ميل خط الانحدار على محور السينات) وهو مجهول على الأغلب يُطلب تقديره، الوصف: D:\المجلد 3 تقانة اخراج\31\Image188675.jpg: الخطأ العشوائي (ويسمى أيضاً المتبقي residual) وهو متغير عشوائي يمثل الفرق بين القيمة الحقيقية الوصف: D:\المجلد 3 تقانة اخراج\31\Image188683.jpgوالقيمة التقديرية الوصف: D:\المجلد 3 تقانة اخراج\31\Image188693.jpgبحيث الوصف: D:\المجلد 3 تقانة اخراج\31\Image188701.jpg، ويُفترض أن يتوزع طبيعياً بمتوسط يساوي الصفر وتباين ثابت (فرضية تجانس تباين الخطأ العشوائي homoscedasticity). يجب أن يحقق نموذج الانحدار الخطي البسيط - إضافةً إلى الفرضيات المتعلقة بالخطأ العشوائي الآنفة الذكر - فرضية خطية العلاقة بين الوصف: D:\المجلد 3 تقانة اخراج\31\Image188710.jpgوالوصف: D:\المجلد 3 تقانة اخراج\31\Image188718.jpg. يمكن التوثق من تحقق الفرضيات السابقة بوساطة مخططات الانتثار scatter plots (الشكل1)، حيث المحور الأفقي يمثل القيمة التقديرية الوصف: D:\المجلد 3 تقانة اخراج\31\Image188726.jpgوالمحور العمودي يمثل الأخطاء المعيارية لـ الوصف: D:\المجلد 3 تقانة اخراج\31\Image188733.jpg.

الشكل (1): أنواع الأخطاء العشوائية في نموذج الانحدار الخطي.

وفيه يشير الشكل (1-أ) إلى تحقق فرضيات النموذج، أما الشكل (1- ب) فيدل على أن هناك اتجاهاً عاماً في زيادة تباين الخطأ العشوائي كلما زادت الوصف: D:\المجلد 3 تقانة اخراج\31\Image188859.jpg، وهذا يعني عدم تجانس تباين الخطأ ويستوجب المعالجة، وكذلك يشير الشكل (1- ج) إلى المشكلة نفسها في تباين الخطأ العشوائي، في حين يحوي الشكل (1- د) إشارة واضحة إلى وجوب الاستعاضة عن النموذج الخطي بنماذج أخرى، مثلاً ينبغي هنا استخدام نموذج من الدرجة الثانية لعدم ملاءمة العلاقة الخطية المفترضة.

أما عن كيفية الحصول على الخط المستقيم الذي يمثل نقاط انتشار البيانات المدروسة تمثيلاً جيداً، فقد يكون بالإمكان تقدير ذلك بدراسة توزع النقاط، ومن ثمَّ تحديد الخط المستقيم المار منها نظرياً؛ لكن ذلك يؤدي إلى عدة مستقيمات تختلف باختلاف الأشخاص. لذا لا بد من تقدير الموسطين الوصف: D:\المجلد 3 تقانة اخراج\31\Image188867.jpgوالوصف: D:\المجلد 3 تقانة اخراج\31\Image188876.jpg من بيانات العينة بأفضل طريقة ممكنة، وإن إحدى الطرائق لتقديرها هي طريقة المربعات الصغرى، ومن ثَم الحصول على معادلة الخط المستقيم الأفضل المسمى خط الانحدار.

أ ـ طريقة المربعات الصغرى

تشير نظرية المربعات الصغرى (LSM) least squares method  إلى أن مجموع مربعات الفروق بين القيم الحقيقية للمتغير التابع والقيم المقدَّرة estimated له هي في النهاية الصغرى لها (أقل قيمة ممكنة)؛ أي يجب أن تكون: الوصف: D:\المجلد 3 تقانة اخراج\31\Image188883.jpgفي نهايتها الصغرى، ومنه يمكن الحصول على القيم الرقمية المقدَّرة لمعادلة الخط المستقيم الوصف: D:\المجلد 3 تقانة اخراج\31\Image188891.jpgبالشكل الآتي (العلاقتان 2 و3):

الوصف: D:\المجلد 3 تقانة اخراج\31\Image188901.jpgو

الوصف: D:\المجلد 3 تقانة اخراج\31\Image188909.jpg

حيث يمكن تفسير الوصف: D:\المجلد 3 تقانة اخراج\31\Image188918.jpgعلى أنها قيمة الوصف: D:\المجلد 3 تقانة اخراج\31\Image188926.jpgعندما الوصف: D:\المجلد 3 تقانة اخراج\31\Image188934.jpg، وحيث تمثل الوصف: D:\المجلد 3 تقانة اخراج\31\Image188941.jpgمعدل الزيادة في قيمة المتغير التابع لكل زيادة واحدة في المتغير المستقل. تسمح هاتان القيمتان المقدَّرتان من البيانات المدروسة بتحديد معادلة خط الانحدار.

ب- طريقة المربعات الصغرى الموزونة

إذا كانت فرضية تجانس الأخطاء العشوائية غير محقَّقة - وعلى الأغلب يكون ذلك في الدراسات المقطعية العرضانية cross-sectional studies- فيمكن استخدام طريقة المربعات الصغرى الموزونة التي تتلخص بضرب طرفي معادلة الانحدار بمقدار معين يمثل الوزن weight، وهذا من شأنه أن يجعل تباين الخطأ العشوائي ثابتاً.

مثال: لشرح كيفية عمل تحليل الانحدار البسيط تؤخذ البيانات الواردة في الجدول (1) التي تمثل ضغط الدم الوصف: D:\المجلد 3 تقانة اخراج\31\Image189032.jpgوالوزن الوصف: D:\المجلد 3 تقانة اخراج\31\Image189039.jpgلعينة من المرضى المصابين بمرض ارتفاع ضغط الدم وعددهم 10 مرضى.

الجدول (1) مثال على بيانات مدروسة يبين أثر وزن المريض على ضغط الدم

10

9

8

7

6

5

4

3

2

1

رقم المريض

113

105

110

103

98

94

86

83

78

77

ضغط الدم الوصف: D:\المجلد 3 تقانة اخراج\31\Image189011.jpg(مم زئبقي)

90

90

85

85

80

75

65

63

60

58

وزن المريض الوصف: D:\المجلد 3 تقانة اخراج\31\Image189022.jpg(كغ)

من هذه البيانات يمكن بسهولة ملاحظة ارتفاع ضغط الدم عند ازدياد الوزن. وبرسم العلاقة بين هذين المتغيرين بيانياً يتوضح- كما في الشكل (2)- إمكانية رسم خط مستقيم يشكل ملاءمة مرضية على الرغم من وجود نقاط لا تقع تماماً عليه.

الشكل (2): الخط المستقيم الموافق لبيانات الجدول (1).

للعثور على معادلة خط الانحدار رياضياً- وبافتراض أن النموذج المفترض خطي- ينبغي تقدير الموسطين الوصف: D:\المجلد 3 تقانة اخراج\31\Image189047.jpgوالوصف: D:\المجلد 3 تقانة اخراج\31\Image189058.jpg من بيانات العينة، ويجري ذلك باستخدام طريقة المربعات الصغرى.

الجدول (2): مثال على تطبيق طريقة المربعات الصغرى.

رقم المريض

الوصف: D:\المجلد 3 تقانة اخراج\31\Image189094.jpg

الوصف: D:\المجلد 3 تقانة اخراج\31\Image189106.jpg

الوصف: D:\المجلد 3 تقانة اخراج\31\Image189116.jpg

الوصف: D:\المجلد 3 تقانة اخراج\31\Image189125.jpg

1

58

77

4466

3364

2

60

78

4680

3600

3

63

83

5229

3969

4

65

86

5590

4225

5

75

94

7050

5625

6

80

98

7840

6400

7

85

103

8755

7225

8

85

110

9350

7225

9

90

105

9450

8100

10

90

113

10170

8100

المجموع

751

947

72580

57833

ويمكن الحصول على العلاقة (4):

الوصف: D:\المجلد 3 تقانة اخراج\31\Image460365.jpg

وعلى العلاقة (5):

الوصف: D:\المجلد 3 تقانة اخراج\31\Image189154.jpg

وتُعطى معادلة المستقيم الناتج (أو النموذج المقدَّر) بحسب طريقة المربعات الصغرى بالعلاقة (6):

الوصف: D:\المجلد 3 تقانة اخراج\31\Image189162.jpg

وتسمى معادلة خط الانحدار.

يشير هذا النموذج إلى علاقة طردية بين الوزن والضغط، وأن زيادة العمر سنة واحدة تؤدي إلى زيادة ضغط الدم بمقدار 1.019 مم زئبقي.

وعلى سبيل المثال يمكن التنبؤ باستخدام هذه المعادلة إلى أن مريضاً وزنه 82 كغ يبلغ ضغط الدم لديه 101.722 أو 102 مم زئبقي.

اختبار صلاحية نموذج الانحدار لتمثيل العلاقة بين متغيرين

لا تعني صلاحية أي نموذج رياضي أنه صحيح، بل إنه قد يؤدي إلى فرضيات قابلة للاختبار اختباراً جيداً.

إن أهم مؤشر لجودة نموذج الانحدار هو معامل التحديدr2  coefficient of determination ويعطى بالعلاقة (7)

الوصف: D:\المجلد 3 تقانة اخراج\31\Image465066.jpg

وهو يمثل نسبة مجموع المربعات العائدة إلى الانحدار (التباين المفسِّر) إلى مجموع المربعات الكلية. وهو في المثال السابق الوصف: D:\المجلد 3 تقانة اخراج\31\Image189180.jpg، ويعني ذلك أن من الممكن شرح نسبة قدرها 95% من التباينات في المتغير التابع للمتغير المستقل، وأن 5% من التباينات ترجع إلى عوامل عشوائية، منها مثلاً عدم الأخذ بالحسبان لمتغيرات مستقلة مهمة في نموذج الانحدار. وكلما اقتربت قيمة الوصف: D:\المجلد 3 تقانة اخراج\31\Image189188.jpgمن 100%، دلّ ذلك على جودة النموذج.

ويجب الانتباه لأن العلاقة التشاركية بين المتغيرات والتي تدل عليها القيمة المرتفعة لـ الوصف: D:\المجلد 3 تقانة اخراج\31\Image189198.jpg؛ وأيضاً جوهرية الموسطات الموجودة في النموذج، دلالتان على أن زيادة الوصف: D:\المجلد 3 تقانة اخراج\31\Image189206.jpgيرافقها زيادة في قيم الوصف: D:\المجلد 3 تقانة اخراج\31\Image189215.jpg، وهذا لا يعني مطلقاً أن الوصف: D:\المجلد 3 تقانة اخراج\31\Image189223.jpgتسبب تغيّر الوصف: D:\المجلد 3 تقانة اخراج\31\Image189231.jpg. ولا بدّ لتأكيد السببيَّة من فهم طبيعة المتغيرات ودعم ذلك بدراسة وتحليل منطقي. وفي المثال السابق ثمة سبب قوي للقول إن زيادة الوزن تؤثر في ارتفاع ضغط الإنسان، وكما هو معروف فإن السمنة تساعد على زيادة الإصابة بمرض السكر الذي يزيد من احتمال رفع ضغط الدم، ولكن زيادة الوزن ليست العامل الوحيد الذي يجب الأخذ به، فهناك مثلاً الاستعداد الوراثي وملح الطعام والضغط العصبي ونمط الحياة وقلة الحركة والخمول، إضافة إلى عوامل أخرى.

الاستيفاء والاستقراء

يجري التنبؤ بقيم المتغير التابع الوصف: D:\المجلد 3 تقانة اخراج\31\Image189238.jpgباستخدام معادلة خط الانحدار المقدَّرة. فإذا كانت قيم الوصف: D:\المجلد 3 تقانة اخراج\31\Image189247.jpgتقع ضمن حدود مشاهدات العينة المدروسة سمي التنبؤ بالاستيفاء interpolation، وإذا كانت قيم الوصف: D:\المجلد 3 تقانة اخراج\31\Image189256.jpgتقع خارج حدود بينات العينة المدروسة سمي التنبؤ بالاستقراء extrapolation، وتتعلق جودة التنبؤ بجودة النموذج. وتجدر الإشارة إلى أنه عند استخدام نموذج الانحدار لمجموعة من البيانات ينبغي الانتباه بعناية لحدود المشاهدات المدروسة أو نطاقها، وإن محاولة استخدام معادلة الانحدار للتنبؤ بقيم خارج هذه المشاهدات ستكون على الأغلب غير مناسبة، وربما تسفر عن إجابات غير صادقة. فمثلاً لا يمكن تطبيق النموذج الخطي الذي يربط زيادة الوزن بالسن للأطفال الصغار على البالغين أو المراهقين (فالاستقراء يخفق هنا)؛ إذ إن العلاقة بين زيادة الوزن والعمر ليست متسقة لجميع الفئات العمرية.

الانحدار غير الخطي

يشابه الانحدار غير الخطي في مفهومه الأساسي الانحدار الخطي، وذلك باستخدام متغير تابع يعتمد على متغيرات مستقلة تفيد بالتنبؤ. يكون الانحدار غير الخطي بسيطاً simple non-linear regression إذا حوى متغيراً مستقلاً واحداً، ويكون متعدداً multiple إذا حوى أكثر من متغير مستقل. تتميز معادلة الانحدار غير الخطية بأن متغيراتها ترتبط فيما بينها بطريقة غير خطية، فهي معادلة منحنٍ وليست معادلة خط مستقيم كما في نموذج الانحدار الخطي. تأتي أهمية نماذج الانحدار غير الخطي من حاجة معظم الظواهر الطبيعية والاقتصادية والبيولوجية والفيزيائية إلى عوامل تنبئية تستند الى تابع له شكل محدَّد، وهو غير خطي غالباً. فمثلاً علاقة معدل التكلفة بكمية الإنتاج لها الشكل الوصف: D:\المجلد 3 تقانة اخراج\31\Image189265.jpg، وهي معادلة غير خطية من الدرجة الثانية وتسمى علاقة الانحدار التربيعي (الشكل 3).

الشكل (3): مثال على منحني انحدار غير خطي من الدرجة الثانية.

يجب الانتباه إلى أن مصطلح «علاقة غير خطية» يشير في جوهره إلى الموسطات المجهولة في النموذج وليس إلى العلاقة بين الوصف: D:\المجلد 3 تقانة اخراج\31\Image189272.jpgوالوصف: D:\المجلد 3 تقانة اخراج\31\Image189280.jpg.

استخدام تحليل الانحدار في الحزم البرمجية الإحصائية

صار تحليل البيانات data analysis ميسراً وسهلاً نظراً للتطور الهائل والسريع في الحزم الإحصائية الحاسوبية المتكاملة لإدخال البيانات الرقمية وتحليلها، وتمتاز هذه البرمجيات الإحصائية بالدقة والسرعة العالية في معالجة البيانات التي يزداد حجمها مع التطور العلمي. ويتوفر العديد من البرمجيات الإحصائية المزوَّدة بوظائف إحصائية جاهزة، مثل البرمجية الإحصائية الواسعة الانتشار، وهي الحزمة الإحصائية للعلوم الاجتماعية (SPSS) Statistical Package for Social Sciences  التي لا تسمح فقط بإمكانية تحليل بيانات العلوم الاجتماعية والتي كانت سبباً مباشراً في تطويرها، وإنما تشتمل في إصداراتها الحديثة على معظم الاختبارات الإحصائية المشهورة لجميع أنواع بيانات العلوم الأخرى والتي جعلت منها أداة فعالة لاستخدامها في شتى أنواع البحوث العلمية. كما أن هذه البرمجية تتوافق مع معظم البرمجيات الأخرى لقراءة البيانات.

وثمة أيضاً حزم برمجية لا تقل أهمية عن البرمجية SPSS بل إن بعضها يتفوق عليها، ويختلف بعضها عن بعض بمكوِّناتها وسرعة إنجاز التحليل أو وضوح الأشكال التخطيطية الناتجة. من هذه البرمجيات مثلاً S-PLUS, R, SAS, Minitab، وكمثال على الحزم البرمجية الإحصائية البسيطة التي تساعد على إجراء التحليلات الإحصائية الأساسية (منها تحليل الانحدار بشكله البسيط) برنامج مايكروسوفت إكسل MS Excel المعروف لكل مستخدمي الحاسوب.

مراجع للاستزادة:

- A. Gelman and J. Hill, Data Analysis using Regression and Multilevel / Hierarchical Models, Cambridge University Press, 2007.

- J. B. Gray, Introduction to linear Regression Analysis, John Wiley & Sons, 2002.

- S. Weisberg, Applied Linear Regression, John Wiley & Sons, 2005.


- المجلد : المجلد الثالث مشاركة :

بحث ضمن الموسوعة

من نحن ؟

الموسوعة إحدى المنارات التي يستهدي بها الطامحون إلى تثقيف العقل، والراغبون في الخروج من ظلمات الجهل الموسوعة وسيلة لا غنى عنها لاستقصاء المعارف وتحصيلها، ولاستجلاء غوامض المصطلحات ودقائق العلوم وحقائق المسميات وموسوعتنا العربية تضع بين يديك المادة العلمية الوافية معزَّزة بالخرائط والجداول والبيانات والمعادلات والأشكال والرسوم والصور الملونة التي تم تنضيدها وإخراجها وطبعها بأحدث الوسائل والأجهزة. تصدرها: هيئة عامة ذات طابع علمي وثقافي، ترتبط بوزير الثقافة تأسست عام 1981 ومركزها دمشق 1