تحري المعطيات
تحري معطيات
Data mining - Fouille de données
تحري المعطيات
يعد تحري المعطيات data mining من المفهومات الجديدة في الهندسة المعلوماتية، ظهر نتيجة التطور الكبير الذي شهده استخدام قواعد المعطيات database في النصف الثاني من تسعينات القرن العشرين، وتلازم ظهوره مع الحاجة إلى مايسمى «اكتشاف المعرفة»knowledge discovery.
أتاح تطور التقانات المعلوماتية إمكانات واسعة للتعامل مع مقادير كبيرة من المعطيات، ووفر الوسائل اللازمة لتخزينها وتعديلها واستخراج المعلومات منها لدى المؤسسات التي تستخدم الوسائل المعلوماتية ويعتمد عملها اعتماداً كبيراً على الأنظمة المعلوماتية والبيانات مثل المصارف وشركات التأمين وغيرها.
إن النمو السريع لحاجات المؤسسات وزيادة حجوم مخازن المعطيات الحديثة التي يجري تجميعها على مراحل زمنية طويلة من جهة، واختلاف طبيعة المعطيات التي يمكن تخزينها من جهة أخرى، جعل الطرق الإحصائية التقليدية قاصرة عن تحقيق كل متطلبات تحليل المعطيات، الأمر الذي استدعى تطوير طرائق جديدة تستخدم تقانات الذكاء الصنعي في تحليل ذلك الكم الهائل من المعطيات، واستخلاص مايهم المعرفة المفيدة. وأدت هذه التقانات والأدوات إلى ظهور ما سُمي اكتشاف المعرفة من قاعدة المعطياتknowledge discovery in databases (KDD) الذي عدّ فرعاً مستقلاً بذاته من فروع المعلوماتية. وقد عُقدت تحت شعاره عدّة مؤتمرات كان أولها عام1991، وصدرت مجلة خاصة بهذا العلم عام 1997 تدعى Fayyad، وأجريت بحوث عدّة في مجاله والمجالات الأخرى المرتبطة به من بينها تقانات قواعد المعطيات والإحصاء والتعلم الآلي.
من الصعب إعطاء تعريف دقيق لعملية اكتشاف المعرفة من قواعد المعطيات كونها عملية معقدة تحاكي عمليات الاكتشاف التي يقوم بها الجهاز العصبي لدى الإنسان، والتعريف الأكثر شيوعاً هو: «عملية مركبة تهدف إلى تحديد الأجزاء المفيدة والمفهومة والجديدة من المعطيات». غالباً ما يستخدم التعبيران «تحري المعطيات» و«اكتشاف المعرفة» مترادفين، ومن الشائع استخدام مصطلح «تحري المعطيات» في مجال الصناعة، أما مصطلح «اكتشاف المعرفة» فتعبير شائع في مجال الأبحاث العلمية. وعلى أساس المنحى العلمي فإن عملية «تحري المعطيات» ليست مرحلة واحدة من مراحل «اكتشاف المعرفة». وتتألف من تحليل المعطيات، وخوارزميات الاكتشاف التي تنتج في زمن مقبول عينات خاصة من المعطيات.
تحري المعطيات وأدوات الاستعلام
ثمة فروق واضحة بين تحري المعطيات وطرائق الاستعلام ولغات الاستعلام الشائعة التي توفرها معظم نظم إدارة قواعد المعطيات، مثل لغة SQL. ففي حين صُممت لغات الاستعلام بهدف تقديم وسائل تمكن مستخدمها من تحديد المعطيات التي يود استخراجها من قاعدة ما، واختبار الفرضيات التي وضعها بناءً على المعطيات أو القيم المُستخرجة، صممت أدوات تحري المعطيات لتضع الفرضيات وتختبرها وتستنتج منها معلومات جديدة. ولتوضيح هذه الفكرة يمكن الموازنة بين هذين المنحيين في المثال الآتي: تريد إحدى شركات تصنيع الحواسيب معرفة معدلات بيع منتجاتها والوسائل الكفيلة بتحسين مردودها. فتبدأ بدراسة كل منتج من منتجاتها لتحديد معدل البيع في بعض مناطق العالم وتوازن بين هذه المعدلات لمعرفة مدى قبول المنتج في تلك المناطق. ولتحقيق ذلك يمكن استخدام إحدى لغات الاستعلام مثل SQL، ثم تدرس العلاقة بين متوسط دخل ا لفرد في كل دولة وعدد المنتجات التي تشتريها تلك الدولة سنوياً وهكذا، وفي كل مرة هناك فرضية يجري إثباتها أو نفيها. أما تقانات تحري المعطيات فإنها تعنى بالإجابة على السؤال الأعم من هذه الأسئلة الفرعية مثل «هل لاقى منتج ما نجاحاً كافياً، وماهي العوائق التي تحول دون الحصول على النجاح المطلوب، وما هي طرق تذليل تلك العقبات؟». لاتتطلب أداة التحري في هذه الحالة أي فرضيات، إنما تقوم بعملية الفرز والتصنيف والتحليل لاكتشاف العلاقات والمعلومات المخفية التي لا يمكن ملاحظتها دوماً.
وعموماً يمكن القول إنه في حال معرفة المطلوب تماماً، يمكن استخدام لغات الاستفسار مثل SQL، أما إذا كان ما يريده المستخدم غير واضح، ولديه فرضيات أو معايير، فلا بد من اللجوء إلى تقانات تحري المعطيات التي صار لها أهمية كبيرة لغموض المطلوب في أكثر الحالات.
التقانات المستخدمة في تحري المعطيات
ثمة طيف واسع من التقانات المستخدمة في تحري المعطيات يتميز كل منها بخصائص فريدة لاتوفرها التقانات الأخرى، ولذلك فإن اختيار تقانة التعرف الملائمة لحالة معينة ليس بالأمر السهل. ويمكن حصر أهم هذه التقانات بما يلي:
ـ أدوات الاستعلام query tools ومنها لغة SQL وغيرها. وهي الخطوة الأولى في عملية تحري المعطيات التي تستخدم أدوات استعلام تقليدية لمعرفة بنية المعطيات الأساسية بتطبيق خوارزميات تحليل معقدة.
ـ التقنيات الإحصائية statistical techniques.
ـ الإظهار visualization وهي طريقة مفيدة في استخلاص عينات من مجموعة المعطيات، تطبق في بداية عملية تحري المعطيات، لأنها تعطي فكرة جيدة حول كفاية المعطيات والعينات التي يمكن استخلاصها منها.
ـ أشجار القرار decision trees وهي تقانة مفيدة في تصنيف المعطيات وفقاً لمجموعة من الخواص المتدرجة التي تشكل شجرة القرار.
ـ القواعد المترابطة association rules.
ـ الشبكات العصبونية neural networks التي تقوم على محاكاة الدماغ البشري وكيفية التعلم والتعلم الذاتي، ومن ثمّ تحول عملية تحري المعطيات إلى قيم يمكن إرسالها إلى مداخل عقد الشبكة.
ـ الخوارزميات الجينية genetic algorithms التي اشتقت من علم البيولوجية والوراثة، وهي نوع متطور من استراتيجيات التعلم، تقوم على نظرية التطور، ويجري تحويل مشكلة تحري المعطيات إلى مجموعة من سلاسل صبغيات.
فإذا توصلت إحدى هذه التقنيات إلى إيجاد شكل مناسب، فبإمكان بقية التقنيات إيجاد هذا الشكل وتترجم المشكلة إلى تقنية التعلم learning technique ومن ثمّ يقوم مختصّ بإيجاد التمثيل الهندسي للشكل الناتج.
أمثلة عن أهمية تطبيق تقانات تحري المعطيات:
يمكن بيان أهمية تطبيق تقانات تحري المعطيات في مثال بسيط يعرض وضع شركة توزيع، تتلقى طلبات شراء من المواطنين، تُدخل هذه الطلبات في نظام معلوماتي قبل إرسال المواد والبضائع التي تتضمنها هذه الطلبات إلى الزبائن. بعد العمل مدة طويلة بهذه الطريقة، سوف يتوافر لدى هذه الشركة قاعدة معطيات مهمة تحتوي على المعلومات التي تتضمنها طلبات الزبائن في تلك المرحلة، وسوف تكون هذه القاعدة مصدراً مهماً للمعلومات، تستفيد منه الشركة في اتخاذ القرارات المناسبة لعملها، ووضع خططها المستقبلية وتحديد مجموعات الزبائن التي تتعامل معها، ومن ثمّ تصنيفها وفقاً للمناطق السكنية، أو الفئات العمرية، أو المنتجات المطلوبة، أوغيرها من المعايير البسيطة أو المركبة. كما تستطيع الشركة دراسة وسائل التسويق والدعاية التي تستخدمها، ومردود هذه الوسائل. فقد تكتشف الشركة أن عدد زبائنها الذين تعرفوا على منتجاتها من الرسائل البريدية التي أرسلتها إلى سكان منطقة سكنية معينة لم يتجاوز نسبة 4٪، وأن الربح الذي حققته من بيع منتجاتها لهذه الشريحة من الزبائن لا يغطي ما أنفقته في إرسال هذه الرسائل، ومن ثمّ لابد من إيجاد وسائل ترويج أكثر ملاءمة مثل الإعلان عن تخفيضات في أسعار بعض المنتجات أو توفير طرق تسديد تناسب مستوى دخلهم. كما يمكن تطبيق تقانات أكثر تعقيداً مثل الشبكات العصبونية لمحاكاة عملية إرسال الإعلانات بالبريد وتجاوب الزبائن مع هذه الرسائل. تتعلم الشركة من المعلومات المسجلة حول ما جرى في الماضي ما يرشدها بعد ذلك إلى اختيار العنوانات التي يمكن أن تتجاوب مع هذه الطريقة في الإعلان.
كذلك يمكن الانتقال إلى مستوى أكثر تعقيداً من دراسة الزبائن والعلاقة التي يمكن أن تكون بين مجموعات الزبائن ومجموعات المنتجات التي تسوقها الشركة؛ فالزبائن الذين يشترون اليوم ملابس لأطفالهم الرضع، قد يشترون بعد عشر سنوات الألعاب الإلكترونية لهؤلاء الأطفال.
يتبين من هذا المثال أهمية معرفة هذه الأنواع من القواعد وتطبيقها لإيجاد فرص تجارية أفضل، ومعرفة مدى فعالية طرق التسويق التي تطبقها وتدقيقها، ومقارنة هذه الوسائل وتحديد ما يناسب شريحة معينة من الزبائن.
لا يقتصر تحري المعطيات على التطبيقات من النوع السابق، وإنما يشمل طيفاً واسعاً من النشاطات، فمثل هذا التقانات تفيد، إذا ما طُبقت على قواعد المعطيات التي تحوي معطيات عن المشافي و المرضى الذين يدخلون، والأدوية التي يتعاطونها وطرق العلاج المستخدمة، ومدى استجابة الأمراض لها، والتوزع السكاني للمرضى، وأحوال الطقس في هذه المناطق السكنية، والأعمال التي يمارسها سكانها، ومستواهم التعليمي في معرفة الأمراض التي تصيب فئة معينة منهم، واكتشاف الأوبئة التي تصيب الناس في أوقات معينة واتخاذ الاحتياطات اللازمة لها، وغير ذلك من المعلومات؛ تفيد في اتخاذ قرارات تتعلق بتحسين مستوى الخدمات الطبية التي تقدمها هذه المشافي.
تكامل أنظمة دعم القرار مع عملية تحري المعطيات
تعد عملية تحري المعطيات أحد أشكال أنظمة دعم القرار، فهي تستخدم للاستعلام ولاستخلاص المعرفة من مخازن المعطيات المتوافرة. تتطلب عملية استكشاف المعرفة ست مراحل:
ـ اختيار المعطيات data selection ويجري في هذه المرحلة تجميع المعلومات المراد معالجتها من مخازن المعطيات المختلفة ووضعها في مخزن للمعطيات.
ـ التصفية cleaning وتتضمن إلغاء التسجيلات المتكررة، وتصحيح أخطاء كتابة سلاسل المحارف، وإضافة المعلومات الناقصة وغيرها.
ـ الإغناء enrichment.
ـ الترميز[ر] coding إذ يجري استخدام ترميز وتصنيف موحد للمعطيات ذات الدلالة المشتركة والمستوردة من بنوك المعطيات المعنية.
ـ تحري المعطيات.
ـ بناء التقارير reporting.
وتعد المرحلة الخامسة (مرحلة تحري المعطيات)مرحلة الاكتشاف الحقيقية.
ويستطيع المنقب عن المعطيات data miner الرجوع إلى الخلف خطوة واحدة أو أكثر، فقد يجد حين يكون في مرحلة الترميز أو مرحلة التحري، بأن مرحلة التصفية غير كاملة، أو قد يكتشف معطيات جديدة تغني مجموعات المعطيات الموجودة مسبقاً. ومن المستحيل وصف كامل تلوث المعطيات data pollution الذي يمكن توقع وجوده في قاعدة المعطيات سلفاً، إذ لا يمكن اكتشافه إلا في مرحلة التحري فقط.
التطبيقات العملية لتحري المعطيات والصعوبات الناتجة
تجاوزت تقانات تحري المعطيات طور الاختبار ودخلت حيز الاستخدام العملي في الدول المتقدمة. وقد كانت الشركات الكبيرة مثل شركات الهاتف والمصارف أول من طبق تقانات اكتشاف المعرفة في قواعد المعطيات لتحليل ملفات زبائنها. بعد ذلك اتسع مجال استخدام هذه التقانات ليشمل طيفاً واسعاً من النشاطات مثل شركات التأمين ومراكز دراسة أحوال الطقس والمؤسسات التعليمية والطبية وغيرها.
ومن الملاحظ أن 80٪ من أعمال اكتشاف المعرفة في قواعد المعطيات تقوم على تحضير المعطيات، أما 20٪ المتبقية فتقوم على التحري فيها.
وتعد مرحلة تحضير المعطيات التي تستخدم الإجراءات والأساليب التقليدية من قواعد المعطيات لإدخالها وترميزها، المرحلة الأكثر أهمية ضمن مراحل اكتشاف المعرفة. فمن دون معطيات صحيحة يبقى هناك نقص ما يجب البحث عنه.
ولما كان اكتشاف المعرفة وتحري المعطيات محورين جديدين من محاور المعلوماتية التي تتعامل مع معطيات الصناعة المتنامية بوتيرة عالية، مازال هذا العلم يواجه الكثير من المصاعب منها:
ـ عملية اكتشاف المعرفة: هناك حاجة إلى فهم أفضل لعملية اكتشاف المعرفة، إذ يجب تحديد المراحل المختلفة في هذه العملية، والعلاقات بين مختلف الخطوات في أثنائها، كذلك ينبغي وضع دليل يساعد محللي الأعمال ومهندسي تحري المعطيات في إنجاز مشاريع اكتشاف المعرفة.
ـ التغيرات والتبدلات في المعطيات: إن تبدل المعطيات باستمرار، وحفظها في قواعد المعطيات يجعل من عملية اكتشاف المعرفة الشغل الشاغل لأولئك الذين يسعون إلى إيجاد تقانات جديدة للتعامل مع تلك الأشكال المتغيرة، مما يضطرهم إلى إيجاد وسائل إضافية للتأكد من أن عملية اكتشاف المعرفة المستخدمة مازالت فعّالة لدى الانتقال إلى صيغ جديدة للمعطيات، وفي بعض الأحيان تعديل نموذج التحري المستخدم ليتناسب معها.
ـ المحاور المتعددة الاستراتيجيات: أحياناً يكون استخدام نوع واحد من خوارزميات تحري المعطيات غير كافٍ للإجابة عن سؤال معقد نوعاً ما. ولذلك تظهر الحاجة إلى توظيف عدة استراتيجيات قائمة على استخدام مجموعة من التقانات للإجابة عن سؤال واحد.
ـ تدرج عملية اكتشاف المعرفة وتحري المعطيات:
يزداد كمّ المعطيات بسرعة، وتتطلب قواعد المعطيات اليوم استخدام طرائق فعّالة للوصول إلى المعطيات. وهي أيضاً مجبرة على استخدام خوارزميات تحري المعطيات، التي يجب تعديلها بما يتناسب مع هذا الكمّ المتزايد من المعطيات. كذلك ينبغي توظيف تقانات لتخليص المعطيات قبل القيام بعملية التحري فيها ضمن عملية اكتشاف المعرفة.
مادلين عبود
|
- التصنيف : التقنيات (التكنولوجية) - النوع : تقانة - المجلد : المجلد السادس - رقم الصفحة ضمن المجلد : 64 مشاركة :