معالجه معطيات
Data processing - Traitement de données

مُعالجة المُعطيات

 

يُقصد بمعالجة المعطيات data processing مجموعة العمليات التي تحوّل المعطيات data إلى معلومات information، حيث إن المعطيات أو البيانات هي مجموعة الحقائق الأولية والأشكال التي عادة ما تكون غير منظمة أو معالجة؛ في حين أن المعلومات information هي البيانات المعالجة، وتكون ذات معنى. وتقوم عملية المعالجة على نحو أساسي على تصنيف المعطيات أو إعادة تنظيمها أو تفسيرها مثلاً بحيث يمكن استخلاص معلومات مفيدة منها. ويبين الشكل (1) مخططاً صندوقياً مبسطاً لعملية معالجة المعطيات حيث الدخل هو المعطيات الأولية في حين أن الخرج يمثل المعلومات المستقاة:

انطلقت الحاجة إلى معالجة المعطيات بالحاسوب بعد توافر أدوات تجميع المعطيات المؤتمتة وتحصيلها مما أدى إلى نمو ضخم جداً لقواعد المعطيات [ر]، ويمكن القول إننا نضيق حالياً بالمعطيات من حولنا إلا أننا مازلنا نعاني نقصاً في المعرفة. من هنا كانت الحاجة إلى استخراج المعلومات من المعطيات بمساعدة الحاسوب وتقانات المعالجة الحديثة. كانت بداية التعامل مع قواعد المعطيات في الستينيات من القرن العشرين فيما ظهرت قواعد المعطيات العلائقية في السبعينيات وظهرت أول تقنيات البحث والتنقيب في المعطيات وقواعد بيانات الوب web في التسعينيات.

الشكل (1)

المعطيات والمعلومات

تتضمن عملية تحويل المعطيات إلى معلومات عدة مراحل، من أهمها:

- ترميز المعطياتcoding : يمكن أن تمثل المعطيات مجموعة من القياسات من الواقع real world، والمطلوب مثلاً استخلاص معلومات إحصائية منها. ولكي تصبح هذه المعطيات قابلة للمعالجة على الحاسوب يجب ترميزها وفق لغة الحاسوب، لذلك تُرمَّز المعطيات الأولية قبل إدخالها إلى الحاسوب عن طريق استخدام رِماز عددية numerical codes بسيطة مثلاً؛ وذلك بهدف تخفيض حجم المعطيات وجعلها مناسبة للمعالجة بالحاسوب. فمن المعروف أن الحاسوب يستخدم مجموعة من الثوابت constants والمتحولات variables للتعبير عن المعطيات، حيث إن قيمة الثابت لا تتغير في حين أنه يمكن تغيير قيمة المتحول؛ ليأخذ عدة قيم في أثناء المعالجة. لذلك لابد من الانتقال من فضاء المسألة قيد المعالجة problem space إلى فضاء الحل solution space داخل الحاسوب؛ والذي يتعامل فقط مع الأرقام أو الرِماز codes. توفر لغات البرمجة مجموعة من أنماط المعطيات data types التي يمكن استخدامها من دون الحاجة إلى تعريفها. وتسمح معظم اللغات بأصناف معيّنة شبه معيارية؛ ومنها: الصنف التعدادي enumerated type - الأعداد الصحيحة integer - الأعداد الحقيقية real - الصنف المنطقي boolean - الصنف المحرفي char - صنف سلاسل المحارف string - صنف التسجيلات - صنف الملفات files، ويمكن استخدام نمط المعطيات المناسب حسب التطبيق ونوع المعطيات قيد النمذجة.

- تحصيل المعطيات data acquisition: تعتمد طريقة تحصيل المعطيات على نوع المعطيات في حين يمكن استخدام الماسحة scanner لتحصيل الصور الرقمية، يمكن مثلاً استخدام القارئات الضوئية optical character readers (OCR) لتحصيل المحارف وكذلك تستخدم قارئات مثل bar-code reader أو الوسائط المغنطيسية، كما يمكن تحصيل المعطيات من شبكة الإنترنت.

- المعالجة الأولية للمعطيات preprocessing: تنبع الحاجة للمعالجة الأولية من كون المعطيات غير نظيفة أو غير مكتملة، وعادة ما تحوي الضجيج، أو تنقصها الاتساقية consistency، أو تحتوي على تناقض، مثل كون المعطيات حول شخص من مواليد عام 1990 و عمره 36 عاماً، وقد يكون ذلك بسبب تعدد مصادر المعطيات؛ إضافة إلى أخطاء أدوات التحصيل ونقل المعطيات. لذلك كانت الحاجة لتنظيف المعطيات cleaning ونبذ المعطيات الشاذةoutliers rejection، ويمكن أن تتضمن أيضاً هذه المرحلة عمليات ترشيح filtering أو ترميم restoration بهدف ملء المعطيات الناقصة incomplet data أو إبراز سمات features معينة في المعطيات وتعزيزها. كما يمكن أن تحوي المعالجة الأولية عمليات تحويل واستنظام normalization أو ضغط وتخفيض للمعطيات data reduction؛ لتناسب اعتبارات نقل المعطيات وتخزينها.

خوارزميات معالجة المعطيات

تقوم عمليات معالجة المعطيات بالاعتماد على خوارزميات algorithms معينة، ويمكن تعريف خوارزمية حلّ مسألة على أنها توصيف صوري لطريقة الحل على شكل متتالية من العمليات البسيطة، تنفَّذ حسب تسلسل محدّد. ويمكن تمثيل المسألة قيد المعالجة إما بطريقة المخطط التدفقي flow chart وإما بطريقة الرماز غير الحقيقي pseudo code، وهي وصف لحل المسألة مكتوب بلغة تشبه لغات البرمجة. ومن الخصائص الواجب توافرها في الخوارزمية: الترابط والتسلسل المنطقي، الوضوح والدقة، تكامل الخطوات وشموليتها.

تقوم المنهجية المعتَمَدة عند تصميم خوارزميات المعالجة على تجزئة حل المسألة قيد المعالجة إلى أجزاء قائمة بذاتها modules حيث يشكل الجزء وحدة مستقلة بذاتها، ويؤدي وظيفة محدّدة، مثل إدخال بيانات من ملف أو إظهار نتيجة على الشاشة أو إجراء حساب معين، ومن المفضل أن يكون الجزء مستقلاً بذاته بهدف الوصول إلى مرونة في الصيانة و التعديل.

ضمن هذا السياق يمكن أن تحتوي خوارزمية المعالجة عموماً على الأجزاء الآتية:

- جزء البداية؛ ويخصص لإعطاء قيم أولية للمتحولات.

- جزء التحكم؛ ويبيّن تدفق سير المعطيات وسير التنفيذ بوساطة حلقات التحكم في أثناء المعالجة.

- جزء معالجة البيانات data processing module؛ ويتضمن أجزاء الحسابات والطباعة والتحقق من صيغ البيانات والتعديل.

قبل البدء بحل مسألة ما يجب اختيار بنية مناسبة للمعطيات، ويمكن اختيارها من وجهات النظر الآتية: اختصار في زمن العمليات المكلفة (اختصار زمن المعالجة) المراد إجراؤها على هذه المعطيات، اختصار حجوم التخزين، تسهيل العمليات الحسابية.

بنى المعطيات الأساسية

تُعدُّ بنى المعطيات الخطّية أكثر البنى استعمالاً لتنظيم المعطيات؛ لأنّها تسمح بتنظيم المعطيات المراد معالجتها تنظيماً تسلسلياً، وهذا المبدأ في المعالجة هو المطبّق في معظم برامج تنظيم المعطيات وإدارتها. ومن أشهر البنى الخطية:

- الأشعة أو المصفوفات arrays: وهي بنية متجانسة؛ بمعنى أنّها مجموعة مكوّنات من الصنف نفسه.

- السلاسل المترابطةlinked lists : يجري التعامل مع السلسلة بمجموعة من العمليات؛ وتتضمّن إيجاد طول السلسلة، قراءة السلسلة من البداية إلى النهاية، تخزين عنصر في مكان معيّن من السلسلة.

- المكدسات :stacks من بنى المعطيات المهمة المستخدمة بكثرة في البرمجة. والمكدس هو بنية خطية تشبه السلسلة؛ غير أن عمليات الإضافة والحذف تتم من جهة واحدة تدعى قمة المكدس. أي تعمل وفق المبدأ last-in-first-out “LIFc؛ أي العنصر الذي تمّ إدخاله أخيراً يُستخرج أولاً.

- الأرتال: الرتل queue، وهو بنية خطية تشبه السلسلة غير أن عمليات الإضافة تجري في جهة تُدعى ذيل الرتل. ويجري الحذف في الجهة المعاكسة التي تُسمى بداية الرتل.

تستخدم قواعد المعطيات مجموعة من البرامج من أجل إدارة عمليات التعامل مع المعطيات، مثل البحث والتخزين والحذف، وتعدّ قواعد المعطيات العلائقية relational databases واسعة الاستخدام، وهي موجهة بالتسجيلة record-oriented حيث تحتاج إلى العلاقة بين التسجيلات عند التخزين والاستعادة. فيما تسمح آلية التخزين في قواعد المعطيات الغرضية object databases بتخزين المعطيات واستعادتها أغراضاً. هنالك أيضاً الملفات والبُنى التي تعتمد لغة التأشير الموسعة XML؛ والتي تلقى انتشاراً واسعاً في قواعد بيانات الوب، وتعتمد على تخزين المعطيات إضافة إلى معطيات عنها (المعطيات المترفعة meta data).

آفاق معالجة المعطيات

تلقى معالجة المعطيات تطبيقات واسعة في جميع المجالات مثل علوم الفضاء، والتحليل الاقتصادي والتوجه العام للسوق، إضافة إلى التحاليل البيولوجية وغيرها.

التنقيب في المعطيات data mining هو من الموضوعات ذات الصلة الوثيقة بمعالجة المعطيات، ويمكن عدّها معالجة متقدمة، وهي تهدف إلى استخراج المعرفة knowledge من قواعد المعطيات الضخمة؛ وذلك باستخدام تقنيات متقدمة، مثل التجميع association والتجميع في عناقيد clustering والتصنيف classification والتلخيص summarization وغيرها؛ وذلك لاستنباط معارف مضمنة وغير واضحة من المعطيات لايمكن استخراجها باستخدام تقنيات معالجة بسيطة.

هنالك أيضاً محور بحث حديث يهدف إلى استخراج المعرفة من شبكة الإنترنت وقواعد بيانات الوب التي تشكل قاعدة بيانات ضخمة جداً، ويعرف ذلك بالتنقيب في الوب web mining. تُستخدَم قواعد الاستدلال inference rules ومفاهيم الوب الدلالي semantic web في عمليات التنقيب في الوب.

راؤوف حمدان

الموضوعات ذات الصلة:

 

بنك المعطيات ـ بنى المعطيات ـ تراسل المعطيات ـ قواعد المعطيات.

مراجع للاستزادة:

 

- NIKHIL PAL, Advanced Techniques in Knowledge Discovery and Data Mining (Advanced Information and Knowledge Processing) (Springer; 1 edition2005)..

- C ARL FRENCH, Data Processing and Information Technology (Int Thomson Business Press 1996).


- التصنيف : التقنيات (التكنولوجية) - النوع : تقانة - المجلد : المجلد التاسع عشر - رقم الصفحة ضمن المجلد : 33 مشاركة :

متنوع

بحث ضمن الموسوعة