logo

logo

logo

logo

logo

الترميز الموحد

ترميز موحد

Unicode -

 الترميز الموحد

الترميز الموحد

المبادئ الأساسية للترميز الموحد

مصطلحات الترميز الموحد

ميزات الترميز الموحد

طرائق التقابل والترميز

استخدامات الترميز الموحد وتطبيقاته

 

تتعامل الحواسيب مع الأرقام فقط؛ فهي تخزّن الحروف والمحارف الأخرى بعد ترميزها على شكل رقم إثنائي. فقبل اختراع الترميز الموحدunicode كان هناك المئات من أنظمة الترميز المختلفة، ولم يكن هناك ترميز وحيد يستطيع ترميز كلّ المحارف الضرورية للغات المختلفة، فمثلاً يحتاج الاتحاد الأوربي وحده إلى العديد من الترميزات المختلفة لتشمل جميع لغات الأمم فيه، حتى لو اقتصر الأمر على لغة واحدة كالإنكليزية؛ فلا يوجد ترميز واحد قادر على استيعاب جميع حروفها وعلامات الترقيم والرموز التقنية والعلمية الشائعة الاستعمال فيها.

تتعارض أيضاً أنظمة الترميز المختلفة تلك، بعضها مع بعض، بعبارة أخرى يمكن أن يستخدم ترميزان مختلفان الرقم نفسه لتمثيل محرفين مختلفين، أو رقمين مختلفين لتمثيل المحرف نفسه. ومن ثمَّ فإن أي حاسوب (خاصة المخدمات) يحتاج إلى دعم العديد من الترميزات؛ ومع ذلك فعندما تمرر البيانات عبر ترميزات أو منصات platforms مختلفة فإنها تبقى عرضة للتلف.

المبادئ الأساسية للترميز الموحد

الترميز الموحد هو نظام قياسي عالمي لترميز المحارف، يهدف إلى دعم البيانات وتوفير تبادلها في جميع أنحاء العالم، وتجهيز النصوص الحديثة والكلاسيكية والتاريخية وعرضها في معظم اللغات المكتوبة على اختلافها؛ فالترميز الموحد معيار صناعة الحوسبة، من أجل ترميز متناسق وتمثيل للنصوص المكتوبة وفق مختلف أنظمة الكتابة في العالم ومعالجتها؛ فهو يُعرِّف رموزاً للحروف المستخدمة في جميع اللغات الرئيسية المكتوبة -ومنها مخطوطات الألفبائية الأوربية والغربية- والمخطوطات التي تكتب من اليمين إلى اليسار في الشرق الأوسط، والعديد من المخطوطات الآسيوية. كما يشمل علامات الترقيم والتشكيل والرموز الرياضية والرموز التقنية والأسهم والزخرفة والرموز التعبيرية وغيرها، ويحدد رموزاً لعلامات التشكيل والترقيم التي تعدل علامات الحروف مثل علامات المد واللفظ مع الحروف الأساسية لتمثيل حروف صوتية مختلفة مثل .

جرى وضع الترميز الموحد بالتنسيق مع مجموعة المحارف العالمية القياسية المعيارية The Universal Character Set Standard، ومن ثم نُشِر في كتاب بعنوان "الترميز الموحد المعياري" The Unicode Standard /the Unicode Consortium (الإصدار6.3.0)، وهو أحدث إصدار من الترميز الموحد، ويتكون من أكثر من (1,114,112) مؤشر رمز code point، معظمها لترميز المحارف، إضافة إلى مجموعة من الرسوم البيانية ومنهجيات الترميز وقاعدة بيانات المحارف ومجموعة من الملحقات. وتمِّ تطبيقه منذ عهد قريب في معظم التقنيات الحديثة؛ كأنظمة التشغيل الحديثة XML ولغة البرمجة جافا وإطار عمل مايكروسوفت نت Microsoft .NET Framework، علماً أنه يمكن تنفيذه باستخدام طرائق تشفير الحروف المختلفة؛ وأكثر طرائق تشفير الحروف شيوعاً UTF-8 وUTF-16.

مصطلحات الترميز الموحد

1- مؤشر الرمز يدعى موقع الرمز code position، ويدل على أي قيمة عددية من فضاء الترميزcode space؛ مثال: جدول الترميز القياسي الأمريكي لتبادل المعلومات (الآسكي) American Standard Code for Information Interchange (ASCII) الذي يتضمن 128 مؤشر رمز.

2- مستويات الترميز الموحد the unicode planesهي مجموعات من القيم العددية التي تقابل مؤشرات الرموز، والتي تشير إلى محارف محددة؛ حيث يمكن ترميز 1,114,112محرفاً، ومن غير المرجح أن يتوصل إلى هذا الحد في المستقبل القريب، حتى لو اُكتشفت أبجديات/ مخطوطات لم تكن معروفة سابقاً وتشتمل على عشرات الآلاف من المحارف.

ميزات الترميز الموحد

1- يعطي الترميز الموحد رقماً فريداً لكلِّ محرف، بقطع النظر عن المنصة وعن البرنامج وعن اللغة المستخدمة؛ لذلك فإن شركات صناعة أنظمة الحواسيب وملحقاتها اعتمدت الترميز الموحد معياراً لصناعتها.

2- إن استخدام الترميز الموحد في تطبيقات المخدِّم والزبون ومواقعهما أو المواقع المتعددة الأجزاء يتيح توفيراً واضحاً في التكلفة مقارنة بالأنظمة التقليدية، حيث تمكن من صناعة منتج برمجي واحد أو موقع واحد للعمل في منصات ولغات وبلدان مختلفة من دون الحاجة إلى إعادة هندسته، كما يتيح نقل البيانات في الأنظمة المختلفة من دون تعرضها للتلف.

3- بخلاف المعايير الأخرى فإن الترميز الموحد المعياري قابل للتوسع، وتضاف إليه باستمرار محارف جديدة لتلبية الاستخدامات المتنوعة، بدءاً من الرموز الفنية للغات القديمة حتى تعديل خصائص المحارف لتلبية متطلبات التطبيقات.

4- كانت قابلية التوسع والتعديل نتيجة اعتماد اتحاد الترميز الموحد عدداً من السياسات لتوفير الاستقرار والثبات في عملية الترميز، والتي تهدف إلى ضمان بقاء النص المشفر في إصدار ما صالحاً ومن دون تغيير في الإصدارات اللاحقة.

5- تتلخص السياسات في ضمان عدم تغيير أي ترميز أو حذفه أو طريقة ترميز تمَّ اعتمادهما لكلٍّ من المحارف والأسماء وتسلسل تسمية المحارف ووحدانية الاسم والأسلوب وطريقة التحليل والتطابق والخصائص والاستعارة وحالات الدمج وغيرها.

طرائق التقابل والترميز

يقوم الترميز الموحد بمقابلة مؤشرات الرموز مع سلسلة من القيم تدعى قيم الرمز code value الموجودة ضمن مجال ثابت؛ حيث تحدد طريقتان لتنفيذ عملية الترميز؛ هما: الترميز بحسب صيغة تحويل الترميز الموحد The Unicode Transformation Format (UTF) encoding؛ والترميز بحسب مجموعة المحارف الشاملة The Universal Character Set (UCS) encoding؛ حيث يتضمن اسم كلّ ترميز رقماً يدل على عدد البتات الموجودة في قيمة الرمز الواحد وذلك في (UTF)؛ في حين يدل في (UCS) على عدد البايتات لكلّ قيمة رمز. وتُعد الترميزات (UTF-8) و(UTF-16) و(UTF-32) الأكثر استخداماً.

هناك العديد من آليات تنفيذ الترميز الموحد وطرائقه. إن اختيار طريقة التقابل (تنفيذ الترميز الموحد) يعتمد على مساحة التخزين المتوفرة، والتوافق مع رمز المصدر، وقابلية التشغيل البيني مع النظم الأخرى.

الترميزات بحسب صيغة تحويل الترميز الموحد (UTF):

- الترميز UTF-8 يستخدم من واحد إلى أربعة بايتات لكلِّ مؤشر رمز، ويمثّل الترميز المعياري الفعلي لتبادل نصوص الترميز الموحد؛ وذلك بالتكامل مع المخطوطات اللاتينية وجدول الآسكي (ASCII)، وهو مُستخدم في بعض أنظمة التشغيل مثل: نظام تشغيل مفتوح المصدر (FreeBSD) مثل اليونكس، وهو من شركتي (AT&T) و(BSD).

- الترميز (UTF-16) يتيح ترميز 1,112,064 من مؤشرات الرموز، وذلك من الصفر حتى الرقم 10FFFF، وهو ترميز متغير الطول؛ أي يتم ترميز مؤشر الرمز بواحدة أو اثنتين من وحدات الترميز 16 بتاً.

- الترميز UTF-32 يعد الترميز الرسمي لمحارف الترميز الموحد التي تستخدم 32 بتاً لكلِّ مؤشر رمز؛ حيث إن شكل محارفه هو تمثيل مباشر لمؤشرات رموزه، وهو ترميز ذو طول ثابت.

مستويات مؤشرات الرموز

يتألف فضاء الترميز في الترميز الموحد من 17 مستوياً، مرقماً من 0 إلى 16، وكلّ مستوٍ مؤلف من 16(2)65,536= مؤشر رمز؛ كما هو مبين في الجدول (1). بعض هذه المستويات لم تخصّص له قيم حرفية، وبعضها الآخر خُصّص للاستخدامات الخاصة، وحجز قسم منها وعلى نحو دائم على أنها ليست محرفاً. تمتلك مؤشرات الرموز في كلّ مستوٍ قيماً بالنظام الستة عشري Hexadecimal (H) من (xx0000) حتى (xxFFFF)، حيث إن (xx) تحدد رقم المستوي، وهي قيمة ست عشرية من (H) 0016 حتى (H) 1015.

الجدول (1) مستويات الترميز الموحد والمجالات المستخدمة لمؤشرات الرموز.

تكميلي (إضافي)

أساسي

المستوي (0)

(الأساسي)

مستوي اللسانيات

المستوي (1)

(الإضافي)

مستوي اللسانيات

المستوي (2)

(الإضافي)

مستوي الرموز التصويرية

المستويات من (3) حتى ( 13) غير مخصّصة

المستوي (14) (الإضافي)

مستوٍ لأغراض مميزة

المستويات

من (15) حتى (16) (إضافية)

مساحة للاستخدامات الخاصة

0000–FFFF

10000–1FFFF

20000–2FFFF

30000–DFFFF

E0000–EFFFF

F0000–10FFFF

BMP

SMP

SIP

SSP

S PUA A/B

0000–0FFF 1000–1FFF 2000–2FFF 3000–3FFF 4000–4FFF 5000–5FFF 6000–6FFF 7000–7FFF

8000–8FFF 9000–9FFF A000–AFFF B000–BFFF C000–CFFF D000–DFFF E000–EFFF F000–FFFF

10000–10FFF 11000–11FFF

20000–20FFF 21000–21FFF

12000–12FFF

1B000–1BFFF

22000–22FFF 23000–23FFF

28000–28FFF 29000–29FFF 2A000–2AFFF 2B000–2BFFF

- PUA-A:15 F0000–FFFFF

13000-13FFF

1D000–1DFFF 1E000–1EFFF 1F000–1FFF

24000–24FFF

E0000–E0FFF

16000–16FFF

25000–25FFF

2F000–2FFFF

15: PUA-A F0000–FFFFF

26000–26FFF 27000–27FFF

يتم التعامل مع كلّ مؤشرات الرموز في ملف خريطة البايتات بعدّها رمزاً وحيداً في الترميز UTF-16، ويمكن ترميزه ببايت واحد أو اثنين أو ثلاثة بايتات في الترميز UTF-8؛ حيث إن مؤشرات الرموز في المستويات: من المستوي الأول حتى المستوي 16 تُعامل بشكل زوجي في الترميز UTF-16؛ في حين تُرمز بأربعة بايتات في الترميز UTF-8.

تجمّع محارف كلِّ مستوٍ في وحدات تجمعية تسمى "كتلة المحارف المترابطة" أو "بلوك" block، وهي ذات حجم كيفي، وتكون دائماً من مضاعفات 16، وأحياناً من مضاعفات 128 مؤشر رمز. ومن الممكن أن تتوزع محارف نص ما على عدد من البلوكات المختلفة.

مؤشرات الرموز من H(0000)  حتى (FFFF)H:

محتواة في المستوي 0 الذي يدعى "مستوي اللسانيات الأساسي" والذي خصّص لترميز غالبية الأحرف الشائعة المستخدمة في اللغات الطبيعية الرئيسية في العالم الشكل (1)، وفيه تُرمز مؤشرات الرموز بوحدة ترميز 16-bit وحيدة تساوي عددياً مؤشرات الرموز المقابلة لها.

الشكل (1) خريطة مستوي اللسانيات الأساسية، حيث كل مربع مرقم يمثل 256 مؤشرَ رمزٍ.

مؤشرات الرموز من H (10000) حتى :(10FFFF) H

نظام تشغيل بُني على نواة يونكس Unix Kernel من أجل نُظم إدارة البرمجيات التطبيقية العامة؛ وهي موزعة على المستويات الإضافية الأخرى، والتي خصّصت لترميز الحروف والمحارف الإضافية والملحقة. وفيها تُرمّز مؤشرات الرموز بأزواج من وحدات رمز 16-bit، وتسمى أزواجاً بديلة.

استخدامات الترميز الموحد وتطبيقاته

للترميز الموحد تطبيقات عديدة فيما يلي أهمها:

1- نظم التشغيل:

- يستخدم الترميز الموحد لبناء الأنظمة الجديدة لمعالجة المعلومات، وقد أصبح أكثر النماذج استخداماً لمعالجة النصوص وتخزينها.

- تستخدم عائلة نظم تشغيل النوافذ (Windows Vista, Windows NT, Windows 2000, Windows XP, Windows 7) الترميز UTF-16 فقط لترميز المحارف.

- يستخدم الترميز الموحد للتمثيل الداخلي لبيئات التشفير الثنائي (Java, NET) ونظم التشغيل (Mac OS X, KDE).

- الترميز الموحد متاح ضمن نظم التشغيل: (Windows 95, Windows 98, Windows ME, Microsoft Layer for Unicode).

- أصبح الترميز UTF-8 ترميز التخزين الأساسي لعائلة نظم التشغيل يونكس Unix، وكذلك في ترميز لغة برمجة مواقع الوِب HTML.

2- البريد الإلكتروني:

يقدم العديد من عملاء البريد الإلكتروني بعض الدعم للترميز الموحد؛ فمع مرور الوقت تصبح الأنظمة مع الخطوط قادرة على عرض معظم أحرف الترميز الموحد، وخصوصاً تلك التي تكون ذات فائدة للمستخدم.

تتضمن المتطلبات التقنية لإرسال رسائل البريد الإلكتروني التي تحتوي على حروف ليست ضمن جدول ASCII ما يلي:

- ترميز رأسية الرسالة (الموضوع، المرسل والمتسلم، والرد إلى اسم)، وجسم الرسالة بترميز نقل المحتويات.

- ترميز الحروف التي ليست ضمن جدول ASCII بإحدى طرائق الترميز بحسب صيغة تحويل الترميز الموحدUTF .

- تُرسل المعلومات عن ترميز نقل المحتويات والترميز بحسب صيغة تحويل الترميز الموحد المستعمل بحيث يمكن عرض الرسالة بشكل صحيح من قبل المتسلّم.

- يُشفَّر نص الترميز الموحد المستخدم بترميز رأسية البريد الإلكتروني اعتماداً على امتدادات البريد الإلكتروني المتعددة الأغراض Multipurpose Internet Mail Extensions (MIME)، مع الترميز الموحد بوصفه مجموعة حروف واحدة. ولترميز عناوين البريد الإلكتروني تُستخدم أسماء النطاقات الدولية Internationalized Domain Name (IDN)، كما يجب استخدام MIME في أثناء ترميز البريد الإلكتروني بالترميز الموحد لتحديد الترميز بحسب صيغة تحويل الترميز الموحد المستعمل.

3- الخطوط:

الخطوط المعتمدة في الترميز الموحد تعتمد على جدول ASCII والمخطوطات الخاصة، ومجموعات من المحارف والرموز، وهذا بسبب أن التطبيقات والوثائق نادراً ما تحتاج إلى عرض الحروف لأكثر من واحد أو اثنين من أنظمة الكتابة، حيث إن الخطوط تحصل على معلومات عن الصورة الرمزية لكلمة أو فكرة من ملفات الخط المنفصلة وبحسب الحاجة.

4- طرائق الإدخال:

لما كان من غير الممكن أن تحتوي لوحة المفاتيح على مفاتيح لجميع المحارف؛ فقد وفرت أنظمة التشغيل طرائق الإدخال البديلة التي تسمح بالوصول إلى مصنفات كاملة؛ ففي المعيارISO/IEC 14755 الذي هو دمج لمعياري المنظمة الدولية لتوحيد المعايير International Organization for Standardization (ISO) واللجنة الكهرتقنية الدولية International Electrotechnical Commission (IEC)؛ تخصّص طرائق متعددة لإدخال حروف الترميز الموحد من مؤشرات رموزها؛ ففي الطريقة الأساسية تُعتمد سلسلة البداية على التمثيل الست عشري لمؤشرات الرموز وعلى سلسلة النهاية، وهناك أيضاً طريقة الدخول باختيار الشاشة، حيث يتم تسجيل الأحرف في جدول على الشاشة، مثل برنامج مخطط توزيع الحروف المضمن مع أنظمة التشغيل MS Windows لعرض الحروف لأي خط مثبت فيه.

5- شبكة الإنترنت:

أوصى اتحاد شبكة الوِب العالمية باستخدام الترميز الموحد بوصفه مجموعة حروف لنصوصها بدءاً من النسخة (4.0) للغة HTML. كما دعمت متصفحات الوِب الترميز الموحد ولاسيما الترميز UTF-8 لسنوات عديدة؛ مع وجود بعض المشاكل المتعلقة بالخط، وخصوصاً في مستكشف مايكروسوفت Microsoft Internet Explorer؛ لذلك مكنت لغة HTML كتابة حروفها مباشرة بالبايتات وفقاً لترميز الوثائق المعتمد، أو يمكن لمستخدم اللغة كتابة رقم الحرف اعتماداً على مؤشرات رموز الترميز الموحد.

أغيد القطعان

مراجع للاستزادة:

- D. Deley, Brief Introduction to Unicode, David W. Deley; 2012.

- B. Haible, The Unicode HOWTO, Independently published, 2019.

- The Unicode Standard Version 5.0, Addison- Wesley, 2006.

 


التصنيف : كهرباء وحاسوب
النوع : كهرباء وحاسوب
المجلد: المجلد السابع
رقم الصفحة ضمن المجلد :
مشاركة :

اترك تعليقك



آخر أخبار الهيئة :

البحوث الأكثر قراءة

هل تعلم ؟؟

عدد الزوار حاليا : 1043
الكل : 58491863
اليوم : 64377

آثار الحقول المغناطيسية والكهربايئة في الخطوط الطيفية

 تتأثر أطياف الذرات أو الجزيئات المصدرة للضوء أو التي تمتصه بالحقول الكهربائية أو المغنطيسية المطبقة عليها، فتنزاح الخطوط الطيفية عن مواقعها التي كانت عليها قبل تطبيق الحقول، أو تنفصم لتظهر خطوط طيفية جديدة وفق أنواع الذرات أو الجزيئات وشدة الحقول المطبقة، وتسمى هذه الانزياحات...

المزيد »