التحكم في الصوت وتكييفه
تحكم في صوت وتكييفه
Adaptive sound control -
أميمة الدكاك
إنتاج الأصوات في رنان هلمهولتز
معالجة الإشارة المتكيفة adaptive signal processing
ارتبط الصوت sound في البدء بالكلام والسمع، وركزت الدراسات على الأصوات المسموعة التي تقع تردداتها بين 20 Hzو20 kHz، سواء من حيث منابعها كأعضاء التصويت في الإنسان أو الحيوان؛ أم من حيث كشفها واستقبالها بواسطة الأذن. ثم وسّعت الدراسات؛ لتشمل مختلف المنابع الصوتية الطبيعية والصنعية، وخاصة الأدوات الموسيقية، مع إمكان تضخيمها لتسهيل الكشف عنها، أو توسعة مجال سماعها، مع تطوير موازٍ في الكواشف والخوارزميات. تطلب هذا تعرّف خصائص الصوت وكيفية التعبير عنه من وجهة نظر فيزيائية، واختبار تركيبات مختلفة معدلة نتيجة التضخيم، وهذا ما يدرس تحت عنوان التحكم في الصوت وتكييفه adoptive sound control.
عرّف الصوت بأنه إثارة ميكانيكية لوسط مرن تبدأ من المنبع، وتتوسع فيه، وتنتشر، لتصبح موجة. قد تكون الإثارة ناجمة عن جريان مائع فوق سطح صلب أو مرن، وقد تكون إثارة بالنقر أو باحتكاك مباشر بين سطحين. تمثَّل هذه الإثارة بتغيرات في الضغط، وبمعادلة الموجة التي تمثل الموجات التوافقية أبسط حلولها والتي تكتب رياضياً كما في المعادلة (1):
حيث يمثل الضغط في اللحظة عند النقطة التي فاصلتها ، ومطالها ، وتمثل تردد (تواتر) الموجة الزاوي، و سرعة انتشار موجة الضغط في الوسط. لكن ثمة حلول لمعادلة الموجة أكثر تعقيداً تفرق بين الموجة المستمرة continuous -كما توحي المعادلة السابقة ذات التردد الوحيد- والموجة المركّبة من عدة ترددات، إضافة إلى موجة انتقالية transient لا تستمر مدة طويلة. غير أنه يمكن تمثيل الموجة المركبة والانتقالية بتركيب خطي من التوافقيات harmonics التي تردداتها مضاعفات لتردد أساسي، أو كسور منه. يُعرَف هذا التركيب عادة برسم طيف الموجة الصوتية sound spectrum والبحث عن الترددات ذات المساهمات الكبيرة فيما يعرف بتحليل فورييه Fourier analysis.
يُعدّ هذا التوصيف للصوت أو الموجة عاماً ولا يتعلق بالسمع أو الكاشف، غير أنه يوجد ما يقابله سمعياً على وجه التقريب، فيوصف الصوت بأنه:
1- عالٍ أو هادئ عندما تكون شدته -المقابلة لوسطي مربع في دور كامل- عالية أو منخفضة، فتنسب هذه الشدة إلى عتبة الشدة التي يمكن للمرء أن يميزها، فهي شخصانية، لكنها تؤخذ عادة مساوية . ولأن استجابة الأذن تغطي ترددات تتغير بعدة مراتب؛ تؤخذ النسبة على سلم لوغارتمي، وتقدر بالدسيبل . تبدأ استجابة الأذن للشدة خطية لا تلبث أن تصبح لاخطية، فيتغير طيف الإشارة المسموعة عن طيف الإشارة الأصلية. كما أن هذه الشدة مرتبطة بالطاقة اللازمة لتوليدها.
2- حاد النبرة أو رخيم (مقام الصوت)، ويقابله فيزيائياً مساهمات كبيرة من الترددات العالية في طيفه في الحالة الأولى، خلافاً للحالة الثانية التي تكون فيه مساهمات الترددات المنخفضة هي السائدة.
3- نوعي ذو طبيعة مميزة، ويقابله فيزيائياً اختلاف الطيف، الذي يتعلق بخصائص المنبع والرنان والوسط. فهو للبيانو مختلف عن العود أو الكمان، كما أنه يختلف اختلافاً واضحاً بين آلات النفخ والآلات الوترية؛ وينطبق هذا بصورة خاصة على الأشخاص وكلامهم. فقد يوصف الصوت بأنه صافٍ أو فارغ أو مسطح أو طرفي أو صاجي، وكلها تعتمد على مركبات الصوت والمساهمات المسيطرة.
تفيد تقنيات التحكم في الصوت في اتجاهين: إما لتضخيم الصوت وتنقيته وتحسينه؛ وإما لاستعماله في صورة كلام لمخاطبة الآلات والحواسيب وتعرّف صاحبه. تتقاطع هذه التقنيات مع تقنيات معالجة الإشارة وخاصة عند تحسين التحكم في الصوت لكل متكلم.
يمكن البدء بالحديث عن المنابع ومميزاتها في حالة خاصة تعرف باسم «رنان هلمهولتز»؛ لشبهها بجهاز التصويت عند الإنسان، مع اختلاف مميز بأنها ليست ثابتة الأبعاد عند الإنسان. ويتابع الحديث عن منظومات تضخيم الصوت، وعن التحكم الفعال في الصوت، وأخيراً معالجة الإشارة المتكيفة لحذف الضجيج وتكييف الصوت.
إنتاج الأصوات في رنان هلمهولتز
رنان هلمهولتز Helmholtz resonator هو حجرة أو قارورة فيها غاز (الهواء غالباً)، ولها ثقب أو فوهة (الشكل 1). يهتز الهواء حين يُنفخ في فوهة القارورة أو بالقرب منها، فتصدر صوتاً صفيرياً ذا تردد، تحدد القارورة تردده، ويتخامد مع الزمن (الشكل 2)، ويلاحظ فيه التردد المميز ذو السعة العظمى. أما عندما ينقر على القارورة؛ فتظهر نبضة مكونها الأساسي هو ذلك التردد، إضافة إلى ترددات أخرى (الشكل 3).
الشكل (1) رنان هلمهولتز. |
الشكل (2) صوت رنان هلمهولتز صفيري متخامد مع الزمن. |
الشكل (3) تغيرات المطال مع الزمن المقابل لنقرة على رنان هلمهولتز. |
ولأن طول موجة الاهتزاز أكبر بكثير من أبعاد القارورة، يُبْرهَن على أن تردد الاهتزاز المميز يعطى بالعلاقة (2):
حيث: سرعة الصوت في الهواء، حجم القارورة، سطح مقطع عنق القارورة، طول عنق القارورة.
فعلى سبيل المثال: إذا كانت فإن . يقوم هواء عنق القارورة بدور المنبع، أما حجمها فيقوم بدور الرنان، ومهما تكن شدة النفخ؛ فسيصدر التردد نفسه، ولكن بشدات أو مطالات مختلفة. وقد استعملت رنانات هلمهولتز بحجوم مختلفة؛ لتعطي ترددات أساسية مختلفة كمرشحات لتحليل الصوت أو تركيبه.
إن التحكم في شدة الصوت في أثناء إنتاج الكلام هو ما يميز الصوت الطبيعي من الآلي. غير أنه يمكن أيضاً استخدام الكهرباء لإعطاء طاقة تضخم الصوت ضمن المضخمات الإلكترونية. تأخذ هذه المضخمات الطاقة من منبع التغذية الكهربائية، وتتحكم في إشارة الخرج؛ لتعطي شكل إشارة الدخل، ولكن بمطال أكبر بكثير، فعلى سبيل المثال: يمكن التقاط الإشارات الصوتية الضعيفة بمكرفون يتحسس تغيرات ضغط الهواء الذي ينتج الصوت، ويحوله إلى إشارة كهربائية، وتُضخّم تضخيمها إلكترونياً، ثم ترسل إلى مجهار loudspeaker يعيد إنتاجها باستطاعة أكبر، وهذه الطريقة هي التي استعملت للحصول على الشكلين (2 و3). لكن طيف الصوت المضخم يمكن أن يختلف عن طيف الصوت الأصلي أحياناً، وهذا ما يتطلب التحكم الفعال في الصوت.
إن تعرّف الأوامر الصوتية الشخصية من الأمور المهمة في كثير من الأحيان، فلا بدّ من تحليل الكلام ثم تركيبه لتنفيذ ذلك؛ ويمكن القول: إنه لتعرّف أوامر صوتية محددة يُدرَّب نظام تعرّف هذه الأوامر بأن يُسجل لفظها من قبل شخص أو مجموعة من الأشخاص، بحسب كون النظام مرتبطاً بالمتكلم أو مستقلاً عنه، ويجري تحليل هذه التسجيلات واستخلاص السمات الخاصة بكل أمر منها، وتخزين هذه السمات في النظام. وعند التعرف يجري تسجيل لفظ أمر ما، فتُستخرج السمات من الإشارة الصوتية للأمر الجديد، وتقارن بسمات الأوامر المختلفة التي جرى تدريب النظام عليها، فإما أن يطابق الأمر الجديد الأمر الذي سماته أقرب إلى سمات الأمر الجديد؛ وإما أن يتجاوز التشابه عتبة ما، وإلا فيُعلن أنه لم يُتعرف الأمر.
يمكن أن يؤثر ضجيج الخلفية في جودة نظام التعرف؛ لذلك تتجه بعض الأبحاث إلى تحسين أداء النظام على نحو متكيف adaptive؛ بحيث يغير النظام معاملاته مع الزمن ليحسن أداءه. فعلى سبيل المثال: يجري استخراج سمات زمنية ترددية لتعرّف الأوامر بإمرار الإشارة على عدد من المرشحات تتوافق وإدراك الأذن للأصوات، أو بحسب الطلب والرغبة، ثم يجري حساب معاملات تنبؤ خطي لنمذجة كل خرج من هذه المرشحات، ويستخدم نظام عائم fuzzy system لتصنيف الأوامر. ففي كل مرّة يُتعرف أمر جديد يُحدّث نموذج لسمات هذا الأمر، وبذلك يتحسن التعرف. وفي طريقة أخرى يُعتمد على الشبكات العصبونية لبناء بيئة متكيفة لتعرف أوامر أتمتة منزلية متكيفة، من حيث تعرف أوامر متحدثين جدد أو أوامر جديدة. يتضمن النظام خيارات للسمات وخيارات لتقنيات التعرف، حيث يختار الخبير في البداية نوعاً من السمات وإحدى تقنيات التعرف، ثم - مع تطور العمل- تقترح البيئة نفسها أفضل السمات وأفضل التقنيات.
معالجة الإشارة المتكيفة adaptive signal processing:
يشار إلى هذا المفهوم أيضاً بالترشيح التكيّفي adaptive filtering غالباً. والمرشحات هي نظم تماثلية أو رقمية تُدخل إليها الإشارات؛ ليُحصَل في خرجها على مواصفات مرغوبة، كأن تُمرر بعض المجالات الترددية، وتُحذف أخرى. والمرشح المتكيِّف هو مرشح ديناميكي يجري تغيير محدداته مع الزمن للحصول على خرج مرغوب فيه، وقد يكون هذا المرشِّح مرشِّحاً فيزيائياً ذا مركّبات فعلية، أو مرشّحاً رقمياً معتمداً خوارزمية معيّنة، أو مزيجاً منهما.
في الترشيح الرقمي المتكيف ثمة عادة إشارة ملوثة بالضجيج ، وإشارة مرغوبة ، والهدف تصميم مرشح متكيف استجابته النبضية ، بحيث يُحصَل في الخرج على إشارة هي أقرب ما تكون من الإشارة المرغوبة ؛ أي: بحيث تكون إشارة الخطأ ذات استطاعة صغرى (الشكل 4).
الشكل (4) مبدأ المرشح المتكيف. |
ولحل هذه المسألة تجب الإجابة عن عدة تساؤلات:
- هل المرشِّح المطلوب خطي أو غير خطي؟ وما بنيته؟
- ما هي المعطيات الموجودة للإشارة (الإشارة الملوثة بالضجيج فقط، أو الإشارة المرغوبة جزئياً، أو الضجيج)؟
- ما شرط الحل الأمثل؟ أجعل استطاعة إشارة الخطأ صغرى أم محددات أخرى؟
- ما الموسطات التي يجب إيجادها (الاستجابة النبضية للمرشح إن كان خطياً، أو معادلات الأمثلة، أوغير ذلك)؟.
أما الخوارزميات التي يمكن أن تساعد على إيجاد الموسطات المطلوبة فكثيرة، منها: الهبوط الأكثر انحداراً steepest descendent، الخطأ المتوسط الأصغر Least Mean Square (LMS) ومتغيراته، خوارزمية لغنسون- دوربن Levinson-Durbin في حساب التنبؤ الخطي، الخوارزمية التراجعية back propagation.
- حذف الضجيج: يمكن أن يتراكب مع الإشارات الصوتية ضجيج الخلفية، أو الصدى، أو ضجيج ناجم عن تدهور التجهيزات الصوتية، والمطلوب تنفيذ مرشحات متكيفة تحذف هذا الضجيج المتراكب على الإشارة. ويمكن أيضاً أن يتراكب ضجيج مجهول الهوية على إشارات الصورة أو الإشارات الرادارية أو غيرها من نظم الاتصالات؛ لذا يجب تصميم مرشحات متكيفة تخلص الإشارات ما أمكن من ذلك الضجيج.
- تسوية القنوات: تبدي بعض قنوات الاتصالات سلوكاً انتقائياً؛ بحيث تعمل مرشحاتٍ متغيرة الخواص مع الزمن، والمطلوب تقدير المرشحات المكافئة لهذه القنوات، وترشيح الإشارات المستقبَلة بمرشحات تعاكس أثر القناة. وبما أن محددات القنوات متغيرة مع الزمن يلزم مرشحات متكيفة لإزالة أثر القناة، وهذا ما يسمى تسوية القناة channel equalization.
- حذف الصدى: حذف الصدى هو نوع خاص من حذف الضجيج؛ بحيث يكون ثمة ترابط بين الإشارة المفيدة والضجيج الذي ينجم عن نُسخٍ مؤخرة من الإشارات المفيدة. فحين التكلم عبر جهاز اتصالات إلكتروني - سواء كان حاسوباً أم هاتفاً خلوياً- قد يظهر صدى الصوت أحياناً، بأن يسمع الصوت ثانية عبر الجهاز بتأخير واضح. فإذا كان مطال الصدى ضعيفاً فقد لا يلاحظ، ولكن حين تتجاوز مدته 25 ميلي ثانية يصبح مسموعاً، ويُضطر أحياناً إلى قطع الاتصال. وللصدى عدة أنواع:
- الصدى الصوتي: ويحصل في الحلقات الصوتية المحلية الراجعة local audio loop back حين يلتقط مكرفون أو أكثر الإشارة الصوتية لمتحدث أو أكثر ويعيدها إلى المستقبل، ويزداد هذا الصدى بازدياد حساسية المكرفون (لاقط الصوت)، و/أو حين يكون الصوت عاليا،ً وحين يكون المكرفون قريباً من المتحدث؛ وأحياناً يزداد الصوت مع انعكاس الصوت عن الجدران والأشياء المحيطة.
- الصدى الهجين: يوجد في الهواتف العامة سلكان لنقل الصوت في الاتجاهين بين المتحدثين، أما في المقاسم الهاتفية فيجري التحويل من سلكين إلى أربعة باستخدام دارات هجينة؛ فإذا لم تكن ممانعات هذه الدارات متوافقة مع القيم المطلوبة يحصل صدىً في الصوت، ويُسمع الصوت متأخراً حين التكلم بالهاتف. وعند استخدام الهاتف على الإنترنت Voice over Internet Protocol (VoIP) يضاف إلى إزعاجات الصدى آثار التأخير عبر الإنترنت، وضياع بعض رزم المعطيات. ويتطلب الأمر حذف هذا الصدى بسرعة وبفعالية للتمكن من متابعة الاتصال.
- يمكن حذف الصدى باستخدام دارات هجينة، كما يمكن حذفه بتقنيات رقمية تعتمد على خوارزميات الحذف المتكيف للصدى باســتخدام المرشــحات المتكيفة. ثمة برمجيات تجارية تعطي وضوحاً شديداً للصوت في بيئات صعبة متعددة، مثل حالات اقتراب المتحدث من المكرفون، وحالة ضجيج خلفية في بيئات داخلية وخارجية، وحالات انعكاس الصوت عن الجدران، وتغيرات مسارات الصدى وغيرها. ومن هذه البرمجيات: Adaptive Digital’s High Definition Acoustic Echo Cancellation software, (HD AECTM).
إضافة إلى التطبيقات السابقة في معالجة الإشارة المتكيفة ثمة تطبيقات كثيرة للتحكم الصوتي الفعال المتكيف، منها مثلاً التحكم الصوتي الآلي المنزلي من بُعد، كإعطاء أوامر صوتية عن طريق الهاتف أو الخلوي للتحكم في تشغيل الإنارة أو المروحة أو التلفاز أو غيرها من الأدوات الكهربائية المنزلية في أماكن مختلفة من المنزل، ومنها أيضاً التحكم في السيارة وملحقاتها صوتياً. وثمة براءات اختراع عدة في هذا الصدد. كذلك يمكن إصدار الأوامر صوتياً في السيارات الذكية الحديثة، ومنها طلب إجراء مكالمة صوتياً في أثناء قيادة السيارة، حيث يقوم نظام تعرف الكلام الآلي المتكيف بتعرّف اسم الشخص المراد الاتصال به، والنفاذ عبر وصلة لاسلكية من نوع Bluetooth إلى دفتر العناوين في الهاتف الذكي وطلب المكالمة. وأخيراً ثمة تطبيقات تجعل التعامل مع الحاسوب أكثر سهولة وسلاسة حتى للمكفوفين والصغار، ومن لديهم صعوبات في الرؤية أو تعويقات، أو من ذوي الاحتياجات الخاصة، كما يمكن استخدام هذه التسهيلات لأهداف تعليمية؛ إذ ثمة حاسوب يمكن التحكم بعشرين تطبيقاً فيه عبر أوامر صوتية متكيفة، ومن هذه التطبيقات: محرر النصوص Word، البريد الإلكتروني، تصفح الإنترنت وقراءة الشاشة، مسح الوثائق مع التعرف الضوئي للمحارف لاستنتاج ملف نصي من صورة، تعرف الكلام، التحكم بالكاميرا والفيديو والوثائق، إدارة دفتر العناوين والتواصل، تشغيل الألعاب ومشغل الصوت، الإذاعة عبر الإنترنت، تطبيق Skype مع مكالمات صوتية وفيديوية، إدارة الحاسوب ووريقات الجدولة، قراءة الأخبار، تسجيل الصوت. وكل هذه التطبيقات في CDesk من شركة اسمها يعني الصوت المتكيف.
مراجع للاستزادة:
-K. J. Astrom, Introduction to Stochastic Control Theory , Dover Books.
- G. C. Goodwin, K. Sang Sin, Adaptive Filtering Prediction and Control, Dover Books, 2009.
- E. Lavretsky, K. Wise, Robust and Adaptive Control: With Aerospace Applications, Springer, 2013.
- Dong Yu, Li Deng, Automatic Speech Recognition: A Deep Learning Approach, Springer, 2015.
- التصنيف : التقانات الصناعية - النوع : التقانات الصناعية - المجلد : المجلد السادس مشاركة :