ميتا تطلق SAM Audio.. أداة ذكاء اصطناعي مفتوحة المصدر لعزل الأصوات وتنقية التسجيلات بالأوامر النصية

كتبت: نور عبدالقادر
أعلنت شركة ميتا عن إطلاق أداة ذكاء اصطناعي جديدة مفتوحة المصدر تحمل اسم SAM Audio، قادرة على عزل الأصوات وتنقية التسجيلات المليئة بالضوضاء بمجرد كتابة وصف نصي لما يريده المستخدم، دون الحاجة إلى برامج تحرير صوتي معقدة أو خبرة تقنية متقدمة.
وتتيح الأداة الجديدة استخراج أصوات محددة – مثل الصوت البشري، أو الآلات الموسيقية، أو ضوضاء الخلفية – من تسجيل واحد مزدحم بالأصوات، في خطوة يُتوقع أن تُحدث تحولًا كبيرًا في مجالات مثل البودكاست، والإنتاج الموسيقي، وصناعة الأفلام، وأدوات الإتاحة لذوي الإعاقة.
كيف تعمل أداة SAM Audio؟
تعتمد SAM Audio على نموذج ذكاء اصطناعي متعدد الوسائط يدعم ثلاثة أنواع رئيسية من الأوامر، يمكن استخدامها بشكل منفصل أو مجتمعة للحصول على نتائج أكثر دقة:
-
وصف نصي للصوت المراد عزله (مثل: صوت شخص يتحدث أو آلة موسيقية محددة).
-
اختيار بصري لشخص أو عنصر داخل فيديو لتحديد مصدر الصوت المرتبط به.
-
تحديد زمني للحظة ظهور الصوت في التسجيل.
ويمنح هذا التنوع المستخدمين مستوى تحكم غير مسبوق في عملية فصل الصوت.
الأساس التقني للنموذج
يعتمد SAM Audio تقنيًا على محرك Perception Encoder Audiovisual من ميتا، والذي يتيح للنموذج فهم الأصوات وتحليل سياقها قبل فصلها بدقة عن بقية المقطع الصوتي، بحسب تقرير نشره موقع DigitalTrends واطلعت عليه «العربية Business».
معايير جديدة لقياس الأداء
بالتزامن مع الإطلاق، كشفت «ميتا» عن أدوات جديدة لتقييم أداء نماذج فصل الصوت، أبرزها:
-
SAM Audio-Bench: معيار مخصص لقياس كفاءة نماذج عزل الصوت.
-
SAM Audio Judge: أداة لتقييم طبيعية ودقة الصوت الناتج من منظور المستمعين، حتى في حال عدم توفر ملف صوتي مرجعي للمقارنة.
وأكدت الشركة أن نتائج الاختبارات أظهرت تفوق النموذج، خصوصًا عند دمج أكثر من نوع من الأوامر، إضافة إلى قدرته على معالجة الصوت بسرعة تفوق الزمن الحقيقي حتى على نطاق واسع.
استخدامات عملية واسعة
تفتح SAM Audio المجال أمام عدد كبير من الاستخدامات، من بينها:
-
إزالة ضوضاء المرور من تسجيلات البودكاست.
-
عزل الصوت البشري من مقاطع موسيقية.
-
حذف أصوات غير مرغوبة، مثل نباح الكلاب، من تسجيلات منزلية.
قيود حالية تعترف بها ميتا
رغم قدراتها المتقدمة، أقرت «ميتا» بوجود بعض القيود في الإصدار الحالي، أبرزها:
-
عدم دعم الأوامر الصوتية.
-
عدم القدرة على فصل الأصوات دون أي توجيه من المستخدم.
-
صعوبة التعامل مع الأصوات المتشابهة والمتداخلة، مثل فصل صوت شخص واحد داخل جوقة.
جزء من استراتيجية أوسع للذكاء الاصطناعي
يأتي إطلاق SAM Audio ضمن استراتيجية أوسع لشركة ميتا لتطوير نماذج ذكاء اصطناعي تفهم الصوت والسياق والتفاعل البشري. وتشمل هذه الجهود تحسين جودة الصوت في النظارات الذكية، وتطوير نظارات واقع مختلط متقدمة متوقعة بحلول عام 2027، إلى جانب بناء مساعد محادثة ذكي قد ينافس «شات جي بي تي».
وأصبحت الأداة متاحة الآن عبر Segment Anything Playground، في خطوة تعزز توجه «ميتا» نحو إتاحة تقنيات الذكاء الاصطناعي المتقدمة للمطورين وصناع المحتوى حول العالم.



