جدلية استنساخ الأصوات بالذكاء الاصطناعي بين الترفيه والتزوير

علوم وتكنولوجيا

جدلية استنساخ الأصوات بالذكاء الاصطناعي بين الترفيه والتزوير

31-08-2023 11:53 AM

يقف مصوّر فيديو فرنسي يُدعى أنيس العياري، وهو مهندس في الذكاء الاصطناعي وصاحب قناة على «يوتيوب» للتبسيط العلمي تحمل اسم «ديفند إنتلجنس»، وراء استعمال «التزييف العميق» من خلال تقنية هذا الذكاء لمحاكاة أصوات سياسيين حاليين وراحلين يقيمون حواراً حياً مع المستخدمين عبر منصة «تويتش»، منهم مثلاً الرئيس الفرنسي إيمانويل ماكرون، وسلفاه الراحلان شارل ديغول وجاك شيراك.

غير أنّ التجربة أخذت أبعاداً سلبية، عندما سأل أحد مستخدمي الإنترنت «ماكرون» المزعوم عن أسوأ اسم لقرية فرنسية، فأجاب الذكاء الاصطناعي: «لا مور أو جويف» ومعنى اسمها بالفرنسية «الموت لليهود»، وهي قرية صغيرة في منطقة لواريه في وسط فرنسا، غُيِّر اسمها سنة 2015، مما أدّى إلى المنع الفوري للقناة، وفق «وكالة الصحافة الفرنسية». وكتب صاحب القناة في رسالة عبر منصة «إكس»، أنه تقدّم بطلب استئناف للقرار، وأعاد إطلاق جلسات البثّ الحي عبر منصة «كيك.كوم» المنافِسة.

قبل أشهر، استخدم هذا الخبير الذي يروّج لـ«مساعدين» افتراضيين لدى الشركات، تقنية التزييف العميق ليجعل الرئيس الفرنسي يغنّي بصوته لشارل أزنافور. وكشف في مقطع فيديو التقنيات التي اعتمدها في هذه الحيلة المصوَّرة. وأخيراً، بدأ العياري استنساخ شخصيات تاريخية أو أخرى آنية من أمثال إيلون ماسك، مع إشراكهم في «نقاشات» مع لاعبين سياسيين حاليين.
يقول أنيس العياري لـ«وكالة الصحافة الفرنسية»: «سنجري محاكاة لنقاش سياسي وسنرى إلى أين سنصل في هذا الأمر». ولنسخ صوت أحد الشخصيات، يكفي جمع بضع دقائق من خطاب له، من دون أي تشويش خارجي. بعدها، تتولّى برمجيات إنشاء نموذج لصوته، بما يتيح استخدامه في محتويات جديدة، حتى بلغات أجنبية.

ويوضح مبرمج المعلوماتية: «إذا كان لدينا 15 إلى 30 ثانية بنوعية جيدة، نبدأ في الحصول على نتائج لافتة. ولم يعد هناك حالياً أي حاجة للإلمام في برمجة المعلوماتية»، فيما أطلق العياري نداءً لتمويل البثّ الحي لنسخته من الرئيس الفرنسي، مؤكداً أنّ استخدامه لخدمات معلوماتية مختلفة يكلفه نحو 150 يورو في اليوم.

غير أنّ التقليد له حدود، إذ إنّ حركة الشفتين تُظهر بعض الثغرات. وبمواجهة الأسئلة العبثية من بعض مستخدمي الإنترنت، يُعطي إيمانويل ماكرون بالنسخة المقلَّدة إجابات غريبة، بينها على سبيل المثال «موضوع نظام التقاعد خارج عن برمجتي. فلنتطرق إلى مواضيع مسلّية أكثر». كما يقول الرئيس الفرنسي بالنسخة المطوَّرة عبر الذكاء الاصطناعي: «تصريحي عن الأصول التي أملكها يتمتع بالصدقية نفسها لوعود سياسي في حملته الانتخابية».

ويلفت العياري إلى أنّ «طفرة في توليد الأصوات حصلت العام الماضي، والأمر آخذ في التسارع». ويجري حالياً العمل على مشاريع عدّة تتيح لأشخاص من غير المتخصّصين التدرّب على إنجاز مقاطع بتقنية التزييف العميق، في الصين وكوريا الجنوبية واليابان، حيث تقليد أصوات شخصيات «المانغا» (رسوم متحركة يابانية) يحظى بشعبية كبيرة.

وعلى قناة «ترمب أور بايدن 2024» عبر «تويتش»، خاضت نسختان مطوَّرتان بالذكاء الاصطناعي عن الرئيس الأميركي الحالي جو بايدن وسلفه دونالد ترمب، في تراشق كلامي استمر طويلاً خلال الصيف، ولا يزال متواصلاً تحت أنظار المئات من مستخدمي الإنترنت الذين يمكنهم إطلاق مواضيع للنقاش كتابياً.

كما دفع موسيقيون ثمناً جرّاء هذه التقنيات، إذ استُنسِخت أصواتهم في أعمال فنية من دون أن يتقاضوا أي مقابل. ويبدي الممثلون، من ناحيتهم، قلقاً من استخدام صورهم من الاستوديوهات، وتسجّل الأوساط العاملة في مجال أمن المعلوماتية تنامياً لتقنيات الاحتيال الهاتفي القائم على استنساخ الأصوات.

لكن هل يتعيّن الخوف من موجة تضليل إعلامي جديدة باستخدام هذه التقنيات؟ يجيب العياري: «كلما أدرك الناس (بانتشار تقنية التزييف العميق)، سيتعزّز لديهم الحس النقدي»، مُجاهراً عبر قناته بأنّ المضمون الذي ينشره «ساخر».