كشفت شركة التكنولوجيا الصينية العملاقة علي بابا النقاب عن نموذجين للغات الذكاء الاصطناعي قادرة على التعرف على الصور وإجراء المحادثات.
النموذجان اللذان أطلقتما على بابا هما: Qwen Large Vision Language Model و Qwen-VL Chat، وتوضحان تفسير الصور المتقدم وحوارات اللغة الطبيعية. ونظراً للطلب المتزايد على الوصول إلى خوارزميات الذكاء الاصطناعي المتقدمة، فإن نماذج اللغة التي تقدمها شركة علي بابا قد تأتي في الوقت المناسب تماماً.
ولا تقتصر نماذج اللغة المقدمة على فهم الرسائل النصية، حيث أن Qwen-VL قادرة على إدراك وفهم الصور والنصوص والامتثال للقيود. ويمكن للخوارزمية معالجة طلبات الصور المختلفة وإنشاء استجابات لها.
وتم تصميم Qwen VL Chat للتفاعلات الأكثر تعقيداً. على سبيل المثال، يمكنها مقارنة صور متعددة، والإجابة على سلسلة من الأسئلة، وكتابة قصص بناءً على الصور المقدمة من المستخدم. على سبيل المثال، يمكن للمستخدم أن يسأل الذكاء الاصطناعي عن موقع المستشفى باستخدام صورة اللافتة الخاصة به والحصول على إجابة دقيقة لهذا السؤال.
ومن مميزات نماذج اللغة المقدمة أنها تعمل بدقة عالية. ووفقاً لـ علي بابا، تتفوق Qwen-VL بشكل كبير على نماذج اللغات المماثلة مفتوحة المصدر الحالية في عدة معايير لتقييم اللغة الإنجليزية. وتدعم الخوارزمية أيضاً ميزة جديدة وهي ميزة "الاتصال المتداخل مع صور متعددة" والتي تفترض أن المستخدم يزود الذكاء الاصطناعي بعدة صور ثم يطرح أسئلة حولها.
وباستخدام معايير قياسية، قام خبراء علي بابا بتقييم قدرات الخوارزميات الجديدة لمهام تتراوح بين إنشاء التعليقات التوضيحية على الصور والإجابة على الأسئلة المتعلقة بالصور التي تم تحميلها. وتم اختبار كلا النموذجين أيضاً وفقاً لمعيار علي بابا.
وكانت شركة علي بابا واحدة من أوائل الشركات الصينية التي اعتمدت نظاماً توليدياً تنافسياً للذكاء الاصطناعي. ومن خلال إطلاق نماذج مفتوحة المصدر، تضمن شركة علي بابا أن يتمكن الباحثون والعلماء والشركات في جميع أنحاء العالم من استخدامها لبناء تطبيقاتهم الخاصة دون الحاجة إلى عملية تدريب الشبكات العصبية من الصفر والتي تستغرق وقتاً طويلاً وتكلفة كبيرة، بحسب موقع تيك نيوز سبيس.