أدوات الذكاء الاصطناعي تفشل في أداء المهام المالية الأساسية

بينما يتوقع عدد كبير من رواد التكنولوجيا أن الذكاء الاصطناعي سيحلّ محل البشر، وينجز حتى المهامّ المعقدة بسرعة ودقة، فقد دحضت دراسة مستقلة جديدة هذه التوقعات، إذ وجدت أن أدوات الذكاء الاصطناعي غالباً ما تفشل في أدائها عند تنفيذ المهام المالية الأساسية، كما كتبت نيتاشا تيكو، وأندريا خيمينيز في «واشنطن بوست».
22 نموذجاً للذكاء الاصطناعي- دقة أقل 50 %
أظهر اختبار لـ22 نموذجاً للذكاء الاصطناعي للأغراض العامة من «أوبن إيه آي» و«أنثروبيك»، و«إكس إيه آي»، و«ميتا»، و«غوغل»، وغيرها من الشركات الرائدة في مجال الذكاء الاصطناعي، أن جميعها حققت دقة للمهام البسيطة المطلوبة من المحللين الماليين المبتدئين، كانت أقل من 50 في المائة، في المتوسط.
قال رايان كريشنان، الرئيس التنفيذي لشركة فالس للذكاء الاصطناعي «Vals AI»، التي أجرت الدراسة: «إن مستوى الهراء (المصاحب للترويج للذكاء الاصطناعي) الذي نراه، منافٍ للعقل.
ويحقق أحدث نماذج الذكاء الاصطناعي نتائج جيدة في المعايير العامة التي تقيس مهارات الرياضيات أو البرمجة؛ لأن أسئلة هذه الاختبارات منتشرة على نطاق واسع عبر الإنترنت، ومن المرجح أنها أصبحت جزءاً من البيانات التي تُدرَّب عليها أنظمة الذكاء الاصطناعي».
وأضاف: «يُطلق الناس كثيراً من الادعاءات الجريئة حول الذكاء الاصطناعي، لكنها ليست حقيقية لأنها تحمل طابعاً ذاتياً... (وفي الواقع) ليس لدينا ما يُشبه مراجعة (للنتائج) من الأقران الآخرين أو مُدقّقي الحسابات التابعين لجهات خارجية».
500 سؤال لتقييم النماذج
ولتقييم النماذج، طوّرت «فالس للذكاء الاصطناعي» مجموعة بيانات خاصة تضم أكثر من 500 سؤال، كُتبت بالتعاون مع أحد البنوك الرائدة؛ لتقييم مهارات مثل أبحاث السوق والتوقعات.
واجهت معظم نماذج الذكاء الاصطناعي صعوبة في المهام الشائعة، مثل البحث عن معلومات حول «EDGAR»، وهي قاعدة بيانات عامة متاحة للجمهور تابعة لهيئة الأوراق المالية والبورصات الأميركية لملفات الشركات، وهي مورد أساسي للبيانات المالية يستخدمه المحللون والمساهمون والصحافيون ومُختارو الأسهم.
* نموذج «أوبن إيه آي»: حقق أحدث إصدار من الشركة o3، وهو نموذج «استدلال» مصمم للتحدث مع نفسه بصفته وسيلة لتوليد إجابات أكثر دقة عن الاستفسارات المعقدة، دقةً بنسبة 48.3 في المائة، في المتوسط، ولكن بتكلفة 3.69 دولار أميركي للسؤال الواحد في المتوسط.
* نموذج الاستدلال من «أنثروبيك»، المسمى «Claude 3.7 Sonnet»، حقق دقةً بنسبة 44.1 في المائة بسعر أقل بكثير بلغ 1.05 دولار أميركي للسؤال.
* نموذج «ميتا» للذكاء الاصطناعي الأكثر انفتاحاً نسبياً Llama، كان أداؤه ضعيفاً بشكل خاص، حيث سجلت ثلاثة إصدارات دقة أقل من 10 في المائة في المتوسط.
شركات لاختبار وتصنيف الذكاء الاصطناعي
تُعد «فالس إيه آي»، الشركة الناشئة التي تتخذ من سان فرنسيسكو مقراً لها، التي تقف وراء الدراسة، جزءاً من مجموعة متنامية من شركات الطرف الثالث التي تعد باختبار نماذج الذكاء الاصطناعي أو تصنيفها أو فحصها، في ظل ازدياد صعوبة تحليل الضجيج والتهويل في هذا المجال. ومن بين الشركات الجديدة الأخرى في هذا المجال، «Artificial Analysis»، و«Chatbot Arena»؛ وهو مشروع بحثي أكاديمي شهير تحوَّل أخيراً إلى شركة تُعرف الآن باسم «LMArena».
يقول كريشنان إن الاختبار الدقيق والمستقل لكيفية أداء وكلاء الذكاء الاصطناعي مهام محددة أمر حيوي لتقييم تأثيرها. ويضيف: «كانت هناك رؤية مفادها أن الذكاء الاصطناعي التوليدي من المرجح أن يكون له تأثير كبير على الاقتصاد. ومع ذلك، لا نعرف حتى في أي قطاعات الاقتصاد يمكن أن تحقق النماذج أداء جيداً وكيف سيبدو هذا التغيير فعلياً».
ويتابع كريشنان أن القطاع اعتمد، لفترة طويلة، على «التقييم بالاهتزازات»؛ أي اللعب بنموذج فردي، ونشر أمثلة فورية على منصة «إكس». إلا أن الشركات التي تفكر في شراء هذه الأدوات لزيادة أو استبدال العمال تحتاج إلى نهج تدقيق أكثر صرامة.
دقة أكبر للأدوات الذكية في الشؤون القانونية
أصدرت الشركة أخيراً سلسلة من الدراسات المماثلة التي تُقيّم أدوات الذكاء الاصطناعي في المهام القانونية، وتبحث في نماذج الذكاء الاصطناعي للأغراض العامة ووكلاء الذكاء الاصطناعي المُصممة للمحامين، وتختبرها على سلسلة من طلبات الاستعلامات الواقعية التي جرى تطويرها بالتعاون مع شركات المحاماة. كانت الدرجات أعلى بشكل عام في مجال القانون عنها في مجال المالية، مع متوسط معدلات دقة تتراوح بين 70 و80 في المائة لبعض النماذج نفسها.
الفرق بين الأداءين المالي والقانوني
ويُرجَّح أن يكون الأداء المتفوق في الشؤون القانونية ناتجاً عن توفير شركة «Vals AI» الوثائق اللازمة لمعظم المهام القانونية، بينما طلبت الدراسة المالية من النماذج «إجراء أبحاثها الخاصة على الإنترنت المفتوح؛ للتوصل إلى نتائج في السياق المطلوب»، وفقاً لكريشنان.
ورفضت «ميتا» التعليق على تقرير «فالس إيه آي»، ولم يستجب كل من «أوبن إيه آي» و«أنثروبيك» لطلبات التعليق.
وفي تقييمها المالي، وجدت شركة فالس للذكاء الاصطناعي أن أداء النماذج كان أسوأ بكثير مع ازدياد صعوبة المهام. وحصلت عشرة نماذج على صفر في الأسئلة التي طلبت من النموذج تحديد نمط لشركة واحدة عبر إيداعات الأوراق المالية المتكررة، مثل توفير إيرادات إعلانات «يوتيوب» كنسبة مئوية من إيرادات شركتها الأم «ألفابت»، من عام 2021 إلى 2024.
تقييمات متباينة وتلاعب الشركات
في المتوسط، كان أداء النماذج هو الأفضل في مهامّ استرجاع المعلومات الكمية والنوعية البسيطة، وهي مهام سهلة لكنها قد تستغرق وقتاً طويلاً بالنسبة للبشر، وفقاً لتحليل شركة «فالس إيه آي» للمتعاقدين البشريين الذين طُلب منهم أداء المهام نفسها.
وفي حالة منفصلة، أبلغت شركة «أوبن إيه آي» عن نتائج مختلفة لنموذج o3 الخاص بها في المسائل الرياضية، مقارنةً بنتائج مدقق حسابات خارجي. وفي تقييم على منصة «Chatbot Arena»، حيث يُصوّت المستخدمون لصالح الذكاء الاصطناعي المُفضّل لديهم، أفادت التقارير بأن «ميتا» تلاعبت بتصنيفات أحدث طرازاتها، «Llama 4»، من خلال نشر نسخة «مُحسَّنة للمحادثة». وتعليقاً على ذلك، قال متحدث باسم «ميتا»: نجرّب جميع أنواع الإصدارات المُخصصة.
تأثير الذكاء الاصطناعي على الوظائف
وقدمت دراسة القطاع المالي، التي أجرتها «Vals AI» منظوراً مختلفاً للتصريحات الأخيرة حول تأثير الذكاء الاصطناعي على فئات الوظائف.
فمثلاً صرح بيل غيتس، المؤسس المشارك لشركة مايكروسوفت، في فبراير (شباط)، بأن الذكاء الاصطناعي سيحلُّ محل الأطباء والمعلمين، خلال السنوات العشر المُقبلة. وفي مُقابلة بودكاست حديثة، قال فيكتور لازارتي، الشريك العام في «بينتشمارك»، إن تصريحات شركات التكنولوجيا حول «زيادة» الذكاء الاصطناعي للبشر مُضلِّلة، وأن المحامين ومسؤولي التوظيف يجب أن يشعروا بالقلق بشكل خاص.
تُشير رسالة فريق «فالس إيه آي» إلى أنه قد يكون من المُناسب إجراء تقييم أكثر تواضعاً لتأثير الذكاء الاصطناعي على كثير من الوظائف الإدارية. وقال كريشنان إنه على الرغم من أن الأنظمة تتحسن باستمرار، فإن فكرة أن أداة الذكاء الاصطناعي يمكنها القيام بعمل شخص من البداية إلى النهاية لا تزال «خيالية إلى حد ما».
aawsat.com