الذكاء الاصطناعي يفشل في المهام المالية اليومية.. ما القصة

الأحد 2025-05-25

منذ ظهور "شات جي بي تي" في نهاية عام 2022 ومطلع العام الذي يليه، تعالت الأصوات من مختلف بقاع العالم في مختلف الوظائف خوفًا من استيلاء هذه التقنية على الوظائف في العالم، وهي الأصوات التي لم تثن الشركات عن تطوير هذه النماذج بشكل أكثر وأقوى في مسعى منها لزيادة قدراتها.

ومن أجل قياس هذه القدرات، تقوم الشركات باختبارات مستمرة، وهي الاختبارات التي تنجح فيها نماذج الذكاء الاصطناعي بشكل باهر، ولكن هذه النجاحات كانت سببًا لإثارة شكوك ريان كريشنان الذي قرر لاحقًا تأسيس شركة وأطلق عليها "فالس إيه آي" (Vals AI).

تسعى "فالس إيه آي" لاختبار نماذج الذكاء الاصطناعي بشكل مستقل وبعيد عن الشركات، وذلك عبر مجموعة من الاختبارات المكثفة للتيقن من جودة هذه النماذج واكتشاف نقاط الضعف فيها. وبحسب الاختبارات التي أجرتها "فالس إيه آي" على 22 نموذجا عاما للذكاء الاصطناعي من "أوبن إيه آي" و"غوغل" وآنثروبيك" و"إكس" وغيرها، فإن جميع هذه النماذج سجلت أقل من 50% في اختبارات الدقة المتعلقة بالتحليل والجوانب المالية المتنوعة، وتجدر الإشارة إلى أن هذه الاختبارات لم تكن اختبارات معقدة، بل كانت لمهام مالية بسيطة، فكيف حدث هذا؟

فجوة بين قاعدة معلومات التدريب والاستخدامات الحقيقية

يرى كريشنان أن الادعاءات المتعلقة بجودة نماذج الذكاء الاصطناعي ودقتها تفتقر بشكل كبير إلى الدقة، وذلك لأنها تأتي مباشرة من الشركة المطورة للنموذج مع غياب أدوات المراجعة والتقييم الخارجية، لذا كان يجب إيجاد حل خارجي لتقييم نماذج الذكاء الاصطناعي المختلفة وأدواتها.

وفي حديثه مع صحيفة "واشنطن بوست"، أشار كيرشنان إلى أن معظم نماذج الذكاء الاصطناعي تُدرّب على أبحاث علمية وأوراق بحثية بحتة، وهي في أغلب الأحيان لا تمتّ إلى الواقع والاستخدامات اليومية بصلة، ولذلك أحيانًا تكون النتائج جيدة علميا ولكنها سيئة عمليا.

دفع هذا "فالس إيه آي" إلى تطوير اختبار ذكاء اصطناعي مكون من 500 سؤال بمساعدة إحدى المؤسسات المالية الرائدة من أجل بناء اختبار فعال في القطاع المالي تحديدًا، وتحديد مستوى جودة نماذج الذكاء الاصطناعي ودقتها.

وأضاف أيضًا أن معظم اختبارات الذكاء الاصطناعي تتم عبر مجموعة من الأسئلة العامة والبيانات العلمية الواردة في الأوراق البحثية، وهي بيانات متوفرة لأغلب نماذج الذكاء الاصطناعي في العالم ويمكن الوصول إليها بسهولة كبيرة، وهو ما يجعل نتائج الاختبارات إيجابية دومًا.

وعن الاختبار الذي أجرته "فالس إيه آي"، قال كريشنان إن الاختبار تضمن مجموعة من المهام المتنوعة والأساسية لكل من يعمل في أسواق المال وحتى الصحفيين الذين يغطون عالم المال بشكل مستمر حتى أصبحت لديهم خبرة كافية. شمل الاختبار أسئلة مثل البحث عن معلومات داخل أنظمة "إدغار" (EDGAR) لتخزين البيانات في الشركات، أو حتى قاعدة بيانات هيئة الأوراق المالية والبورصات المتاحة للعامة والتي تحتوي على ملفات الشركات، وهي جميعًا موارد يستخدمها المحللون والخبراء ويحتاجون إليها بشكل يومي.

أقل من 50% لجميع النماذج

بحسب تقرير "واشنطن بوست"، فإن اختبار "فالس إيه آي" أثمر عن نتائج متدنية لنماذج الذكاء الاصطناعي التي لم تتخطّ نتائجها معًا 50% من إجمالي النتائج في الاختبار. فمثلًا، تمكن نموذج "أوبن إيه آي أو 3" الأحدث من الشركة من تحقيق نتيجة 48.3% رغم كونه مخصصًا لهذا النوع من الأبحاث والمعلومات.

ومن ناحية نموذج "آثنروبيك" الأحدث "كلود سونيت 3.7" (Claude Sonnet 3.7)، فقد تمكن النموذج من تحقيق نسبة 44.1%. وأما نماذج "ميتا" الثلاثة "إل إل إم إيه" (LLMA)، فقد كانت نتائجها مخيبة للآمال بشكل كبير، إذ لم تتجاوز نتائجها 10% في الاختبارات جميعها.

بالطبع، تجاهلت هذه الشركات اختبارات "فالس إيه آي" ورفضت التعليق عليها تمامًا، وذلك سواء كان من قبل "أوبن إيه آي" أو غيرها من الشركات التي تجاهلت نتائج الاختبارات بالكامل.

معظم نماذج الذكاء الاصطناعي تُدرّب على أبحاث علمية وأوراق بحثية بحتة (شترستوك)

لماذا هذه النتائج السيئة؟

توجد العديد من الأسباب المنطقية التي تجعل نتائج الذكاء الاصطناعي سيئة إلى هذه الدرجة، بدءًا من اعتماد الذكاء الاصطناعي على مجموعة من المواد غير الدقيقة في الاختبارات وحتى المواد العلمية البحتة التي لا تتطرق إلى الأسئلة الحقيقية التي يحتاجها الخبراء.

وعلى النقيض، فإن الشركة اعتمدت على الخبراء لبناء مكتبة الأسئلة الخاصة بها، وذلك من دون تزويد النموذج بالمستندات والتدريب اللازم للوصول إلى هذه النتائج، إذ وُجّهت الأسئلة مباشرة إلى النماذج من دون تقديم سياق حقيقي لها.

صيحة جديدة في عالم الذكاء الاصطناعي

تعد شركة "فالس إيه آي" من الشركات الناشئة الجديدة في قطاع الذكاء الاصطناعي والتي تسعى للتيقن والتأكد من نتائج اختبارات النماذج المختلفة وتدقيق النماذج، وذلك كاستجابة مباشرة لتنوع نماذج الذكاء الاصطناعي وطرح العديد منها باستمرار.

ويرى كريشنان أن الاعتماد على اختبارات الشركات الخارجية مثل "فالس إيه آي" هو الطريق الوحيد لتطوير نماذج الذكاء الاصطناعي وبناء روبوتات دردشة حقيقية قادرة على مساعدة المستخدمين في التحديات الحقيقية التي يواجهونها.

وفي هذه الحالة، فإن الذكاء الاصطناعي لن يأخذ مكان البشر بل سيكون أداة لتيسير أداء العمل والانتهاء منه في وقت سريع وقياسي، شريطة أن تكون النتائج دقيقة ويمكن أن يعتمد عليها الخبراء.

هل يستبدل الذكاء الاصطناعي البشر تمامًا؟

في فبراير/شباط الماضي، قال بيل غيتس مؤسس "مايكروسوفت" إن الذكاء الاصطناعي سيأخذ مكان العديد من الوظائف البشرية مثل الأطباء والمعلمين، وهو الأمر الذي أيده فيكتور لازارتي المستثمر الأبرز في العديد من الشركات التقنية، إذ قال إن دور الذكاء الاصطناعي لن يقتصر على تعزيز المهام البشرية فقط.

ولكن ما مدى صحة هذه النظريات والتصريحات في ضوء نتائج اختبارات "فالس إيه آي" التي أثبتت قصر قدرات الذكاء الاصطناعي في بعض المجالات؟

aljazeera.net