فشل وكلاء الذكاء الاصطناعي في 76% من مهام العمل الحقيقية.. تقرير يكشف التحديات
كشف تقرير بحثي حديث عن نتائج صادمة لاختبار قياسي عالمي أُطلق عليه "Apex-Agents"، حيث أظهر أن وكلاء الذكاء الاصطناعي فشلوا في تنفيذ مهام وظائف "الياقات البيضاء" المعقدة بنسبة تصل إلى 76%. هذا التقييم، الذي شمل قطاعات حيوية مثل البنوك والاستشارات والقانون، وضع وعود الأتمتة الشاملة تحت المجهر النقدي.
النتائج أشارت إلى أن أقوى النماذج المتاحة حالياً، بما في ذلك "Gemini 3 Flash" من جوجل، حققت معدل نجاح لا يتجاوز 24% فقط في إنجاز المهام المطلوبة. هذه النسبة المنخفضة تثير تساؤلات حول مدى جاهزية الذكاء الاصطناعي لتحمل المسؤوليات الإدارية والتحليلية المعقدة في بيئات العمل الواقعية.
تكمن المشكلة الجوهرية، وفقاً لتقارير تقنية، في عدم قدرة هؤلاء الوكلاء على التعامل بفعالية مع المعلومات المشتتة عبر أدوات عمل متعددة مثل "Slack" و"Google Drive" بنفس مرونة البشر. يعاني الوكلاء من "فقدان السياق" عند التنقل بين المنصات المختلفة، مما يقود إلى أخطاء كبيرة في اتخاذ القرارات أو تنفيذ الأوامر الإدارية، ما يعني أن الأتمتة الكاملة لا تزال حلماً بعيد المنال.
علاوة على ذلك، أكدت التقارير أن 52% من قادة الشركات يرون أن المخاوف الأمنية ومتطلبات الامتثال تشكل العائق الأكبر أمام نشر هذه الوكلاء. الأغلبية الساحقة لا تزال تصر على ضرورة وجود إشراف بشري كامل على كل قرار يتخذه الذكاء الاصطناعي لضمان سلامة العمليات المالية والتجارية من أي أخطاء غير متوقعة.
أثبتت الاختبارات أن الذكاء الاصطناعي يواجه صعوبة بالغة في التنسيق بين المهام المتعددة التي تتطلب "فهماً دلالياً" متغيراً، مما يجعل الاعتماد عليه في مهام حساسة مثل مراجعة العقود القانونية أو التحليلات البنكية مغامرة تقنية غير محسوبة النتائج في الوقت الراهن. يرى الخبراء أن الموثوقية والحوكمة يجب أن تكونا أولوية قصوى على القدرات الحسابية الخام لبناء قوة عاملة سيليكونية ناجحة.