| name | arabic-agent-eval |
| description | Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic |
| version | 1.0.0 |
| author | Mousa Abu Mazin |
| license | MIT |
| platforms | ["linux","macos"] |
| prerequisites | {"commands":["aae"],"env_vars":[]} |
| metadata | {"hermes":{"tags":["arabic","evaluation","benchmark","function-calling","agent"],"related_skills":["arabic-toolproof","arabench"]}} |
تقييم الوكلاء العرب — Arabic Agent Eval
أول معيار قياس لاستدعاء الأدوات بالعربي.
التثبيت
pip install arabic-agent-eval
الاستخدام
تقييم سريع
aae quick openai
تقييم كامل
aae run
مقارنة بين موفرين
aae compare openai anthropic
فئات التقييم
ست فئات:
- استدعاء بسيط — اختيار الدالة الصحيحة واستخراج المعاملات
- استخراج المعاملات — استخراج بيانات عربية من نص طبيعي
- تفكير متعدد الخطوات — سلسلة استدعاءات متتابعة
- معالجة اللهجات — فهم خليجي ومصري وشامي ومغاربي
- اختيار الأداة — اختيار الأداة الصحيحة من عشر خيارات
- معالجة الأخطاء — التعامل مع ردود الخطأ بالعربي
مجموعة البيانات
- واحد وخمسين عنصر تقييم
- خمس لهجات عربية
- اثنين وعشرين دالة عربية (صلاة، زكاة، قرآن، أسهم تداول، وغيرها)
- ثلاث مستويات صعوبة
التقييم
لكل عنصر:
- اختيار الدالة: هل اختار الموديل الدالة الصحيحة؟
- دقة المعاملات: هل المعاملات المستخرجة صحيحة؟
- حفظ العربية: هل القيم العربية محفوظة ولا تُرجمت؟
- فهم اللهجة: هل فهم الموديل اللهجة؟
إحصائيات المجموعة
aae dataset