Run any Skill in Manus with one click

Get Started

arabic-agent-eval

Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic

Run Skill in Manus

Overview

Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic

Install command

npx skills add https://github.com/Moshe-ship/mkhlab --skill arabic-agent-eval

Copy and paste this command into Claude Code to install the skill

Source

Moshe-ship/mkhlab

Stars27

Forks5

UpdatedApril 7, 2026 at 00:54

SKILL.md

readonly

name	arabic-agent-eval
description	Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic
version	1.0.0
author	Mousa Abu Mazin
license	MIT
platforms	["linux","macos"]
prerequisites	{"commands":["aae"],"env_vars":[]}
metadata	{"hermes":{"tags":["arabic","evaluation","benchmark","function-calling","agent"],"related_skills":["arabic-toolproof","arabench"]}}

تقييم الوكلاء العرب — Arabic Agent Eval

أول معيار قياس لاستدعاء الأدوات بالعربي.

التثبيت

pip install arabic-agent-eval

الاستخدام

تقييم سريع

aae quick openai

تقييم كامل

aae run

مقارنة بين موفرين

aae compare openai anthropic

فئات التقييم

ست فئات:

استدعاء بسيط — اختيار الدالة الصحيحة واستخراج المعاملات
استخراج المعاملات — استخراج بيانات عربية من نص طبيعي
تفكير متعدد الخطوات — سلسلة استدعاءات متتابعة
معالجة اللهجات — فهم خليجي ومصري وشامي ومغاربي
اختيار الأداة — اختيار الأداة الصحيحة من عشر خيارات
معالجة الأخطاء — التعامل مع ردود الخطأ بالعربي

مجموعة البيانات

واحد وخمسين عنصر تقييم
خمس لهجات عربية
اثنين وعشرين دالة عربية (صلاة، زكاة، قرآن، أسهم تداول، وغيرها)
ثلاث مستويات صعوبة

التقييم

لكل عنصر:

اختيار الدالة: هل اختار الموديل الدالة الصحيحة؟
دقة المعاملات: هل المعاملات المستخرجة صحيحة؟
حفظ العربية: هل القيم العربية محفوظة ولا تُرجمت؟
فهم اللهجة: هل فهم الموديل اللهجة؟

إحصائيات المجموعة

aae dataset

More from this repository

same repository

adhan-player

Moshe-ship/mkhlab

Adhan audio playback with multiple muezzin voices

2026-04-0727

arab-travel

Moshe-ship/mkhlab

دليل السفر العربي — معلومات سياحية عن الدول العربية: تأشيرات، أماكن، تكاليف، نصائح

2026-04-0727

arabench

Moshe-ship/mkhlab

Arabic LLM benchmarking across 8 quality categories

2026-04-0727

arabic-code-review

Moshe-ship/mkhlab

مراجعة كود عربي — راجع الكود مع فحص التعامل مع النصوص العربية وRTL والتعليقات العربية

2026-04-0727

arabic-cooking

Moshe-ship/mkhlab

وصفات عربية — ابحث واقترح وصفات من المطبخ العربي (سعودي، مصري، شامي، مغربي، خليجي)

2026-04-0727

arabic-email

Moshe-ship/mkhlab

كاتب إيميلات عربية — اكتب رسائل بريد إلكتروني رسمية وشبه رسمية بالعربي بأسلوب احترافي

2026-04-0727

Source

Moshe-ship

Moshe-ship/mkhlab

View GitHub Repository View Creator Repositories

Install command

Download

Run Skill in Manus

Useful forSOC

Software Quality Assurance Analysts and TestersComputer and Mathematical Occupations15-1253L4

name	arabic-agent-eval
description	Arabic function-calling benchmark — evaluate how well LLMs handle tool calling in Arabic
version	1.0.0
author	Mousa Abu Mazin
license	MIT
platforms	["linux","macos"]
prerequisites	{"commands":["aae"],"env_vars":[]}
metadata	{"hermes":{"tags":["arabic","evaluation","benchmark","function-calling","agent"],"related_skills":["arabic-toolproof","arabench"]}}

تقييم الوكلاء العرب — Arabic Agent Eval

أول معيار قياس لاستدعاء الأدوات بالعربي.

التثبيت

pip install arabic-agent-eval

الاستخدام

تقييم سريع

aae quick openai

تقييم كامل

aae run

مقارنة بين موفرين

aae compare openai anthropic

فئات التقييم

ست فئات:

استدعاء بسيط — اختيار الدالة الصحيحة واستخراج المعاملات
استخراج المعاملات — استخراج بيانات عربية من نص طبيعي
تفكير متعدد الخطوات — سلسلة استدعاءات متتابعة
معالجة اللهجات — فهم خليجي ومصري وشامي ومغاربي
اختيار الأداة — اختيار الأداة الصحيحة من عشر خيارات
معالجة الأخطاء — التعامل مع ردود الخطأ بالعربي

مجموعة البيانات

واحد وخمسين عنصر تقييم
خمس لهجات عربية
اثنين وعشرين دالة عربية (صلاة، زكاة، قرآن، أسهم تداول، وغيرها)
ثلاث مستويات صعوبة

التقييم

لكل عنصر:

اختيار الدالة: هل اختار الموديل الدالة الصحيحة؟
دقة المعاملات: هل المعاملات المستخرجة صحيحة؟
حفظ العربية: هل القيم العربية محفوظة ولا تُرجمت؟
فهم اللهجة: هل فهم الموديل اللهجة؟

إحصائيات المجموعة

aae dataset