Run any Skill in Manus with one click

$pwd:

adaline-evaluations

Name: Adaline Evaluations
Author: adaline

// Run and manage evaluations in Adaline to test prompt quality at scale. Use when creating evaluation runs, polling status, analyzing results, or cancelling runs.

Run Skill in Manus

$ git log --oneline --stat

stars:2

forks:0

updated:May 21, 2026 at 20:01

File Explorer

2 files

SKILL.md

readonly

name	adaline-evaluations
description	Run and manage evaluations in Adaline to test prompt quality at scale. Use when creating evaluation runs, polling status, analyzing results, or cancelling runs.

Adaline Evaluations

Concepts

Evaluations run a prompt against a dataset and score each row with one evaluator. They are asynchronous: create a run, poll its status, then read paginated results.

Key terms:

Evaluation — one run, identified by runId
Evaluator — the scoring configuration, identified by evaluatorId
Dataset — rows that provide prompt inputs and optional expected values
Grade — pass, fail, or unknown
Metrics — aggregate pass/fail/unknown counts, cost, latency, and token count

Status Lifecycle

queued -> running -> completed
                  -> failed
                  -> cancelling -> cancelled

Configuration

Set these environment variables when credentials are available:

ADALINE_API_KEY — workspace API key from Admin > API Keys
ADALINE_PROMPT_ID — prompt to evaluate
ADALINE_EVALUATOR_ID — evaluator to run
ADALINE_DATASET_ID — optional dataset override

Base URL: https://api.adaline.ai/v2

Quick Triage

Symptom	First Fix
Create body rejected	Use singular `evaluatorId`, not the old plural evaluator field
Follow-up GET returns 404	Use response `runId` as the `{evaluationId}` path parameter
Results missing row data	Add `expand=row` on the results endpoint
Pagination skips results	Use `pagination.nextCursor`, not page numbers
Python example returns coroutine	Await SDK methods inside an asyncio event loop

Running an Evaluation

Step 1 — Create run

curl -X POST "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations" \
  -H "Authorization: Bearer $ADALINE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "evaluatorId": "evaluator_abc123",
    "datasetId": "dataset_abc123"
  }'

The response returns runId. Use that value as evaluationId in status/results/cancel calls.

Step 2 — Poll status

curl "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations/$RUN_ID" \
  -H "Authorization: Bearer $ADALINE_API_KEY"

Step 3 — Fetch results

curl "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations/$RUN_ID/results?grade=fail&expand=row&limit=50" \
  -H "Authorization: Bearer $ADALINE_API_KEY"

Step 4 — Cancel if needed

curl -X POST "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations/$RUN_ID/cancel" \
  -H "Authorization: Bearer $ADALINE_API_KEY"

SDK Usage

const run = await adaline.prompts.evaluations.create({
  promptId,
  evaluation: { evaluatorId, datasetId },
});

const status = await adaline.prompts.evaluations.get({
  promptId,
  evaluationId: run.runId,
});

const results = await adaline.prompts.evaluations.results.list({
  promptId,
  evaluationId: run.runId,
  grade: 'fail',
  expand: 'row',
});

run = await adaline.prompts.evaluations.create(
    prompt_id=prompt_id,
    evaluation=CreateEvaluationRequest(evaluator_id=evaluator_id, dataset_id=dataset_id),
)

status = await adaline.prompts.evaluations.get(
    prompt_id=prompt_id,
    evaluation_id=run.run_id,
)

results = await adaline.prompts.evaluations.results.list(
    prompt_id=prompt_id,
    evaluation_id=run.run_id,
    grade="fail",
    expand="row",
)

Best Practices

Use one evaluator per run; create multiple runs when you need multiple evaluators.
Persist runId in CI or job metadata so later steps can poll and fetch results.
Poll status with backoff; do not tight-loop.
Gate deploy/promotion on terminal status and acceptable metrics.
Inspect failing rows with grade=fail&expand=row.

References

See references/api.md for request/response schemas and curl examples.

related-skills.json

same repository

adaline-datasets.md

from "adaline/skills"

Create and manage evaluation datasets in Adaline. Use when building test cases, adding dataset columns/rows, importing data, or triggering dynamic columns.

2026-05-212

adaline-deployments.md

from "adaline/skills"

Fetch deployed prompt snapshots from Adaline at runtime. Use when integrating prompt deployments, environment-based latest lookups, prompt caching, or pinned deployment IDs.

2026-05-212

adaline-evaluators.md

from "adaline/skills"

Create and manage evaluators in Adaline to score prompt outputs. Use when setting up LLM-as-a-judge, JavaScript, text-matcher, cost, latency, or response-length evaluators.

2026-05-212

adaline-integration.md

from "adaline/skills"

High-level guide for integrating your AI application with Adaline. Use when starting a new Adaline integration, choosing between API/SDK approaches, or planning which Adaline features to adopt.

2026-05-212

adaline-logs.md

from "adaline/skills"

Send traces and spans to Adaline for AI agent observability. Use when instrumenting LLM calls, tools, retrieval, embeddings, guardrails, or custom operations.

2026-05-212

adaline-prompts.md

from "adaline/skills"

Create and manage prompts in Adaline via the v2 API or SDK clients. Use when programmatically creating prompts, updating prompt drafts, listing prompts, or reading prompt/playground data.

2026-05-212

package.json

"author": "adaline"

"repository": "adaline/skills"

View GitHub Repository View Creator Repositories

$ install --global

$ download --local

Run Skill in Manus

$ useful --forSOC

Software DevelopersComputer and Mathematical Occupations15-1252L4

name	adaline-evaluations
description	Run and manage evaluations in Adaline to test prompt quality at scale. Use when creating evaluation runs, polling status, analyzing results, or cancelling runs.

Adaline Evaluations

Concepts

Evaluations run a prompt against a dataset and score each row with one evaluator. They are asynchronous: create a run, poll its status, then read paginated results.

Key terms:

Evaluation — one run, identified by runId
Evaluator — the scoring configuration, identified by evaluatorId
Dataset — rows that provide prompt inputs and optional expected values
Grade — pass, fail, or unknown
Metrics — aggregate pass/fail/unknown counts, cost, latency, and token count

Status Lifecycle

queued -> running -> completed
                  -> failed
                  -> cancelling -> cancelled

Configuration

Set these environment variables when credentials are available:

ADALINE_API_KEY — workspace API key from Admin > API Keys
ADALINE_PROMPT_ID — prompt to evaluate
ADALINE_EVALUATOR_ID — evaluator to run
ADALINE_DATASET_ID — optional dataset override

Base URL: https://api.adaline.ai/v2

Quick Triage

Symptom	First Fix
Create body rejected	Use singular `evaluatorId`, not the old plural evaluator field
Follow-up GET returns 404	Use response `runId` as the `{evaluationId}` path parameter
Results missing row data	Add `expand=row` on the results endpoint
Pagination skips results	Use `pagination.nextCursor`, not page numbers
Python example returns coroutine	Await SDK methods inside an asyncio event loop

Running an Evaluation

Step 1 — Create run

curl -X POST "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations" \
  -H "Authorization: Bearer $ADALINE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "evaluatorId": "evaluator_abc123",
    "datasetId": "dataset_abc123"
  }'

The response returns runId. Use that value as evaluationId in status/results/cancel calls.

Step 2 — Poll status

curl "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations/$RUN_ID" \
  -H "Authorization: Bearer $ADALINE_API_KEY"

Step 3 — Fetch results

curl "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations/$RUN_ID/results?grade=fail&expand=row&limit=50" \
  -H "Authorization: Bearer $ADALINE_API_KEY"

Step 4 — Cancel if needed

curl -X POST "https://api.adaline.ai/v2/prompts/$ADALINE_PROMPT_ID/evaluations/$RUN_ID/cancel" \
  -H "Authorization: Bearer $ADALINE_API_KEY"

SDK Usage

const run = await adaline.prompts.evaluations.create({
  promptId,
  evaluation: { evaluatorId, datasetId },
});

const status = await adaline.prompts.evaluations.get({
  promptId,
  evaluationId: run.runId,
});

const results = await adaline.prompts.evaluations.results.list({
  promptId,
  evaluationId: run.runId,
  grade: 'fail',
  expand: 'row',
});

run = await adaline.prompts.evaluations.create(
    prompt_id=prompt_id,
    evaluation=CreateEvaluationRequest(evaluator_id=evaluator_id, dataset_id=dataset_id),
)

status = await adaline.prompts.evaluations.get(
    prompt_id=prompt_id,
    evaluation_id=run.run_id,
)

results = await adaline.prompts.evaluations.results.list(
    prompt_id=prompt_id,
    evaluation_id=run.run_id,
    grade="fail",
    expand="row",
)

Best Practices

Use one evaluator per run; create multiple runs when you need multiple evaluators.
Persist runId in CI or job metadata so later steps can poll and fetch results.
Poll status with backoff; do not tight-loop.
Gate deploy/promotion on terminal status and acceptable metrics.
Inspect failing rows with grade=fail&expand=row.

References

See references/api.md for request/response schemas and curl examples.

adaline-evaluations

Adaline Evaluations

Concepts

Status Lifecycle

Configuration

Quick Triage

Running an Evaluation

Step 1 — Create run

Step 2 — Poll status

Step 3 — Fetch results

Step 4 — Cancel if needed

SDK Usage

Best Practices

References

More from this repository

More from this repository

Adaline Evaluations

Concepts

Status Lifecycle

Configuration

Quick Triage

Running an Evaluation

Step 1 — Create run

Step 2 — Poll status

Step 3 — Fetch results

Step 4 — Cancel if needed

SDK Usage

Best Practices

References