ocr

// Правила выбора между OCR (ocr_image) и Vision (describe_image) для обработки изображений. Триггер — пользователь загружает изображение с текстом или просит прочитать текст с фото.

name	ocr
description	Правила выбора между OCR (ocr_image) и Vision (describe_image) для обработки изображений. Триггер — пользователь загружает изображение с текстом или просит прочитать текст с фото.

Skill: ocr

Определяет, когда использовать OCR для точной транскрипции текста, а когда Vision для описания сцены.

Когда использовать только `ocr_image`

Скриншот переписки/диалога — нужно точно прочитать текст.
Скан документа/чека/квитанции — задача прочитать цифры и текст.
Таблица или расписания — точная транскрипция содержимого.
Любое изображение, где основная задача — получить точный текст.

Когда использовать только `describe_image`

Фото сцены/объекта без текста (пейзаж, здание, человек, животное).
Фото с малозначительной подписью (небольшой текст на фоне).
Запрос на описание визуального содержания («что на фото?», «опиши объект»).
Ситуации, где важен визуальный контекст, а не точный текст.

Когда использовать `describe_image` + `ocr_image`

Фото со смешанным содержимым (сцена с важными надписями/табличками).
Когда нужно и описание сцены, и точная транскрипция текста.
Фото с неизвестным содержанием — сначала описать через Vision, затем при необходимости применить OCR к областям с текстом.

Для PDF документов

Для PDF документов используй tool read_document — он сам решит, нужен ли OCR на основе количества текста в PDF. Не вызывай ocr_image напрямую для страниц PDF.

Порядок действий

Если пользователь явно просит «прочитать текст» или «распознать» — используй ocr_image.
Если пользователь просит «описать» или «что на фото» — используй describe_image.
Если фото содержит и сцену, и текст — используй оба инструмента последовательно.
Для PDF всегда используй read_document.

Заметки

ocr_image работает только с изображениями в директории tmp/.
OCR требует установленного tesseract-ocr (опциональная зависимость).
Если OCR не установлен или не сработал — ocr_image вернёт сообщение об ошибке.
Кеш OCR сохраняется в <file>.ocr.txt для ускорения повторных вызовов.

Skill: ocr

Определяет, когда использовать OCR для точной транскрипции текста, а когда Vision для описания сцены.

Когда использовать только ocr_image

Скриншот переписки/диалога — нужно точно прочитать текст.

Скан документа/чека/квитанции — задача прочитать цифры и текст.

Таблица или расписания — точная транскрипция содержимого.

Любое изображение, где основная задача — получить точный текст.

Когда использовать только describe_image

Фото сцены/объекта без текста (пейзаж, здание, человек, животное).

Фото с малозначительной подписью (небольшой текст на фоне).

Запрос на описание визуального содержания («что на фото?», «опиши объект»).

Ситуации, где важен визуальный контекст, а не точный текст.

Когда использовать describe_image + ocr_image

Фото со смешанным содержимым (сцена с важными надписями/табличками).

Когда нужно и описание сцены, и точная транскрипция текста.

Фото с неизвестным содержанием — сначала описать через Vision, затем при необходимости применить OCR к областям с текстом.

Для PDF документов

Порядок действий

Если пользователь явно просит «прочитать текст» или «распознать» — используй ocr_image.

Если пользователь просит «описать» или «что на фото» — используй describe_image.

Если фото содержит и сцену, и текст — используй оба инструмента последовательно.

Для PDF всегда используй read_document.

Заметки

ocr_image работает только с изображениями в директории tmp/.

OCR требует установленного tesseract-ocr (опциональная зависимость).

Если OCR не установлен или не сработал — ocr_image вернёт сообщение об ошибке.

Кеш OCR сохраняется в <file>.ocr.txt для ускорения повторных вызовов.

ocr

Skill: ocr

Когда использовать только ocr_image

Когда использовать только describe_image

Когда использовать describe_image + ocr_image

Для PDF документов

Порядок действий

Заметки

Skill: ocr

Когда использовать только ocr_image

Когда использовать только describe_image

Когда использовать describe_image + ocr_image

Для PDF документов

Порядок действий

Заметки

Когда использовать только `ocr_image`

Когда использовать только `describe_image`

Когда использовать `describe_image` + `ocr_image`

Когда использовать только `ocr_image`

Когда использовать только `describe_image`

Когда использовать `describe_image` + `ocr_image`