| name | ocr |
| description | Правила выбора между OCR (ocr_image) и Vision (describe_image) для обработки изображений. Триггер — пользователь загружает изображение с текстом или просит прочитать текст с фото. |
Skill: ocr
Определяет, когда использовать OCR для точной транскрипции текста, а когда Vision для описания сцены.
Когда использовать только ocr_image
- Скриншот переписки/диалога — нужно точно прочитать текст.
- Скан документа/чека/квитанции — задача прочитать цифры и текст.
- Таблица или расписания — точная транскрипция содержимого.
- Любое изображение, где основная задача — получить точный текст.
Когда использовать только describe_image
- Фото сцены/объекта без текста (пейзаж, здание, человек, животное).
- Фото с малозначительной подписью (небольшой текст на фоне).
- Запрос на описание визуального содержания («что на фото?», «опиши объект»).
- Ситуации, где важен визуальный контекст, а не точный текст.
Когда использовать describe_image + ocr_image
- Фото со смешанным содержимым (сцена с важными надписями/табличками).
- Когда нужно и описание сцены, и точная транскрипция текста.
- Фото с неизвестным содержанием — сначала описать через Vision, затем при необходимости применить OCR к областям с текстом.
Для PDF документов
Для PDF документов используй tool read_document — он сам решит, нужен ли OCR на основе количества текста в PDF. Не вызывай ocr_image напрямую для страниц PDF.
Порядок действий
- Если пользователь явно просит «прочитать текст» или «распознать» — используй
ocr_image.
- Если пользователь просит «описать» или «что на фото» — используй
describe_image.
- Если фото содержит и сцену, и текст — используй оба инструмента последовательно.
- Для PDF всегда используй
read_document.
Заметки
ocr_image работает только с изображениями в директории tmp/.
- OCR требует установленного tesseract-ocr (опциональная зависимость).
- Если OCR не установлен или не сработал —
ocr_image вернёт сообщение об ошибке.
- Кеш OCR сохраняется в
<file>.ocr.txt для ускорения повторных вызовов.