with one click
完整的 Windows 桌面控制。鼠标、键盘、屏幕截图 - 像人类一样与任何 Windows 应用程序交互。
npx skills add https://github.com/lza6/Claude-code-cli-config --skill windows-controlCopy and paste this command into Claude Code to install the skill
完整的 Windows 桌面控制。鼠标、键盘、屏幕截图 - 像人类一样与任何 Windows 应用程序交互。
npx skills add https://github.com/lza6/Claude-code-cli-config --skill windows-controlCopy and paste this command into Claude Code to install the skill
设置并使用 1Password CLI (op)。在安装 CLI、启用桌面应用集成、登录(单个或多个帐户)或通过 op 读取/注入/运行密钥时使用。
停止等待提示词,让工作继续进行。
Agent 体验守护系统。解决AI助手常见体验问题 :长时间无响应、任务卡死、中英文混用、状态不透明。包含看门狗监控、智能状态汇报、即时状态查询、语言一致性过滤、消息队列追踪。适用于所有渠道 ( QQ微信//Telegram飞书//Discord等 )。当用户抱怨等太久没回复、 “回复中英文混着”、 “不知道在干什么”时使用此技能。
针对 AI 代理 (Agent) 失败的结构化自调试工作流,包括捕捉、诊断、受控恢复和内省报告。
AI 代理的记忆管理工具 - 列表显示、搜索查找、摘要生成及记忆文件维护。包含 AI 驱动的摘要功能。
通过自主子代理编排复杂任务。将宏观任务分解为子任务,生成带有动态 SKILL.md 文件的专用子代理,协调基于文件的通信,整合结果,并在完成后解散代理。强制触发词:orchestrate (编排), multi-agent (多代理), decompose task (分解任务), spawn agents (孵化代理), sub-agents (子代理), parallel agents (并行代理), agent coordination (代理协调), task breakdown (任务拆解), meta-agent (元代理), agent factory (代理工厂), delegate tasks (委派任务)
| name | windows-control |
| description | 完整的 Windows 桌面控制。鼠标、键盘、屏幕截图 - 像人类一样与任何 Windows 应用程序交互。 |
Windows 的完整桌面自动化。像人类用户一样控制鼠标、键盘和屏幕。
所有脚本都位于“skills/windows-control/scripts/”中
py screenshot.py > output.b64
返回整个屏幕的 base64 PNG。
py click.py 500 300 # Left click at (500, 300)
py click.py 500 300 right # Right click
py click.py 500 300 left 2 # Double click
py type_text.py "Hello World"
在当前光标位置键入文本(按键之间间隔 10 毫秒)。
py key_press.py "enter"
py key_press.py "ctrl+s"
py key_press.py "alt+tab"
py key_press.py "ctrl+shift+esc"
py mouse_move.py 500 300
将鼠标移动到坐标(平滑的 0.2 秒动画)。
py scroll.py up 5 # Scroll up 5 notches
py scroll.py down 10 # Scroll down 10 notches
py focus_window.py "Chrome" # Bring window to front
py minimize_window.py "Notepad" # Minimize window
py maximize_window.py "VS Code" # Maximize window
py close_window.py "Calculator" # Close window
py get_active_window.py # Get title of active window
# Click by text (No coordinates needed!)
py click_text.py "Save" # Click "Save" button anywhere
py click_text.py "Submit" "Chrome" # Click "Submit" in Chrome only
# Drag and Drop
py drag.py 100 100 500 300 # Drag from (100,100) to (500,300)
# Robust Automation (Wait/Find)
py wait_for_text.py "Ready" "App" 30 # Wait up to 30s for text
py wait_for_window.py "Notepad" 10 # Wait for window to appear
py find_text.py "Login" "Chrome" # Get coordinates of text
py list_windows.py # List all open windows
py read_window.py "Notepad" # Read all text from Notepad
py read_window.py "Visual Studio" # Read text from VS Code
py read_window.py "Chrome" # Read text from browser
使用 Windows UI 自动化提取实际文本(不是 OCR)。比截图更快、更准确!
py read_ui_elements.py "Chrome" # All interactive elements
py read_ui_elements.py "Chrome" --buttons-only # Just buttons
py read_ui_elements.py "Chrome" --links-only # Just links
py read_ui_elements.py "Chrome" --json # JSON output
返回带有点击坐标的按钮、链接、选项卡、复选框、下拉列表。
py read_webpage.py # Read active browser
py read_webpage.py "Chrome" # Target Chrome specifically
py read_webpage.py "Chrome" --buttons # Include buttons
py read_webpage.py "Chrome" --links # Include links with coords
py read_webpage.py "Chrome" --full # All elements (inputs, images)
py read_webpage.py "Chrome" --json # JSON output
增强了浏览器内容提取,包括标题、文本、按钮和链接。
# List all open dialogs
py handle_dialog.py list
# Read current dialog content
py handle_dialog.py read
py handle_dialog.py read --json
# Click button in dialog
py handle_dialog.py click "OK"
py handle_dialog.py click "Save"
py handle_dialog.py click "Yes"
# Type into dialog text field
py handle_dialog.py type "myfile.txt"
py handle_dialog.py type "C:\path\to\file" --field 0
# Dismiss dialog (auto-finds OK/Close/Cancel)
py handle_dialog.py dismiss
# Wait for dialog to appear
py handle_dialog.py wait --timeout 10
py handle_dialog.py wait "Save As" --timeout 5
处理保存/打开对话框、消息框、警报、确认等。
py click_element.py "Save" # Click "Save" anywhere
py click_element.py "OK" --window "Notepad" # In specific window
py click_element.py "Submit" --type Button # Only buttons
py click_element.py "File" --type MenuItem # Menu items
py click_element.py --list # List clickable elements
py click_element.py --list --window "Chrome" # List in specific window
按名称单击按钮、链接、菜单项,无需坐标。
py read_region.py 100 100 500 300 # Read text from coordinates
注意:需要安装 Tesseract OCR。使用 read_window.py 代替以获得更好的结果。
# Press Windows key
py key_press.py "win"
# Type "notepad"
py type_text.py "notepad"
# Press Enter
py key_press.py "enter"
# Wait a moment, then type
py type_text.py "Hello from AI!"
# Save
py key_press.py "ctrl+s"
# Read current VS Code content
py read_window.py "Visual Studio Code"
# Click at specific location (e.g., file explorer)
py click.py 50 100
# Type filename
py type_text.py "test.js"
# Press Enter
py key_press.py "enter"
# Verify new file opened
py read_window.py "Visual Studio Code"
# Read current content
py read_window.py "Notepad"
# User types something...
# Read updated content (no screenshot needed!)
py read_window.py "Notepad"
方法 1:Windows UI 自动化(最佳)
Method 2: Click by Name (NEW)
方法 3:对话框处理(新)
方法4:屏幕截图+视觉(后备)
方法 5:OCR(可选)
read_region.py 与 Tesseract 一起使用pyautogui.FAILSAFE = True(将鼠标移至左上角以中止)状态: ✅ 准备使用(v2.0 - 对话框和 UI 元素) 创建时间: 2026-02-01 更新时间: 2026-02-02