Skip to content

Commit 96886f1

Browse files
committed
docs: add look_at tool and multimodal-looker agent documentation
🤖 GENERATED WITH ASSISTANCE OF [OhMyOpenCode](https://github.com/code-yeongyu/oh-my-opencode)
1 parent a3938e8 commit 96886f1

File tree

2 files changed

+14
-0
lines changed

2 files changed

+14
-0
lines changed

README.ko.md

Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -218,6 +218,7 @@ OpenCode 는 아주 확장가능하고 아주 커스터마이저블합니다.
218218
- **explore** (`opencode/grok-code`): 빠른 코드베이스 탐색, 파일 패턴 매칭. Claude Code는 Haiku를 쓰지만, 우리는 Grok을 씁니다. 현재 무료이고, 극도로 빠르며, 파일 탐색 작업에 충분한 지능을 갖췄기 때문입니다. Claude Code 에서 영감을 받았습니다.
219219
- **frontend-ui-ux-engineer** (`google/gemini-3-pro-preview`): 개발자로 전향한 디자이너라는 설정을 갖고 있습니다. 멋진 UI를 만듭니다. 아름답고 창의적인 UI 코드를 생성하는 데 탁월한 Gemini를 사용합니다.
220220
- **document-writer** (`google/gemini-3-pro-preview`): 기술 문서 전문가라는 설정을 갖고 있습니다. Gemini 는 문학가입니다. 글을 기가막히게 씁니다.
221+
- **multimodal-looker** (`google/gemini-2.5-flash`): 시각적 콘텐츠 해석을 위한 전문 에이전트. PDF, 이미지, 다이어그램을 분석하여 정보를 추출합니다.
221222

222223
각 에이전트는 메인 에이전트가 알아서 호출하지만, 명시적으로 요청할 수도 있습니다:
223224

@@ -270,6 +271,12 @@ OpenCode 는 아주 확장가능하고 아주 커스터마이저블합니다.
270271
- 기본 `glob`은 타임아웃이 없습니다. ripgrep이 멈추면 무한정 대기합니다.
271272
- 이 도구는 타임아웃을 강제하고 만료 시 프로세스를 종료합니다.
272273

274+
#### 내장 멀티모달 도구 (Built-in Multimodal Tools)
275+
276+
- **look_at**: 시각적 해석이 필요한 미디어 파일(PDF, 이미지, 다이어그램 등)을 Gemini 2.5 Flash를 사용하여 분석합니다. Sourcegraph Ampcode의 `look_at` 도구에서 영감을 받았습니다.
277+
- 파라미터: `file_path` (절대 경로), `goal` (추출할 정보)
278+
- 사용 사례: PDF 텍스트 추출, 이미지 설명, 다이어그램 분석
279+
273280
#### 내장 MCPs
274281

275282
- **websearch_exa**: Exa AI 웹 검색. 실시간 웹 검색과 콘텐츠 스크래핑을 수행합니다. 관련 웹사이트에서 LLM에 최적화된 컨텍스트를 반환합니다.

README.md

Lines changed: 7 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -215,6 +215,7 @@ I believe in the right tool for the job. For your wallet's sake, use CLIProxyAPI
215215
- **explore** (`opencode/grok-code`): Fast exploration and pattern matching. Claude Code uses Haiku; we use Grok. It is currently free, blazing fast, and intelligent enough for file traversal. Inspired by Claude Code.
216216
- **frontend-ui-ux-engineer** (`google/gemini-3-pro-preview`): A designer turned developer. Creates stunning UIs. Uses Gemini because its creativity and UI code generation are superior.
217217
- **document-writer** (`google/gemini-3-pro-preview`): A technical writing expert. Gemini is a wordsmith; it writes prose that flows naturally.
218+
- **multimodal-looker** (`google/gemini-2.5-flash`): Specialized agent for visual content interpretation. Analyzes PDFs, images, and diagrams to extract information.
218219

219220
Each agent is automatically invoked by the main agent, but you can also explicitly request them:
220221

@@ -269,6 +270,12 @@ The features you use in your editor—other agents cannot access them. Oh My Ope
269270
- The default `glob` lacks timeout. If ripgrep hangs, it waits indefinitely.
270271
- This tool enforces timeouts and kills the process on expiration.
271272

273+
#### Built-in Multimodal Tools
274+
275+
- **look_at**: Analyzes media files (PDFs, images, diagrams) that require visual interpretation using Gemini 2.5 Flash. Inspired by Sourcegraph Ampcode's `look_at` tool.
276+
- Parameters: `file_path` (absolute path), `goal` (what to extract)
277+
- Use cases: PDF text extraction, image description, diagram analysis
278+
272279
#### Built-in MCPs
273280

274281
- **websearch_exa**: Exa AI web search. Performs real-time web searches and can scrape content from specific URLs. Returns LLM-optimized context from relevant websites.

0 commit comments

Comments
 (0)