Go to list of users who liked
【MCP対応】声でAIエージェントを動かすアプリを作ったんだなも
アウトライン
前回記事
はじめに
会話型 AI エージェント – あなたの声を行動に変える
2025 年現在、音声入力ツールは急成長中です。代表例はSuper Whisper とAqua Voice。本記事では、まずこの 2 サービスを俯瞰します。
両者は音声 → テキスト で終わりません。文字起こし直後にLLM が要約・翻訳・体裁調整 を自動実行し、入力から文章加工までをワンストップで完結させます。
続いて、今回リリースしたOpen Super Whisper V2 を紹介します。V2 ではOpenAI Agents SDK を採用し、MCP (Model Context Protocol) に対応。声だけで様々なツールを持つ AI エージェントを操れる 新体験を実現しました。
1. Super Whisper & Aqua Voice
紹介動画
Super Whisper by KEITO(YouTube リンク)
Aqua Voice by taishiyade(YouTube リンク)
共通ポイント
- 音声→テキスト→LLM 文章加工 を一気通貫で提供
- アプリ・クリップボードから文脈を取得し、出力を自動フォーマット
- “キーボードレス”なワークスタイルを実現
サブスク費用
項目 | Super Whisper | Aqua Voice |
---|---|---|
Pro 料金 | $8.49 / 月 | $10 / 月 |
2. Open Super Whisper V2
2.1 コンセプト
「あなたの声を行動に変える」
- エージェント処理 — AI エージェントは、単純な文章加工に留まらず複雑なタスクを実行
- MCP 連携 —Playwright MCP などの外部ツールをエージェントに組み込み可能
💡MCP サーバーを探す
以下のリストから、Playwright MCP をはじめとするMCPサーバーを素早く発見できます。
- 公式サーバー集 —https://github.com/modelcontextprotocol/servers
- Awesome MCP Servers —https://github.com/punkpeye/awesome-mcp-servers
2.2 4 ステップ処理フロー
🎤 音声入力 → 📝 文字起こし → 🤖 エージェント処理 → 📋 結果出力
- 🎙️ 音声入力 — グローバルホットキーで即録音開始
- 📝 文字起こし —OpenAI Speech‑to‑Text API を利用
- 🤖 エージェント処理 —OpenAI Agents SDK で要約・検索・画像解析などを実行
- 📋 結果出力 — Markdown で整形し、自動クリップボード保存
2.3 活用例
Open Super Whisper V2 にはサンプルとして 6 つのエージェントが初期設定済みです。
ホットキー | 初期タスク例 | 活用シーン |
---|---|---|
Ctrl Alt 1 | 文字起こし | 会議・講義・ボイスメモを即テキスト化 |
Ctrl Alt 2 | 文書作成 | 「○○についてフォーマルなメールを書いて」→ 体裁済メール草稿を生成 |
Ctrl Alt 3 | 検索キーワード生成 | 長い質問を要約し、最適な Web 検索ワードを抽出 |
Ctrl Alt 4 | テキスト Q&A | クリップボードの文章を読み取り、要約+質問回答 |
Ctrl Alt 5 | 画像 Q&A | クリップボード画像を解析し、内容説明や洞察を提示 |
Ctrl Alt 6 | Web オートメーション | Playwright MCP でサイト巡回・データ収集・フォーム記入などを自動実行 |
📝 活用例 1:テキスト Q&A エージェント(Ctrl Alt 4)でメール返信作成
シーン:受信メールに対する返信の下書きを作成したい
操作:
- 返信したいメール本文をコピーしクリップボードに保存
- ホットキー
Ctrl Alt 4
を押す - 「このメールに対して、会議日程の調整に応じる旨の丁寧な返信を作成して」と話す
- 再度ホットキーを押す
結果:元メール内容を踏まえた適切な返信文が生成され、クリップボードに自動コピー(設定による)
活用:メールアプリに貼り付けて微調整後に送信
🔍 活用例 2:画像 Q&A エージェント(Ctrl Alt 5)でグラフ分析
シーン:図や表を分析したい
操作:
- グラフをスクリーンショットしクリップボードに保存
- ホットキー
Ctrl Alt 5
を押す - 「この売上グラフの傾向を分析して、来月の販売戦略を提案して」と話す
- 再度ホットキーを押す
結果:画像内容を AI が解析し、分析レポートと具体的提案を生成
活用:プレゼン資料や戦略会議での意思決定に活用
🌐 活用例 3:Web 自動操作エージェント(Ctrl Alt 6)で情報収集
シーン:競合他社の最新情報を自動収集したい
操作:
- ホットキー
Ctrl Alt 6
を押す - 「AI 業界の最新ニュースを検索して、今週の重要なトピックを 3 つ選んで要約して」と話す
- 再度ホットキーを押す
- ホットキー
結果:Playwright MCP が複数サイトを巡回しニュースを収集・解析、重要度順にランキングした要約レポートを生成
活用:週次レポートや市場動向分析として業務に活用
2.4 OpenAI API・SDK
Open Super Whisper V2 は、文字起こしのためにOpenAI Speech‑to‑Text API, エージェント処理のためにOpenAI Agents SDK を利用
※ Anthropic と Gemini はLiteLLM 経由で接続
(1) Speech‑to‑Text API
モデル | 特徴 |
---|---|
gpt-4o-transcribe | 最新の文字起こしモデル。最も高精度 |
gpt-4o-transcribe-mini | 軽量版。リアルタイム用途向き |
whisper-1 | 従来の文字起こしモデル |
(2) Agents SDK
モデル | プロバイダー | 代表的な用途 |
---|---|---|
gpt-4.1 | OpenAI | 専門的なコーディングモデル。精度と実用性のバランスが良い |
gpt-4o | OpenAI | マルチモーダル対応。音声・画像・テキストを扱える汎用モデル |
o3 | OpenAI | 最新の推論モデル。複雑な問題解決やコーディングに最適 |
o1 | OpenAI | 思考連鎖型推論モデル。研究・戦略立案・数学・科学に強い |
claude-opus-4 | Anthropic | 世界最高峰のコーディングモデル。長時間の複雑な作業に対応 |
claude-sonnet-4 | Anthropic | コスパ重視の高性能モデル。指示への追従性が高い |
gemini-2.5-pro | Gemini | Deep Think 搭載の高度推論モデル。数学とコーディングに優れる |
gemini-2.5-flash | Gemini | 価格性能比 No.1。トークン効率が良く調整可能な推論機能付き |
2.5 インストール & 使い方
- 最新リリースをダウンロード
- アプリを起動し OpenAI API キーを設定
- 録音 → AI エージェントを操る!
詳しくはマニュアル を参照してください。
まとめ
- Super Whisper / Aqua Voice が示すとおり、音声入力はLLM 連携で“文章加工”まで自動化 するフェーズへ
- Open Super Whisper V2 はエージェント処理まで自動化することで音声を行動に変換 でき、MCP 連携 によりツールの拡張性も◎
会話型 AI エージェントであなたの声を行動に変える—そんな未来を体験しませんか?
リンク集
- Super Whisper:
- KEITOチャンネルの Super Whisper 紹介動画:
- Aqua Voice:
- taishiyadeチャンネルの Aqua Voice 紹介動画:
- MCP 仕様:
- MCP 公式サーバー集:
- Awesome MCP Servers:
- Playwright MCP:
- OpenAI Agents SDK:
- LiteLLM - OpenAI Agents SDK:
- OpenAI Speech-to-Text API:
- Open Super Whisper V2:
リポジトリ
マニュアル
リリース
Register as a new user and use Qiita more conveniently
- You get articles that match your needs
- You can efficiently read back useful information
- You can use dark theme