Movatterモバイル変換


[0]ホーム

URL:


LoginSignup
7

Go to list of users who liked

3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【MCP対応】声でAIエージェントを動かすアプリを作ったんだなも

Last updated atPosted at 2025-06-16

アウトライン

前回記事

はじめに

会話型 AI エージェント – あなたの声を行動に変える

2025 年現在、音声入力ツールは急成長中です。代表例はSuper WhisperAqua Voice。本記事では、まずこの 2 サービスを俯瞰します。

両者は音声 → テキスト で終わりません。文字起こし直後にLLM が要約・翻訳・体裁調整 を自動実行し、入力から文章加工までをワンストップで完結させます。

続いて、今回リリースしたOpen Super Whisper V2 を紹介します。V2 ではOpenAI Agents SDK を採用し、MCP (Model Context Protocol) に対応。声だけで様々なツールを持つ AI エージェントを操れる 新体験を実現しました。

1. Super Whisper & Aqua Voice

紹介動画

Super Whisper by KEITOYouTube リンク)  

Aqua Voice by taishiyadeYouTube リンク)  

共通ポイント

  • 音声→テキスト→LLM 文章加工 を一気通貫で提供
  • アプリ・クリップボードから文脈を取得し、出力を自動フォーマット
  • “キーボードレス”なワークスタイルを実現

サブスク費用

項目Super WhisperAqua Voice
Pro 料金$8.49 / 月$10 / 月

2. Open Super Whisper V2

demo.gif

2.1 コンセプト

「あなたの声を行動に変える」

  • エージェント処理 — AI エージェントは、単純な文章加工に留まらず複雑なタスクを実行
  • MCP 連携Playwright MCP などの外部ツールをエージェントに組み込み可能

💡MCP サーバーを探す

以下のリストから、Playwright MCP をはじめとするMCPサーバーを素早く発見できます。

2.2 4 ステップ処理フロー

🎤 音声入力 → 📝 文字起こし → 🤖 エージェント処理 → 📋 結果出力
  1. 🎙️ 音声入力 — グローバルホットキーで即録音開始
  2. 📝 文字起こしOpenAI Speech‑to‑Text API を利用
  3. 🤖 エージェント処理OpenAI Agents SDK で要約・検索・画像解析などを実行
  4. 📋 結果出力 — Markdown で整形し、自動クリップボード保存

2.3 活用例

Open Super Whisper V2 にはサンプルとして 6 つのエージェントが初期設定済みです。

ホットキー初期タスク例活用シーン
Ctrl Alt 1文字起こし会議・講義・ボイスメモを即テキスト化
Ctrl Alt 2文書作成「○○についてフォーマルなメールを書いて」→ 体裁済メール草稿を生成
Ctrl Alt 3検索キーワード生成長い質問を要約し、最適な Web 検索ワードを抽出
Ctrl Alt 4テキスト Q&Aクリップボードの文章を読み取り、要約+質問回答
Ctrl Alt 5画像 Q&Aクリップボード画像を解析し、内容説明や洞察を提示
Ctrl Alt 6Web オートメーションPlaywright MCP でサイト巡回・データ収集・フォーム記入などを自動実行

📝 活用例 1:テキスト Q&A エージェント(Ctrl Alt 4)でメール返信作成

メール返信作成

  1. シーン:受信メールに対する返信の下書きを作成したい

  2. 操作

    • 返信したいメール本文をコピーしクリップボードに保存
    • ホットキーCtrl Alt 4 を押す
    • 「このメールに対して、会議日程の調整に応じる旨の丁寧な返信を作成して」と話す
    • 再度ホットキーを押す
  3. 結果:元メール内容を踏まえた適切な返信文が生成され、クリップボードに自動コピー(設定による)

  4. 活用:メールアプリに貼り付けて微調整後に送信

🔍 活用例 2:画像 Q&A エージェント(Ctrl Alt 5)でグラフ分析

グラフ分析

  1. シーン:図や表を分析したい

  2. 操作

    • グラフをスクリーンショットしクリップボードに保存
    • ホットキーCtrl Alt 5 を押す
    • 「この売上グラフの傾向を分析して、来月の販売戦略を提案して」と話す
    • 再度ホットキーを押す
  3. 結果:画像内容を AI が解析し、分析レポートと具体的提案を生成

  4. 活用:プレゼン資料や戦略会議での意思決定に活用

🌐 活用例 3:Web 自動操作エージェント(Ctrl Alt 6)で情報収集

情報収集

  1. シーン:競合他社の最新情報を自動収集したい

  2. 操作

    • ホットキーCtrl Alt 6 を押す
    • 「AI 業界の最新ニュースを検索して、今週の重要なトピックを 3 つ選んで要約して」と話す
    • 再度ホットキーを押す
  3. 結果:Playwright MCP が複数サイトを巡回しニュースを収集・解析、重要度順にランキングした要約レポートを生成

  4. 活用:週次レポートや市場動向分析として業務に活用

2.4 OpenAI API・SDK

Open Super Whisper V2 は、文字起こしのためにOpenAI Speech‑to‑Text API, エージェント処理のためにOpenAI Agents SDK を利用
※ Anthropic と Gemini はLiteLLM 経由で接続

(1) Speech‑to‑Text API

モデル特徴
gpt-4o-transcribe最新の文字起こしモデル。最も高精度
gpt-4o-transcribe-mini軽量版。リアルタイム用途向き
whisper-1従来の文字起こしモデル

(2) Agents SDK

モデルプロバイダー代表的な用途
gpt-4.1OpenAI専門的なコーディングモデル。精度と実用性のバランスが良い
gpt-4oOpenAIマルチモーダル対応。音声・画像・テキストを扱える汎用モデル
o3OpenAI最新の推論モデル。複雑な問題解決やコーディングに最適
o1OpenAI思考連鎖型推論モデル。研究・戦略立案・数学・科学に強い
claude-opus-4Anthropic世界最高峰のコーディングモデル。長時間の複雑な作業に対応
claude-sonnet-4Anthropicコスパ重視の高性能モデル。指示への追従性が高い
gemini-2.5-proGeminiDeep Think 搭載の高度推論モデル。数学とコーディングに優れる
gemini-2.5-flashGemini価格性能比 No.1。トークン効率が良く調整可能な推論機能付き

2.5 インストール & 使い方

  1. 最新リリースをダウンロード
  2. アプリを起動し OpenAI API キーを設定
  3. 録音 → AI エージェントを操る!

詳しくはマニュアル を参照してください。

まとめ

  • Super Whisper / Aqua Voice が示すとおり、音声入力はLLM 連携で“文章加工”まで自動化 するフェーズへ
  • Open Super Whisper V2エージェント処理まで自動化することで音声を行動に変換 でき、MCP 連携 によりツールの拡張性も◎

会話型 AI エージェントであなたの声を行動に変える—そんな未来を体験しませんか?

リンク集

  • Super Whisper:

  • KEITOチャンネルの Super Whisper 紹介動画:

  • Aqua Voice:

  • taishiyadeチャンネルの Aqua Voice 紹介動画:

  • MCP 仕様:

  • MCP 公式サーバー集:

  • Awesome MCP Servers:

  • Playwright MCP:

  • OpenAI Agents SDK:

  • LiteLLM - OpenAI Agents SDK:

  • OpenAI Speech-to-Text API:

  • Open Super Whisper V2:

リポジトリ

マニュアル

リリース

7

Go to list of users who liked

3
0

Go to list of comments

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7

Go to list of users who liked

3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?


[8]ページ先頭

©2009-2025 Movatter.jp