Movatterモバイル変換

diet55 id:diet55

Whisperに関するdiet55のブックマーク (36)

Whisperで文字起こしする方法（ローカル環境にDockerを添えて）
音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って（Docker使えれば）手軽に実行できるのが特徴です。CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。この記事は上記リポジトリの自分のための使い方のメモです。使い方ファイル準備文字起こしする音声ファイルを用意します。ここではinput.mp3とします。Docker準備Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDocker デスクトップを使いましょう。 $curl
diet552023/06/02
「API使うとお金がかかるので、」「CPUでもGPUでも動きます」「PINTOさんのリポジトリを使うと爆速」「私はCOTEN RADIOを文字起こししたくて、やってみました。baseモデルを使っても、そこそこ使える精度で文字起こしでき…」
Whisper
Docker
WSL
Windows
Speech to Text
voice
リンク
話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出
セミナーや会議の内容をテキスト化しておくと後から振り返りやすい。しかし、音声をテキスト化する、いわゆる文字起こしの作業は、長時間にわたるセミナーや参加者が複数いる会議などでは担当者の負担が大きい。そこで、文字起こしツールを利用する人も多いだろう。筆者も職業柄、インタビューや講演の文字起こしをする機会が多く、文字起こしツールをいくつか使ってきた。現在は、今回紹介する「CLOVANote（クローバ・ノート）」を仕事の相棒として頼りにしている。 CLOVANoteは、LINEのAI テクノロジーブランド「LINE CLOVA」によるAI 音声認識アプリだ。音声認識エンジンはLINE CLOVAが開発した「CLOVA Speech」が使用されている。2022年5月からベータ版として無料提供が開始された。スマートフォンアプリ（iOS／Android）を起動し、アプリで録音した後に文字起こしするか
diet552023/06/02
Speech to Text
voice
Whisper
リンク
Whisperで文字起こしをした文章をChatGPTでいい感じにする
本記事は、あくまで個人的な使用を前提とした文字起こしの方法の紹介です。許可なく、他人のコンテンツを全部文字起こしして公開すると、著作物の改変などの問題になる可能性があると思いますタイトル通りです。Whisperで文字起こしをしました。ただ、以下のように句読点がない文章になってしまい、読みづらいです。樋口世界の歴史キュレーションプログラムコテンラジオ樋口世界の歴史キュレーションプログラムコテンラジオパーソナリティーの株式会社ブック代表樋口清則です深井そして株式会社コテンの深井隆之介です樋口そして株式会社コテンの楊英史です樋口このラジオは歴史を愛し歴史の面白さを知りすぎてしまった深井さんを代表とする株式会社コテンのお二人と一緒に学校の授業ではなかなか学べない国内外の歴史の面白さを学んじゃおうという番組ですよろしくお願いしますこれを修正するのは結構たいへんそうで
diet552023/06/02
「以下のように句読点がない文章になってしまい、読みづらいです。」「次の文章の誤記訂正、句読点の追加をしてください。極力元の文章は変更しないようにしてください。」／いいですね！参考にさせて頂きます。
Whisper
ChatGPT
AI
Speech to Text
voice
prompt
Python
programming
Google Colab
GitHub
リンク
無償のiOS版「ChatGPT」を早速使ってみた～ついに来た公式アプリは優秀な音声入力機能がいい！／基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】
diet552023/05/29
Whisper の機能だけ切り離してくれないかな？😜 「iPhoneには標準の音声入力機能がありますが、比較すると圧倒的に精度が高いです。」
Whisper
voice
Speech to Text
ChatGPT
iOS
review
リンク
話題のiPhone版ChatGPTアプリ、必要な設定とは
AI/人工知能を利用したチャットサービス「OpenGPT」のアプリ版が、ついに日本のApp Storeで公開されました。米国でのリリースに遅れること約1週間、それほど待たされずに済んだことに安心したiPhoneユーザも多いのではないでしょうか。使いかたはWEB版と基本的に同じ、アカウント作成後に質問事項をキーボードで入力すればOK。ユーザインタフェースは英語ですが、質問文は日本語でOK。もちろん、ひらがな/カタカナや漢字も使用できます。畏まった言い回しは必要なし、ふだん会話しているときの感覚でかまいません。ChatGPTはWEBサービスで、エンジン部分はクラウド上に存在しますから、WEB版とアプリ版の機能は基本的に同じです。回答内容もほとんど違いはありませんが、アプリ版はAppライブラリから起動できたり、「ショートカット」で他のアプリと連携できたり、WEBブラウザより応用が利きます。2
diet552023/05/27
「アプリ版はAppライブラリから起動できたり、『ショートカット』で他のアプリと連携できたり、WEBブラウザより応用が利きます。2023年5月現在は、共有メニュー経由でデータを受け渡しできないなど制約はあるものの」
ChatGPT
Whisper
iPhone
リンク
iPhoneでChatGPT。iOSアプリが日本でも公開
diet552023/05/26
「Android版は後日提供開始予定。」「Whisper」「なお、AppStoreでは、ChatGPTに類似した多くの『〇〇GPT』的なアプリが公開されている。OpenAIによる公式ChatGPTアプリは以下のリンクなどを参照して欲しい。」
iOS
ChatGPT
Android
Whisper
voice
Speech to Text
リンク
‎ChatGPT
IntroducingChatGPT for iOS:OpenAI’s latest advancements at your fingertips. This official app is free, syncs your history across devices, and brings you the newest model improvements fromOpenAI. WithChatGPT in yourpocket, you’ll find: · Advanced Voice Mode–tap the soundwave icon to have a real-time convo on thego, request a bedtime story for your family, or settle a dinner table debate. · Cr
diet552023/05/26
日本時間5/26
ChatGPT
Whisper
voice
Speech to Text
リンク
「ChatGPT」公式アプリのグローバル展開開始、日本でも利用可能に
米OpenAIは5月24日（現地時間）、1週間前に米国でリリースした「ChatGPT」公式アプリ（iOS）の配信をグローバルに拡大、日本を含む以下の45カ国での提供を開始した。日本、アルバニア、アルジェリア、アルゼンチン、アゼルバイジャン、ボリビア、ブラジル、カナダ、チリ、コスタリカ、クロアチア、エクアドル、エストニア、フランス、ガーナ、ドイツ、インド、イラク、アイルランド、イスラエル、ジャマイカ、ヨルダン、カザフスタン、韓国、ニュージーランド、ニカラグア、ナイジェリア、クウェート、レバノン、リトアニア、モーリタニア、モーリシャス、メキシコ、モロッコ、ナミビア、ナウル、オマン、パキスタン、ペルー、ポーランド、カタール、スロベニア、チュニジア、英国、アラブ首長国連邦デスクトップ版と同様、iOSアプリでもChatGPTの基本的な機能を無料で体験可能。有料サブスクリプション「ChatGPT
diet552023/05/26
「オープンソースの音声認識システム「Whisper」を用いた音声入力、テキスト認識、特定のレスポンスの再生成、データのエクスポートといった機能を備える。」https://apps.apple.com/jp/app/chatgpt/id6448311069
ChatGPT
voice
Whisper
Speech to Text
リンク
OpenAIの自動文字起こし「Whisper API」は1分1円以下! 簡単に使える?
diet552023/05/19
Pythonのプログラムのところが面白い。Whisper API／Pixel 7 Pro／Rimo Voice／UDトークの比較。「話者識別」や、「付加機能」についてはその通りだけど、Whisper APIのmodel "whisper-1"の精度が以前のtiny/medium/largeのどれに相当するのか？
OpenAI
Whisper
API
AI
Python
programming
リンク
無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能
OpenAIが高性能チャットAI「ChatGPT」のiOSアプリを公開しました。アプリではChatGPTとチャットできるほか、文字起こし AI「Whisper」を用いた音声入力にも対応しています。 Introducing theChatGPT app for iOS https://openai.com/blog/introducing-the-chatgpt-app-for-iosChatGPTの公式iOSアプリは、以下のリンク先で配布されています。OpenAI ChatGPT on the App Store https://apps.apple.com/app/openai-chatgpt/id6448311069 ただし、記事作成時点ではアメリカでのみ公開されており、日本からアクセスしても「App入手不可能」と表示されてしまいました。そこで、居住国をアメリカに設定したAppl
diet552023/05/19
OpenAI ChatGPT on the App Storehttps://apps.apple.com/app/openai-chatgpt/id6448311069 ／「音声入力を行うにはテキスト入力欄右端のボタンをタップ」。UIがどうにかならないのかな？ボタンが小さい。「音声入力」は売りの1つだと思うので。
ChatGPT
Whisper
AI
iOS
OpenAI
Android
UI
リンク
OpenAI、「ChatGPT」のiOS向けの公式アプリを無償公開～Androidも近いうちに登場【5月26日追記】／デバイス間で履歴を同期、有料プラン「ChatGPT Plus」にも対応
diet552023/05/19
①「音声入力」の課題はBingもだけれど、アプリを起動するUI。Bingは音声入力までボタンも小さく手間がかかる。解決策の1つはウェイクワードだけれど。②音声認識の精度。Whisper次第。③履歴は保存しないようにしている😜
free
ChatGPT
Android
iOS
OpenAI
UI
Whisper
リンク
ChatGPTがスマホアプリに　まず米国でiPhone向け - 日本経済新聞
【シリコンバレー=渡辺直樹】米新興企業のオープンAIは18日、対話型AI（人工知能）「Chat（チャット）GPT」のスマートフォンアプリの配信を始めたと発表した。音声入力にも対応した。米アップルのiPhone向けに提供し、近く米グーグルの基本ソフト（OS）アンドロイドのスマホにも対応する。米国向けを手始めに今後数週間で対応地域を広げる。アプリは無料で利用でき、複数の端末間で履歴を同期できる。オ
diet552023/05/19
「米アップルのiPhone向けに提供し、近く米グーグルの基本ソフト（OS）アンドロイドのスマホにも対応する。米国向けを手始めに今後数週間で対応地域を広げる。」
AI
ChatGPT
Whisper
iOS
Android
voice
Speech to Text
chatbot
リンク
iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開　音声入力も可能
Web版と同様にログインして使う。有料版「ChatGPT Plus」ユーザーであれば、Web版と同様にGPT-4へのアクセスや新機能の早期利用などが可能だ。また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。現在App Storeで「ChatGPT」を検索すると、OpenAIのロゴに似たロゴを冠した類似アプリが多数表示される。OpenAI ChatGPTは日本ではまだ公開されていないので、注意が必要だ。関連記事ChatGPT Plusのプラグインを使ってみた　「食べログ」連携で実在店舗も案内可能にOpenAIは「ChatGPT Plus」のサー
diet552023/05/19
「AIチャットbot『ChatGPT』のiOSアプリを発表した。まずは米国で提供を開始し、向こう数週間でさらに多くの国に拡大する予定。また、Androidアプリも『間もなく』提供の予定」
OpenAI
ChatGPT
iOS
Android
Whisper
voice
Speech to Text
AI
chatbot
リンク
「ChatGPT」の公式スマホアプリ登場、音声入力に「Whisper」を統合
米OpenAIは5月18日（現地時間）、対話AIサービス「ChatGPT」のiOSアプリ「OpenAI ChatGPT」の提供を開始した。リリース時点では米App Storeのみでの配信になっており、数週間中に他の国・地域への展開を開始する。Android用アプリの開発を進めていることも明らかにしたが、具体的なリリース日程は公表していない。ChatGPTはユーザーが自然言語を使用してAIと対話し、質問の答えを得たり、コンテンツの作成のサポート、アイディアをふくらませるディスカッションなどに利用できる。OpenAIは、自然な形で対話できるAIを一般の人々に提供し、AIと人との関わりを通じてAI 技術の恩恵を最大化することを目標にしており、「ChatGPT」アプリのリリースはその目標に向けた新たな一歩になる。動作要件は、iPhone 8以降（iOS 16.1以上で動作）。iPadには最適化さ
diet552023/05/19
「iOSアプリ「OpenAI ChatGPT」の提供を開始した。リリース時点では米App Storeのみでの配信」「Android用アプリの開発を進めていることも明らかにしたが、具体的なリリース日程は公表していない。」
ChatGPT
Whisper
iOS
AI
iPad
OpenAI
Android
voice
Speech to Text
chatbot
リンク
Reddit - Instantly transcribe voice messages to text on your iPhone with Whisper AI : OpenAI
diet552023/04/17
Obsidian
AI
Whisper
voice
Speech to Text
iPhone
iPad
リンク
ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
ChatGPT APIの使い方実際にChatGPT APIを使ってみましょう。openai-pythonのインストール今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip installopenai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 importopenai openai.api_key = "sk-..." #APIキー completion =openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは！"}] ) print(complet
diet552023/04/06
「1k tokens = 750文字程度と考え、GPT-3.5-turboを日本語で使う場合は以下のような金額感で覚えておけば良いでしょう。」「750字 0.27円」「1,000字 0.36円」「Whisper API（中略）日本円だと、およそ0.8円/分」
ChatGPT
Whisper
API
OpenAI
Python
programming
price
Speech to Text
voice
Hugging Face
リンク
AIによる画像生成や文字おこしもOK、Linuxフリーソフトを使いこなす
Linuxはサーバーによく使われているのに加え、Windowsのようにパソコン用OSとしても利用できる。過去に挑戦して断念したことがある人も無理なく学べるように、ステップアップ式でLinuxを解説する。 Step 43　AIを使って人の顔を正確に検出する方法AI（人工知能）を使った顔検出の方法は数多く、主には（1）特徴量を人間が設計する手法、（2）特徴量を大量のデータからディープラーニングで学習する手法の二つがあります。「特徴量」とは、AIの分野では予測の手がかりとなる重要な数字のことです。例えば顔検出のような画像処理の分野では、「縦のシマが多い」「特定の色が多い」といった情報が特徴量となります。今回は、上記の二つの手法を実際に試して比較してみましょう。顔検出に使う特徴量として有名な「ハールライク（Haar-like）特徴量」を使った手法を紹介します。ハールライク特徴量は、画像の明暗差
diet552023/03/27
「Stable Diffusionは（中略）GPU無しのPCでも10Gバイト以上のメモリーを搭載していれば、画像生成自体は可能です。」「LiveWhisperでリアルタイム変換」
Linux
AI
Stable Diffusion
Whisper
Speech to Text
voice
リンク
https://twitter.com/hiraoka_dx/status/1638868127642718208
diet552023/03/23
ご自分では「非エンジニア」とおっしゃっているけれど、こうやって深掘りしていくところは、「エンジニア気質」以外の何物でもない適性があるように見える。YouTubeにも手を出しているし。すぐに手を動かせるのえらい
Google Classroom
GPT-4
Make
Integromat
Whisper
Speech to Text
voice
meeting
リンク
https://twitter.com/tamaki_nisimura/status/1638814688174829569
diet552023/03/23
Twitter
ChatGPT
Zoom
security
meeting
Whisper
GPT-4
voice
Speech to Text
リンク
https://twitter.com/hiraoka_dx/status/1638816378458349569
diet552023/03/23
そういうことか。「非エンジニア」でも徹底してAIに従えばよいのか。すばらしい！😊 でも、デバッグとか、運用が心配だけれど😜
Twitter
GPT-4
Whisper
Integromat
voice
Speech to Text
programming
リンク
12次のページ