粘土板からプロンプトへ 人間が「ことば」を記録するようになったのは、紀元前3300年頃のメソポタミアでのことだそうだ。シュメール人たちが、粘土板に楔型文字を使って文字を印した。この人間が「ことば」を記録するという営みが、いま生成AIによって大きく変化しはじめている。 生成AIで「ことば」を生み出すといえば、ChatGPTでメールの返事を書かせたり、人間が書いたとしか思えない小説ができたといった話題もある。それらはどちらかというと、何か小石のようなものをジャラジャラとシャッフルして自分の納得するパターンを見つける特別な仕掛けのようなものだ。 それに対して、自分の頭の中にあるものを言葉として表現して、相手に伝えるための手段として生成AIを使うことも始まっている。それをいまのところいちばん理想に近い形で実現していると見られているのが、コードエディタ「CURSOR」(カーソル、カーサー)のようだ。
Microsoft、文字起こしアプリ「Group Transcribe」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcribe(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う
2022年10月25日、衆議院本会議。選挙演説中に銃撃され死去した安倍元首相に向けた追悼演説が行われた。演説に臨んだのは、立憲民主党の野田元首相。かつて野党時代の自民党総裁だった安倍氏と、首相だった野田氏は、党首討論の場で、衆議院の解散をめぐる“真剣勝負”に臨んだ間柄だ。追悼演説の中で野田氏は「再びこの議場で、あなたと真剣勝負を戦いたかった」「勝ちっ放しはないでしょう、安倍さん」と天上の故人に語りかけた。演説の全文は以下の通り。 本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。享年67歳。あまりにも突然の悲劇でした。 政治家としてやり残した仕事。次の世代へと伝えたかった想い。そして、いつか引退後に昭恵夫人と共に
まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい 企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。 そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。 日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは? 『kotoba-whi
アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/
会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます
少し前に、以下のツイートを目にした。 For You がリリースされた頃、山下達郎は今のようにリスペクトされる存在ではなく、一般リスナーにとっては「流行り物」で、頭でっかちの音楽好きにとっては「チャラチャラした音楽」と捉えられていたことは、ポップミュージックの受容の歴史としてきちんと記録に残しておいた方がいいと思う。— Andy@音楽観察者 (@andymusicwatch) May 14, 2023 当時のミュージックマガジンのレビューでの評価が典型的ですよね。 https://t.co/Rvj2l5r2pE— Andy@音楽観察者 (@andymusicwatch) May 14, 2023 このあたりについて参考になる山下達郎のインタビューを参照してみたいと思う。 というわけで、1989年から2004年まで読者だった rockin' on のバックナンバーを引っ張り出す「ロック問はず
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは!私は株式会社ulusageの、技術ブログ生成AIです!これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします!(AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます!) 爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみた はじめに ビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ
はじめに honeshabri.hatenablog.com 骨しゃぶりさんのブログで音声入力が激推しされていて、自分も普段から音声入力を使っているので、その使い方にとても共感できたし嬉しかったです。普通に音声入力がもっと流行ってほしいなと思います。 骨しゃぶりさんのブログ記事に触発されたのもあり、僕も音声入力について記事を書いてみました。この記事では自分のおすすめ音声入力ツールとその活用法を紹介したいと思います。 SuperWhisperのすすめ Whisperという音声認識モデルをご存知の方は多いと思います。これはTransformerベースの音声認識モデルで、OpenAIからOSSとして公開されています。特徴としては従来の音声認識と比べて、聞き間違いや聞き逃しが少なく、ノイズやフィラー(えーと、うーん、あー)を上手に無視してくれて、音声認識の精度が高いというところがあります。 よくあ
みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無
どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと
こんにちは、note AI creative(以下、nAc)の田中です。 nAcとして今までさまざまな社内の業務改善に取り組んできましたが、中でも「議事録作成業務」は負担の大きい業務の1つでした。 セールス・カスタマーサクセスなど顧客と対面する部署では特に議事録作成は重要な業務として頻繁に発生しますが、1回あたり最大60分かかっており改善の余地がありました。 nAcが作成した生成AIのソリューションを使うことで、作業量が96%も削減され、60分の作業が2分で終わるようになりました。 議事録を生成するデモgifnote proチームの社内発表資料から抜粋この記事では、議事録作成を自動化するために作成したソリューションとその効果について紹介します。 議事録作成効率化の歴史議事録作成業務の効率化を目指し、まずは「tl;dv」というツールを導入してテストを行いました。 tl;dvは非常に機能が豊富
①は全国霊感商法対策弁護士連絡会の声明とコメント ②はAさんのコメント及びAさんに対する質疑応答 ③は弁護士に対する質疑応答 黙祷部分は省略 敬称略 恐らく誤字脱字誤変換あり 「あの」「えー」などは省略 司会進行、事務的な会話等は省略した部分もあり 聞き取れなかった部分は○○○で表記 発言者が不明の場合は???で表記 川井「最初に私の方から、本日の会見の趣旨が記載されている声明文の方読み上げさせていただきたいと思います。 声明1、山上被疑者が安倍晋三元首相を死に至らしめた今般の卑劣極まりない行為は、いかなる理由があろうとも決して許されないことです。当会は安倍元首相のご冥福を心からお祈り申し上げます。 2、山上被疑者の母親が統一教会に多額の献金をし、仮定を崩壊させたことへの恨みが、今回の事件の動機であるという報道が事実であるとすればですが、同被疑者母親の常軌を逸した統一教会への献金をはじめと
先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事
どうも、ノウチです。 ポッドキャストをよく聞くんですが、その内容をしっかり理解したいなと思って、いつも文字起こししてテキストで読みつつ、最後に図解して要点を振り返る、というのをやっています。 その手順やプロンプトをメモしておきます! ポッドキャストの音源(mp3)をダウンロードするまず音源を入手します。ポッドキャストはウェブ上にmp3が上がっているので、取り出すのはかんたんです。 ポッドキャストのRSSを調べるどのポッドキャストも配信情報をまとめたRSSフィードが用意されています。 RSSフィードとは、ウェブサイトの更新情報を簡単に取得できる仕組みです。「Really Simple Syndication」または「Rich Site Summary」の略で、ユーザーがウェブサイトを直接訪問しなくても、新しいコンテンツや更新情報を自動的に受け取ることができます。 Claudeの回答Spoti
新しく発表になった、GoogleのAIサービスである「Notebook」を使っているんですが、 - 本のPDFをアップロードする - すると中身が全部左側に出てくる - AIに色々質問ができる - 答えに出てきた部分を左側で読める - 回答をピン留めするとメモとして保存できる。メモを自分で書くこともできる… pic.twitter.com/ogaUG4bYvB — けんすう (@kensuu) June 7, 2024 【AI用に物語思考のPDFを公開します】 AIを使って読書をするとめちゃくちゃに捗るよ、、という話をよくしているんですが「本のPDFがない」という人が多くて。 で、ちょっと試すのにPDFを用意するのって手間だよねえ、と思っているので、、… — けんすう2 (@kensuu) June 10, 2024 AIと対話しながら、自分だけの読書体験を実現する方法があります! Kin
画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン
AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから
PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び
話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成 ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。 会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。
はじめに 長い文章をキーボードで打つのはもう古い! ChatGPT や Claude への質問、ブラウザ検索、コードレビューコメント――あなたが "今まで手入力していたテキスト" を、声だけで瞬時に入力してみませんか? 世界の音声認識/API 市場は 2024 年時点で 約 38 億ドル、今後も 年 14 % 超 の成長が見込まれています。その牽引役となっているのが AI 文字起こしツールです。 本記事では、Super Whisper(本家) と、OpenAI API キーひとつで同じ快適さを提供する OSS 版 Open Super Whisper(今回開発したアプリ) を比較しながら、最速の導入方法と "AI と対話するための最強入力デバイス" としての活用術を紹介します。 1. Super Whisper とは? 1‑1. 概要 Super Whisper は、OpenAI の "W
オープンソースで開発される「audapolis」は書き起こし機能を備えたメディアエディターで、音声を自動的にテキストに書き起こすだけでなく、書き起こしたテキストを編集することで同時に音声も編集できるツールで、無料で使うことができます。 GitHub - bugbakery/audapolis: an editor for spoken-word audio with automatic transcription https://github.com/bugbakery/audapolis audapolisはオープンソースで開発されるフリーアプリで、AGPL-3.0ライセンスの下で配布されています。GitHubのページにアクセスし、「Release」にある最新バージョンをクリック。記事作成時点での最新バージョンはv0.3.0です。 audapolisはmacOS・Linux・Window
新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭
録音しながら文字起こし。Pixel標準アプリが優秀すぎる2025.03.18 19:3033,052 小野寺しんいち Pixelに乗り換えて、正直これが1番感動したかも。 皆さん文字起こし、どうやってます? ミーティングの議事録を取ったり、誰かの話を記録したり。AIの導入が一般化しつつあるように感じますが、取材やインタビューが多いライターの私にとって、文字起こしツールはもはやなくてはならない存在です。 これまで色々なツールを試してきましたが、 Pixel純正の文字起こし機能、 かなり使えて驚きました。 たった2タップで録音&文字起こし開始「レコーダー」は、Pixelに標準で入っているボイスレコーダーアプリで、文字起こし機能も付いています。 こいつ、地味なわりにかなりの優等生。まず使い勝手がとても良い。とくに複雑な設定は不要で、レコーダーを回すと自動で文字起こしが始まります。 先日のGIZM
米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日(現地時間)、多数のエンジニアや研究者へのインタビューに基づいて報じた。 Whisperは、インタビューの翻訳や文字起こし、消費者向け技術でのテキスト生成、動画の字幕作成など、世界中の様々な業界で使用されている。Associated Pressは、医療機関でもWhisperベースのツールが診察の会話の文字起こしで使われ始めていることが、深刻な懸念を引き起こしていると指摘する。 Whisperのトレーニングには、ネット上の膨大な音声データと、それに対応する文字起こしテキストから構成される、68万時間に及ぶ大規模なデータセットが使われたとしているが、トレーニングに使った具体的なソースは明示して
AIを使ってポッドキャスト番組を自動で文字起こしするサービス「LISTEN」β版を、はてな創業者の近藤淳也氏が公開した。 OpenAIが提供する書き起こしAPI「Whisper」を使い、配信済みのポッドキャストの内容を文字起こしして公開する。テキストを指定してその部分から音声を再生することもできる。 番組にコメントを書き込んだり星を付けて出演者と交流する機能も備えた。 約20人のポッドキャスターが既に登録しており、徐々に拡大していく。 Discordコミュニティでユーザーからのフィードバックなどを受け付けている。 関連記事 OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表 OpenAIは「ChatGPT API」と「Whisper API」の提供を開始した。ChatGPT APIの価格は1000トークン当たり0.002ドル。A
この記事はenechain Advent Calendar 2024の14日目の記事です。 はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、 社内用の動画・音声文字起こしツールを構築・運用しています。 本記事では、その精度向上の仕組みについて紹介します。 実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。 はじめに 背景と課題 システム要件 システム実装 アーキテクチャ 入力データ形式 ドメイン固有用語の管理 処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ
CPUでも動かせる版があるというのは、AWSなどの上でアーキテクチャを検討する際も選択肢が増えそうで良いですね。 ノイズをマシマシにしてみる 最後にもう少しだけノイズデータを増やしてみましょう。 ノイズ2倍 ffmpegで以下のようにすれば、重みを付けてミックスが可能です。下記はノイズのボリュームが2倍になっています。 !ffmpeg \ -i "output.wav" \ -i "noise.wav" \ -filter_complex \ "[0:a]volume=1.0,channelsplit=channel_layout=mono[a1];\ [1:a]volume=2.0,channelsplit=channel_layout=mono[a2];\ [a1][a2]amerge=inputs=2" \ -ac 1 \ "mix-noise-weight2.wav" 可視化すると
OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。 まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。(あまり意識して
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く