




この発明は、会議音声等の音声を記録して利用する装置に関するものである。 The present invention relates to an apparatus for recording and using audio such as conference audio.
従来から、会議やプレゼンテーションの記録を、録音した音声で残すことが行われている。この記録は、数十分〜数時間分の音声信号を録音した1つのファイルである。 Conventionally, recordings of meetings and presentations are made with recorded voices. This recording is one file in which audio signals for several tens of minutes to several hours are recorded.
ユーザは、このような記録を後から確認するとき、時間情報(録音開始からの経過時間)を参照して所望の発言を検索する。しかし、時間情報だけでは、録音されている内容(どの話者が発言しているか等)が判別できず、後から再生するときに所望の発言を探すことが困難であった。 When confirming such a recording later, the user searches for a desired statement with reference to time information (elapsed time from the start of recording). However, the recorded information (which speaker is speaking, etc.) cannot be determined by only the time information, and it is difficult to find a desired statement when playing back later.
そこで、音声の特徴から話者を特定して、話者毎に録音データを区間分割し、分割した区間ごとに再生できるようにしたものがある(例えば特許文献1参照)。 In view of this, there is a speaker in which the speaker is identified from the voice characteristics, and the recording data is divided into sections for each speaker and can be reproduced for each divided section (for example, see Patent Document 1).
特許文献1に記載の装置は、話者を識別するための各種パラメータを音声データから抽出し、これらのパラメータに識別番号を付してグループ化する。グループ化したパラメータ(話者識別情報)は、音声データとともに記憶される。記憶された音声データは、話者毎に時系列にグラフィック表示され、視覚的に所望の発言を探すことができる。
しかし、音声の特徴により話者を特定することは容易ではなかった。話者の特定を誤ると、誤った話者識別情報が付されてデータベースが構築されてしまうという問題点が有った。また、話者を特定できなかった箇所は連続した区間となるため、やはり所望の発言を探すことが困難であった。 However, it is not easy to identify the speaker by the characteristics of speech. If the speaker is specified incorrectly, there is a problem that the database is constructed with the wrong speaker identification information. Moreover, since the part where the speaker could not be specified is a continuous section, it was difficult to find the desired speech.
本発明は、簡易な構成でありながら、確実な発言の切れ目を用いて区間分割し、所望の発言を検索し易くする音声録音装置を提供することを目的とする。 SUMMARY OF THE INVENTION An object of the present invention is to provide a voice recording apparatus that has a simple configuration and that makes it easy to search for a desired utterance by dividing a section using a certain utterance.
この発明の音声録音装置は、音声信号を外部から入力する音声入力部と、複数の映像データを含むプレゼンテーションデータを記憶するとともに、前記音声信号が録音される記憶部と、映像データを外部へ出力する映像出力部と、利用者による映像切換操作を受け付ける操作部と、前記映像切換操作に従って、前記複数の映像データを順次切換えて前記映像出力部に出力する映像再生部と、前記音声入力部から入力された音声信号を録音データとして時系列に前記記憶部に録音する音声録音部と、前記記憶部に録音された録音データを再生する音声再生部と、を備え、前記音声録音部は、前記音声信号の録音中における前記映像切換操作がされたタイミングをさらに記録し、前記音声再生部は、前記映像切換操作がされたタイミングで分割される区間を単位として前記録音データを再生することを特徴とする。 The audio recording apparatus of the present invention stores an audio input unit for inputting an audio signal from the outside, a presentation data including a plurality of video data, and a storage unit for recording the audio signal, and outputs the video data to the outside A video output unit that performs a video switching operation by a user, a video playback unit that sequentially switches the plurality of video data to output to the video output unit according to the video switching operation, and an audio input unit. An audio recording unit that records the input audio signal as recording data in time series in the storage unit; and an audio reproduction unit that reproduces the recording data recorded in the storage unit, and the audio recording unit includes: The timing at which the video switching operation is performed during recording of the audio signal is further recorded, and the audio playback unit is divided at the timing at which the video switching operation is performed. Characterized in that for reproducing the record data that section as a unit.
この発明では、映像データを含むプレゼンテーションデータ(資料データ)を記録している。ユーザは、映像切換操作を行い、プレゼンテーションを行う。音声録音部は、このプレゼンテーション中の音声を録音する。音声録音部は、映像切換操作を検出し、このタイミングを記録する。ここで、映像切換操作タイミングの記録は、録音している音声データを分割することで記録してもよいし、切換えタイミングを示す情報を付加することで記録するようにしてもよい。音声データを再生するときには、記録されたタイミングで分割される各区間を1単位として再生する。 In the present invention, presentation data (material data) including video data is recorded. The user performs a video switching operation and gives a presentation. The voice recording unit records the voice during the presentation. The audio recording unit detects the video switching operation and records this timing. Here, the video switching operation timing may be recorded by dividing the recorded audio data, or may be recorded by adding information indicating the switching timing. When audio data is reproduced, each interval divided at the recorded timing is reproduced as one unit.
また、この発明は、さらに、前記記憶部は、1または複数の話者の声の特徴データをリファレンスとして記憶しており、前記録音データの前記区間毎の音声信号から話者の声の特徴データを抽出する特徴抽出部と、前記抽出した特徴データを前記リファレンスと比較することにより、前記各区間毎の話者を特定して、特定した話者の情報を前記録音データに付加する話者特定部と、を備えたことを特徴とする。 Further, according to the present invention, the storage unit stores feature data of one or a plurality of speaker's voices as a reference, and the feature data of the speaker's voice is obtained from an audio signal for each section of the recording data. A speaker extracting unit that identifies a speaker for each section by comparing the extracted feature data with the reference, and adds speaker information to the recorded data And a section.
この発明では、特定の話者の音声特徴量(フォルマント等)をリファレンスとして記録しておく。また、特徴抽出部は、録音中の音声データから各話者の音声特徴量を抽出する。抽出した音声特徴量と、リファレンスの音声特徴量と、を比較し、各区間毎の話者を特定して話者情報を音声データに付与する。 In the present invention, a voice characteristic amount (formant, etc.) of a specific speaker is recorded as a reference. The feature extraction unit extracts the voice feature amount of each speaker from the voice data being recorded. The extracted voice feature quantity is compared with the reference voice feature quantity, the speaker for each section is specified, and the speaker information is added to the voice data.
この発明によれば、映像切換操作を検出し、このタイミングを記録して再生時に各タイミングで分割される区間毎に音声を再生することで、簡易な構成でありながら、確実な発言の切れ目を用いて区間分割し、所望の発言を効率よく検索することができる。 According to the present invention, the video switching operation is detected, the timing is recorded, and the audio is reproduced for each section divided at each timing at the time of reproduction. It is possible to divide into sections and efficiently search for a desired utterance.
図面を参照して、本発明の実施形態である音声記録再生装置について説明する。この音声記録再生装置は、典型的にはパーソナルコンピュータによって実現されるものであり、主にプレゼンテーション(以下、単にプレゼンと言う。)に用いられ、発表者等の発話音声を記録し、再生するものである。
図1は、本実施形態の音声記録再生装置を用いたプレゼンの概要を示す図である。パーソナルコンピュータである音声記録再生装置1にはプレゼンデータ(プレゼン資料)が記録されており、プレゼン発表者3は、音声記録再生装置1を操作し、プロジェクタ5に映し出される映像を切換える操作をしながらその内容を説明する。プレゼン発表者3が発した音声は、音声記録再生装置1により、音声データとして取得される。また、プレゼン発表者3が行った各種操作は、音声記録再生装置1により、操作データとして取得される。An audio recording / reproducing apparatus according to an embodiment of the present invention will be described with reference to the drawings. This audio recording / reproducing apparatus is typically realized by a personal computer, and is mainly used for presentations (hereinafter simply referred to as presentations), and records and reproduces speech sounds of presenters and the like. It is.
FIG. 1 is a diagram showing an outline of a presentation using the audio recording / reproducing apparatus of the present embodiment. Presentation data (presentation material) is recorded in the audio recording / reproducing
音声データは、データベース(後述記憶部15)に時系列で記録される。また、操作データは、音声記録再生装置1により分析され、映像切換操作(プレゼン資料の切換操作)が抽出される。この映像切換操作が抽出されたタイミングによって、音声データがセグメンテーション(区間抽出)される。 The audio data is recorded in time series in a database (
また、音声データは、音声記録再生装置1により分析され、そのプレゼン発表者3の音声特徴量が抽出される。この音声特徴量は、予めデータベースに記録されているリファレンスの音声特徴量と比較され、話者が特定される。特定された話者の情報は、音声データの各区間の属性を識別する付加情報として記録される。 The voice data is analyzed by the voice recording / reproducing
また、各区間でプロジェクタ5に表示されていた映像は、切り出し(スナップショット)され、上記音声データと対応付けてプレビュー映像データとして、データベースに記録される。 Also, the video displayed on the
図2は、音声記録再生装置の具体的な構成を示すブロック図である。音声記録再生装置1は、マイク11、収音アンプ12、A/Dコンバータ13、制御部14、記憶部15、RAM16、映像出力I/F17、操作部18、D/Aコンバータ19、放音アンプ20、およびスピーカ21を備えている。音声記録再生装置1は、映像出力I/F17を介してプロジェクタ5に接続される。 FIG. 2 is a block diagram showing a specific configuration of the audio recording / reproducing apparatus. The audio recording / reproducing
マイク11は、自装置の発話者の発話音を含む周囲の音を収音して電気信号に変換し、収音音声信号を生成する。収音アンプ12は収音音声信号を増幅し、A/Dコンバータ13はアナログ形式の収音音声信号をディジタル形式に変換する。 The microphone 11 picks up surrounding sounds including the utterance sound of the utterer of the device and converts it into an electric signal to generate a collected sound signal. The
制御部14は、音声記録再生装置を統括的に制御する。制御部14は、記憶部15から動作用プログラムを読み出し、RAM16に展開することで、種々の処理を行う。また、制御部14は、上記ディジタル形式の収音音声信号を、音声データとして記憶部15に記録する。 The control unit 14 comprehensively controls the audio recording / reproducing apparatus. The control unit 14 reads out the operation program from the
記憶部15は、大容量の磁気ディスク等からなり、機能的に音声データ記録部151、音声状況データ記録部152、プレゼンデータ記録部153、および音声特徴データ記録部154を備えている。また、再生アプリケーション155、および編集アプリケーション156を記憶している。音声データ記録部151には、上記収音された音声データが記録される。 The
制御部14は、記憶部15の再生アプリケーション155をRAM16に展開して、音声データ記録部151に記録されている音声データを読み出し、再生処理を行う。また、記憶部15の編集アプリケーション156をRAM16に展開して、編集処理を行う。制御部14は、再生処理においては、音声データ記録部151から読み出した音声データをD/Aコンバータ19に出力する。D/Aコンバータ19は、制御部14から入力された音声データをアナログ形式の放音音声信号に変換し、放音アンプ20は放音音声信号を増幅してスピーカ21に与え、スピーカ21は、増幅された放音音声信号を放音する。これにより、自装置の周囲(主にプレゼン発表者)の音声を記録し、この記録済みの音声を再生、放音する。 The control unit 14 expands the
制御部14は、編集処理においては、図5に示すような画像を表示する映像信号を映像出力I/Fに出力する。編集処理の詳細については後述する。 In the editing process, the control unit 14 outputs a video signal for displaying an image as shown in FIG. 5 to the video output I / F. Details of the editing process will be described later.
操作部18は、キーボードやマウスからなり、ユーザ(発表者)の操作態様に応じた操作データを生成し、制御部14に出力する。例えば、マウスで(プロジェクタ5で表示される)表示画面上のカーソルを移動させ、該当位置でマウスをクリックすることにより、クリック情報が制御部14に与えられ、制御部14はクリック位置とクリック状況から操作入力内容を判断して所定の処理を行う。 The
ユーザが、操作部18を用いて記憶部15のプレゼンデータ記録部153に記録されているプレゼンデータ(資料映像表示用のアプリケーションを含む)を読み出すように指示すると、制御部14は、プレゼンデータ記録部153からプレゼンデータのうち、指定されたファイル(資料ファイル)を読み出し、映像信号を生成する。制御部14は、この映像信号を映像出力I/F17を介してプロジェクタ5に出力する。プロジェクタ5は、入力された映像信号に応じて(スクリーン等に)映像を表示する。なお、プロジェクタ5に代えて、汎用のディスプレイ等を用いてもよい。これにより、ユーザは資料ファイルを映像表示して、プレゼンを行うことができる。 When the user instructs to read the presentation data (including the application for displaying the document video) recorded in the presentation
制御部14は、A/Dコンバータ193から入力した音声データから音声特徴量を抽出する。音声特徴量は、典型的には話者のフォルマント、ピッチ等を表し、音声データをフーリエ変換した周波数スペクトル(パワースペクトル)、およびこのパワースペクトルを対数変換後に逆フーリエ変換したケプストラムから抽出する。 The control unit 14 extracts a voice feature amount from the voice data input from the A / D converter 193. The speech feature amount typically represents a speaker formant, pitch, and the like, and is extracted from a frequency spectrum (power spectrum) obtained by Fourier transforming speech data, and a cepstrum obtained by logarithmically transforming the power spectrum and then performing inverse Fourier transform.
制御部14は、プレゼンに先立ち、各話者の音声特徴量を抽出し、記憶部15の音声特徴データ記録部154に記録しておく。各話者の識別情報(すなわち各音声特徴データがどの話者のものであるか)は、プレゼン参加者(進行役等)が予め登録する。例えば、ある話者Aの音声特徴量を記憶部15に登録するとき、プレゼン進行役は、話者Aに発言してもらい、操作部18を用いて話者Aの情報(個人名等)を記憶部15に記録する。なお、本実施形態の音声記録再生装置を社内で用いる場合、プレゼン参加者が変化しない場合、等であれば、各社員の音声特徴量を、予め記憶部15に記録しておくようにしてもよい。 Prior to the presentation, the control unit 14 extracts the voice feature amount of each speaker and records it in the voice feature
制御部14は、プレゼン中において、入力される音声データから音声特徴量を抽出し、記憶部15に記録されている各話者の音声特徴量と比較する。その結果、特定の話者(発表者)の発言を抽出し、記録音声データの各部分の属性を識別する音声状況データを生成する。ここで、属性には、音声データの記録時刻、プレゼン資料のページ情報、発表者識別情報等が含まれている。音声状況データは、記憶部15の音声状況データ記録部152に記録される。 During the presentation, the control unit 14 extracts a voice feature amount from the input voice data and compares it with the voice feature amount of each speaker recorded in the
制御部14は、操作部18から入力される操作データを分析し、特定の操作(資料のページ切り換え操作)のイベント情報を検出する。制御部14は、このページ切り換えのイベント情報、および上記音声特徴量に基づいてページ切り換え情報を生成し、音声状況データを生成する。さらに、制御部14は、操作部18から入力される操作データを分析し、資料ファイル切り換えのイベント情報も検出する。制御部14は、この資料ファイル切り換えのイベント情報、および上記音声特徴量に基づいて発表者識別情報を生成し、音声状況データを生成する。この音声状況データと、音声データが時系列に記録されるので、映像切換操作が抽出されたタイミングによって、資料ページ切り換え毎、発表者毎に音声データがセグメンテーションされる。 The control unit 14 analyzes the operation data input from the
次に、音声記録再生装置の録音フローについて図3を参照して説明する。
図3は、制御部14の録音処理フローを示すフローチャートである。なお、この録音処理フローが行われる前に、各会議参加者の音声特徴量は、記憶部15に登録しておくものである。
制御部14は、音声信号の入力を監視している。制御部14は、プレゼン開始トリガを検出すると録音を開始する(S1→S2)。この際、プレゼン開始トリガとしては、音声信号が入力されたことを検知することで得られたり、ユーザが操作部18を用いてプレゼン開始の指示をしたことにより得ることができる。Next, a recording flow of the audio recording / reproducing apparatus will be described with reference to FIG.
FIG. 3 is a flowchart showing a recording process flow of the control unit 14. Note that the audio feature amount of each conference participant is registered in the
The control unit 14 monitors the input of the audio signal. When detecting the presentation start trigger, the control unit 14 starts recording (S1 → S2). At this time, the presentation start trigger can be obtained by detecting that an audio signal has been input, or can be obtained by the user instructing to start the presentation using the
録音が開始されると、制御部14は(内蔵タイマ等から)録音開始時刻を取得し、この録音開始時刻を1つの音声データファイルのタイトルとして保存する(S3)。 When recording is started, the control unit 14 acquires a recording start time (from an internal timer or the like), and stores this recording start time as a title of one audio data file (S3).
制御部14は、入力された音声信号、現在時刻を取得し(S4)、音声信号を音声データとして、現在時刻を時間データとして記憶部15に与え、記憶部15は順次音声データを記憶する(S5)。 The control unit 14 acquires the input voice signal and the current time (S4), gives the voice signal as voice data and the current time as time data to the
制御部14は、音声データの分析処理を行う(S6)。音声データの分析処理は、以下のようにして行う。すなわち、制御部14は、入力音声データから音声特徴量を抽出し、記憶部15から登録済みの話者の音声特徴量を読み出し、パターンマッチング等の手法により、抽出した音声特徴量が、読み出した音声特徴量と合致するか否かを判断する。音声特徴量が合致する場合に、この入力音声データを登録済みの話者(例えば発話者Aとする)の発話区間として判断し、話者を特定する。合致しない場合は、登録されていない他者の発話、または無音(雑音)区間として判断する。これにより、前回の音声データ取得タイミングから話者が変化したかを判断する。 The control unit 14 performs an audio data analysis process (S6). The voice data analysis process is performed as follows. That is, the control unit 14 extracts a voice feature amount from the input voice data, reads the voice feature amount of the registered speaker from the
次に、制御部14は、操作データの分析を行う(S7)。制御部14は、入力されている操作データから特定の操作を検出し、イベント情報を抽出する処理を行う。すなわち、現在映像出力I/Fに出力している資料ファイルについて次のページに進める操作(ページ切り換え操作のイベント情報)、資料ファイルの切り換え操作(資料ファイル切り換え操作のイベント情報)を検出する。 Next, the control unit 14 analyzes the operation data (S7). The control unit 14 performs a process of detecting a specific operation from the input operation data and extracting event information. That is, an operation to advance to the next page (event information of page switching operation) and a switching operation of material file (event information of material file switching operation) are detected for the material file currently output to the video output I / F.
制御部14は、上記音声データの分析結果、および操作データの分析結果から、セグメンテーションのタイミングであるか、話者変更のタイミングであるか、いずれにも該当しないか、を判断する(S8)。制御部14は、上記ページ切り換えのイベント情報、および資料ファイル切り換えのイベント情報を検出していなければ、いずれにも該当しないとして、録音終了されるまで音声データの取得から処理を繰り返す(S8→S14→S4)。なお、音声特徴量から話者の変更を検出した場合であっても、上記イベント情報を抽出していなければ音声データ取得から処理を繰り返す。 Based on the analysis result of the voice data and the analysis result of the operation data, the control unit 14 determines whether it is the segmentation timing, the speaker change timing, or none (S8). If the page switching event information and the material file switching event information are not detected, the control unit 14 assumes that none of them corresponds, and repeats the process from the acquisition of the audio data until the recording ends (S8 → S14). → S4). Even when the change of the speaker is detected from the voice feature amount, the process is repeated from the voice data acquisition unless the event information is extracted.
制御部14は、ページ切り換えのイベント情報を検出しているが、資料ファイルの切り換えイベント情報を検出していなければ、セグメンテーションのタイミングと判断し、S9のチャプタ終了処理を行う。また、ページ切り換えのイベント情報、および資料ファイル切り換えのイベント情報を検出していた場合であっても、話者の変化を検出していなければ、話者の変更が無いとして、セグメンテーションのタイミングして判断し、S9のチャプタ終了処理を行う。なお、資料ファイルの切り換えイベント情報を検出した場合は、自動的にページの切り換えもされているため、ページ切り換えのイベント情報を検出していないが、資料ファイルの切り換えイベント情報を検出している場合は無いものとする。 The control unit 14 detects the page switching event information. However, if the page file switching event information is not detected, the control unit 14 determines that it is the segmentation timing, and performs the chapter end process in S9. Even if page switching event information and document file switching event information have been detected, if no change in the speaker is detected, there is no change in the speaker and the segmentation timing is set. Judgment is performed, and the chapter end process of S9 is performed. Note that when page change event information is detected, page switching event information is not detected because page switching event information is detected, but data file switching event information is detected. There shall be no.
制御部14は、ページ切り換えのイベント情報、および資料ファイル切り換えのイベント情報を検出し、さらに話者の変化を検出していれば、話者変更が有ったとしてS10の発表終了処理を行う。 The control unit 14 detects the event information for switching pages and the event information for switching material files. If the change of the speaker is further detected, the control unit 14 performs the announcement ending process in S10 based on the change of the speaker.
制御部14は、S9のチャプタ終了処理において、そのチャプタのプレゼン資料のページ情報を生成し、S10の発表終了処理において、発表者識別情報を生成する。その後、S11の処理において、音声状況データを生成する。制御部14は、同じチャプタ、発表者からなる音声データ群を関連付けするため、該当する音声データ群のプレゼン資料のページ情報、発表者識別情報、および記録時刻、を備えた音声状況データを生成して記憶部15に与える。記憶部15は、制御部14からの音声状況データを音声状況データ記録部152に記録する。 The control unit 14 generates page information of the presentation material of the chapter in the chapter end process of S9, and generates presenter identification information in the presentation end process of S10. Thereafter, in the process of S11, voice status data is generated. The control unit 14 generates audio status data including page information, presenter identification information, and recording time of the presentation material of the corresponding audio data group in order to associate the audio data group including the same chapter and the presenter. To the
制御部14は、S12の処理において、プレゼンデータの切り出しを行う。制御部14は、この処理において、現在画面表示している資料ページの映像を切り出(スナップショットを取得)し、上記音声状況データと対応付けてプレビュー映像データとして、プレゼンデータ記録部153に追加記録する。 The control unit 14 cuts out the presentation data in the process of S12. In this process, the control unit 14 cuts out the video of the document page currently displayed on the screen (takes a snapshot) and adds it to the presentation
このような音声状況データの生成、記録処理、音声データの記録処理、およびプレゼンデータ切り出し処理は、録音終了トリガが検出されるまで繰り返し行われ、チャプタ切り換え、発表者の変化が有る度に音声状況データが生成、記録される。そして、録音終了トリガが検出されれば(S14)、最終の音声状況データを生成、記録するとともに、音声状況データ記録部152に予め記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部152に記録する(S15)。なお、録音終了トリガは、操作部18によるユーザのプレゼン終了指示を検出することにより得られる。 Such voice status data generation, recording processing, voice data recording processing, and presentation data cut-out processing are repeated until a recording end trigger is detected. Data is generated and recorded. If the recording end trigger is detected (S14), the final voice situation data is generated and recorded, and each voice situation data recorded in advance in the voice situation
このような構成および処理を行うことで、音声データ記録部151には、図4に示すように、経時的に連続する音声データが記録され、音声データファイルとして記録される。この際、音声データファイルは、音声状況データ記録部152に記録された音声状況データにより、発表者別、チャプタ別(ページ別)に区分されている。 By performing such configuration and processing, the audio
例えば、発表者Aの音声データファイルであれば、資料1の音声データ、資料2の音声データ、資料3の音声データ、資料4の音声データ、資料5の音声データ、資料6の音声データ、および無音、雑音区間の音声データで区分化される。そして、各区分化音声データには区分の開始時刻(開始時間データ)が関連付けされている。同様に、発表者Bの音声データファイルであれば、資料7の音声データ、資料8の音声データ、資料9の音声データ、資料10の音声データ、および無音、雑音区間の音声データで区分化され、区分毎の開始時間データが関連付けされている。 For example, in the case of the audio data file of the presenter A, the audio data of
次に、音声データファイル作成時の構成および処理について説明する。
図5は編集アプリ実行時に表示される表示画像を示す図であり、(A)が初期状態、(B)が編集後状態を示す。Next, the configuration and processing when creating an audio data file will be described.
FIG. 5 is a diagram showing a display image displayed when the editing application is executed. (A) shows an initial state, and (B) shows a state after editing.
ユーザが会議後に操作部18を操作して編集アプリを実行すると、制御部14は、記憶部15の音声状況データ記録部152から音声状況データを取得し、図5(A)に示すような画面を表示する。 When the user operates the
図5(A)に示すように編集画面は、表題表示部201、タイムチャート表示部202、を備える。タイムチャート表示部202は、各音声データを示すバーグラフ203、資料ページ表示部204、発表者表示部205、内容表示部206を備える。 As shown in FIG. 5A, the editing screen includes a
(1)表題表示部201
初期状態で、図5(A)に示すように表題表示部201には音声状況データのファイル名に相当する、音声データファイル記録年月日が表示される。ユーザがマウスを用いて表題表示部201を選択すると、表題表示部201は編集可能となる。そして、ユーザが、プレゼン議題名である「商品販売検討会」をキーボード等で入力すると、図5(B)に示すように表題表示部201には、「商品販売検討会」が表示される。制御部14は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、音声状況データに表題名が「商品販売検討会」であることを関連付けする。この場合、音声状況データファイル名を直接「商品販売検討会」に変更して、記憶部15に記憶させてもよい。これにより、表題が単なる年月日表示から具体的な議題名の表示になるので、後からでも容易に音声データファイルの内容を認識することができる。(1)
In the initial state, as shown in FIG. 5A, the
(2)タイムチャート表示部202
タイムチャート表示部202は、音声状況データファイル名から得られる区分化の情報に従い、各区分化音声データを資料ページ別で時系列に並べてバーグラフ203として表示する。この際、バーグラフ203の長さは区分化音声データの時間長を表す。この際、資料ページを表す情報として、資料ページ表示部204が表示される。(2) Time
The time
(3)資料ページ表示部204
各資料ページ表示部204には、図5(A)に示すように、プレゼンデータ記録部153から得られた各資料ページ名が初期状態で表示される。ユーザがマウスを用いて資料ページ表示部204を選択すると、資料ページ表示部204は編集可能となる。そして、ユーザが、資料ページ毎に対応する題名をキーボード等で入力すると、資料ページ表示部204には、図5(B)に示すように資料ページ名(概要、コンセプト、等)が表示される。制御部14は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各資料ページに対応する資料ページ名を関連付け、記憶部15に記憶する。(3) Document
As shown in FIG. 5A, each material page name obtained from the presentation
この際、各区分化音声状況データをマウスでダブルクリックする等の操作を行えば、制御部14はこれを認識して、該当する区分化音声データを記憶部15から読み出して再生する。再生音はスピーカ21から放音される。ユーザはこの音声を聞くことにより、各区分化音声データに対応する話者の発言内容を確認することができる。 At this time, if an operation such as double-clicking each segmented voice status data with a mouse is performed, the control unit 14 recognizes this and reads out the corresponding segmented voice data from the
(4)発表者表示部205
発表者表示部205には、図5(A)に示すように、音声状況データから得られた話者名(発話者A、発話者B)が初期状態で表示される。ユーザがマウスを用いて発表者表示部205を選択すると、発表者表示部205は編集可能となる。そして、ユーザが、各発話者の個人名をキーボード等で入力すると、発表者表示部205には、図5(B)に示すように個人名(「担当A氏」、「担当B氏」)が表示される。(4) Presenter display unit 205
As shown in FIG. 5A, the presenter display unit 205 displays the speaker names (speaker A and speaker B) obtained from the voice status data in the initial state. When the user selects the presenter display unit 205 using the mouse, the presenter display unit 205 can be edited. When the user inputs the personal name of each speaker using a keyboard or the like, the presenter display unit 205 displays the personal name ("Mr. A", "Mr. B") as shown in FIG. Is displayed.
(5)内容表示部206
内容表示部206には、図5(A)に示すように初期状態では枠しか表示されない。ユーザがマウスを用いて内容表示部206を選択すると、内容表示部206は編集可能となる。そして、ユーザがプレゼン内容をキーボード等で入力すると、内容表示部206には、図5(B)に示すようにプレゼン内容(「商品Aの説明」、「マーケティング」)が表示される。この際、各内容表示部206は、それぞれ異なる色やパターンで表示される。そして、いずれかの内容表示部206を選択した状態で、各区分化音声データのバーグラフ203を選択すると、これらが関連付けされて、内容表示部206と同じ色、パターンで表示される。(5)
In the
(5)資料ページプレビュー表示部207
ユーザが各区分化音声状況データをマウスでクリックする操作を行えば、制御部14はこれを認識して、該当する区分化音声データに対応付けられているプレビュー映像データを読み出して、資料ページプレビュー表示部207に画面表示する。(5) Document page
When the user performs an operation of clicking each segmented audio status data with a mouse, the control unit 14 recognizes this, reads out preview video data associated with the corresponding segmented audio data, and displays a document page preview. The screen is displayed on the
これにより、ユーザは、各区分化音声状況データをいちいち聴きなおすことなく、発表内容を容易に把握することができる。 Thereby, the user can grasp | ascertain the presentation content easily, without re-listening each division | segmentation audio | voice state data one by one.
以上のような構成および処理を用いることで、より分かりやすいプレゼン音声データファイルを簡単に形成することができる。また、プレゼンの必要部のみを容易に聞き直すことができる。 By using the configuration and processing as described above, it is possible to easily form a presentation voice data file that is easier to understand. In addition, it is possible to easily listen to only the necessary parts of the presentation.
なお、本実施形態においては、制御部14が音声特徴量の抽出、操作イベント情報の抽出を行っているが、音声特徴量の抽出専用の構成部(DSP)を備えていてもよい。 In the present embodiment, the control unit 14 extracts voice feature amounts and operation event information. However, the control unit 14 may include a configuration unit (DSP) dedicated to voice feature amount extraction.
1−音声記録再生装置
3−プレゼン発表者
5−プロジェクタ1-Voice recording / playback device 3-Presentation presenter 5-Projector
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006160530AJP2007329794A (en) | 2006-06-09 | 2006-06-09 | Voice recording device |
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006160530AJP2007329794A (en) | 2006-06-09 | 2006-06-09 | Voice recording device |
| Publication Number | Publication Date |
|---|---|
| JP2007329794Atrue JP2007329794A (en) | 2007-12-20 |
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006160530APendingJP2007329794A (en) | 2006-06-09 | 2006-06-09 | Voice recording device |
| Country | Link |
|---|---|
| JP (1) | JP2007329794A (en) |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009301125A (en)* | 2008-06-10 | 2009-12-24 | Hitachi Ltd | Conference voice recording system |
| CN109147791A (en)* | 2017-06-16 | 2019-01-04 | 深圳市轻生活科技有限公司 | A kind of shorthand system and method |
| JP2023025400A (en)* | 2021-08-10 | 2023-02-22 | 富士フイルム株式会社 | Emotion tagging system, method, and program |
| JP2023028391A (en)* | 2021-08-19 | 2023-03-03 | 富士フイルムビジネスイノベーション株式会社 | Information processing device, information processing system, and program |
| US12444432B2 (en) | 2021-08-10 | 2025-10-14 | Fujifilm Corporation | Emotion tag assigning system, method, and program |
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009301125A (en)* | 2008-06-10 | 2009-12-24 | Hitachi Ltd | Conference voice recording system |
| CN109147791A (en)* | 2017-06-16 | 2019-01-04 | 深圳市轻生活科技有限公司 | A kind of shorthand system and method |
| JP2023025400A (en)* | 2021-08-10 | 2023-02-22 | 富士フイルム株式会社 | Emotion tagging system, method, and program |
| US12444432B2 (en) | 2021-08-10 | 2025-10-14 | Fujifilm Corporation | Emotion tag assigning system, method, and program |
| JP7752993B2 (en) | 2021-08-10 | 2025-10-14 | 富士フイルム株式会社 | Emotion tagging system and method |
| JP2023028391A (en)* | 2021-08-19 | 2023-03-03 | 富士フイルムビジネスイノベーション株式会社 | Information processing device, information processing system, and program |
| Publication | Publication Date | Title |
|---|---|---|
| JP4695392B2 (en) | Method and apparatus for use in sound replacement that automatically synchronizes with an image | |
| JP4558308B2 (en) | Voice recognition system, data processing apparatus, data processing method thereof, and program | |
| US6535848B1 (en) | Method and apparatus for transcribing multiple files into a single document | |
| US8464154B2 (en) | System and method for synchronized multi-track editing | |
| WO2007132690A1 (en) | Speech data summary reproducing device, speech data summary reproducing method, and speech data summary reproducing program | |
| JP2013222347A (en) | Minute book generation device and minute book generation method | |
| US20110239107A1 (en) | Transcript editor | |
| JP4741406B2 (en) | Nonlinear editing apparatus and program thereof | |
| CN107464555A (en) | Background sound is added to the voice data comprising voice | |
| WO2005069171A1 (en) | Document correlation device and document correlation method | |
| JP5206553B2 (en) | Browsing system, method, and program | |
| JP6280312B2 (en) | Minutes recording device, minutes recording method and program | |
| JP2010054991A (en) | Recording device | |
| JP2008139426A (en) | Data structure of data for evaluation, karaoke machine, and recording medium | |
| JP2003177784A (en) | Sound inflection point extraction apparatus and method, sound reproduction apparatus and method, sound reproduction system, sound distribution system, information providing apparatus, sound signal editing apparatus, sound inflection point extraction method program recording medium, sound reproduction method program recording medium, sound Signal editing method program recording medium, acoustic inflection point extraction method program, acoustic reproduction method program, acoustic signal editing method program | |
| CN113691909A (en) | Digital audio workstation with audio processing recommendations | |
| JP3437617B2 (en) | Time-series data recording / reproducing device | |
| JP6865701B2 (en) | Speech recognition error correction support device and its program | |
| JPH08286693A (en) | Information processing device | |
| JP3896760B2 (en) | Dialog record editing apparatus, method, and storage medium | |
| JP2007329794A (en) | Voice recording device | |
| US8792818B1 (en) | Audio book editing method and apparatus providing the integration of images into the text | |
| US20060084047A1 (en) | System and method of segmented language learning | |
| JPH0728830A (en) | Audio data file analysis processor | |
| JP2000222417A (en) | Image filing device |