Movatterモバイル変換

G.718

出典: フリー百科事典『ウィキペディア（Wikipedia）』

G.718はITU-T が勧告した広帯域の音声とオーディオ用のコーデックで、8 kbps～32 kbps の広範囲のビットレートをサポートし、フレーム消失に強い特徴がある。テレビ会議システムやVoIP 用に使うことができる。

G.718 の正式な名称は"Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s" （フレームエラーに強い狭帯域と広帯域のエンベデッド可変ビットレート音声／オーディオ用 8-32 kbit/s 符号化方式）である。

概要

[編集]

G.718 は複数の音声符号化方式を階層的に組み合わせることでビットレートと帯域幅の柔軟性を向上させたものである。同様のアイデアを用いたものとしてG.729.1 がある。コアとなる音声符号化アルゴリズムとしてCELP の一種のACELP を使用する。狭帯域版と広帯域版があり、入出力のサンプリング周波数は広帯域の場合 16 kHz、狭帯域の場合 8 kHz あるいは 16 kHz である。

コア部分の性能がよいため、G.718 広帯域コーデックの 8 kbps での音質はG.722.2 の 12.65 kbit/s の場合と等価で、G.718 狭帯域コーデックの8 kbps での音質はG.722.2 の 11.8 kbit/s の場合に等しい^[1]。

G.718 がサポートする 8、12、16、24、32 kbps までの 5 種類のビットレートに対応して、コーデックが出力するビット列は 5 階層の埋め込み構造になっている。符号化したビット列から必要な階層のみを容易に取り出すことができる。

ビットレート 8 kbpsに対応するのがコア層となる第1層で、ACELP を符号化アルゴリズムとして用いる。第2層は 4 kbpsのACELP 拡張層である。第3層から第5層まではMDCT（修正離散コサイン変換）を用いた符号化アルゴリズムを用い、第2層までで符号化できなかった情報の符号化を行う。第3層には通信路でフレームが消失した場合の音質低下を避けるための補助情報も格納される。第3層は 4 kbps 、それ以上は 8 kbps 単位で情報が増えていき、それに応じて音質が向上する。

それぞれの階層と使用する技術を以下にまとめる^[1]。狭帯域版では第1層と第2層しか実装されない。

G.729.1 の全体構成
階層	技術	サンプリング周波数	ビットレート	説明
1	ACELP (algebraic CELP)	12.8 kHz	8 kbps	コア層（VMR-WB 仕様がベース）
2	ACELP 拡張層	12.8 kHz	+4 kbps	コア層の追加部分
3	MDCT	12.8/16 kHz	+4 kbps	フレーム消失時用情報 + 付加情報
4-5	MDCT	16 kHz	+8 kbps単位	付加情報

G.718 の特徴を以下にまとめる。

音声と音楽など一般的なオーディオ信号の両方をサポート
入出力のサンプリング周波数は広帯域の場合 16 kHz、狭帯域の場合 8 kHz あるいは 16 kHz
8～32 kbpsまでの 5 種類のビットレート（8、12、16、24、32 kbps）
5 階層の埋め込み構造ビットストリーム
8 kbpsのコア層はACELP を使用
20 msのフレーム長、符号化遅延 42.875 ms（広帯域の場合）、43.875 ms（狭帯域の場合）
複数の音声符号化アルゴリズムの階層的組み合わせ

また、G.718 には同様の目的に使われるITU-T G.722.2（AMR-WB）との相互運用性のために、オプションとしてG.722.2 (12.65 kbps) をサポートすることができる^[1]。その場合は第1層と第2層をG.722.2 mode 2 (12.65 kbps) と置き換える。

G.718 の符号化データをReal-time Transport Protocol（RTP）を用いインターネット上で送るためのデータ形式は、IETF RFC のドラフトが提案されている。^[2]。

アルゴリズム

[編集]

G.718 は、既存の広帯域音声符号化アルゴリズムをコアとする複数のアルゴリズムの階層的組み合わせからなる。コアのアルゴリズムで入力信号の符号化を行い、符号化できなかった残差部分を他のアルゴリズムを使い付加情報として追加する。

第1層

[編集]

コアとなる第1層は3GPP2 で定義された第三世代携帯電話の広帯域音声符号化コーデック VMR-WB の仕様をベースにしたもので^[1]、音声符号化の代表的なアルゴリズムであるACELP（algebraic code excited linear prediction）を使う。コア部分はサンプリング周波数 16 kHz の入力信号を 12.8 kHz に再サンプリングし、符号化処理を行う。

第1層では 20 ms のフレームに対し以下の処理により符号化を行う。

12.8 kHz にリサンプリング、ハイパスフィルタによる直流成分除去などの前処理
スペクトル分析（音声区間検出と雑音抑制用）
入力が広帯域/狭帯域かを検出
スペクトル分析結果より音声区間検出（voice activity detection）
スペクトル分析結果より雑音スペクトル推定
推定された雑音スペクトルを用いて雑音抑制
ACELPのための線形予測係数の計算など
聴感重み付けされた音声信号の計算
オープンループでのピッチ周波数（音声波形の基本となる周波数）分析
背景雑音スペクトルの推定値を更新
信号フレーム内容より処理モードを選択

これらの処理を行った後、、信号フレームの内容により以下の処理モードのいずれかの処理により符号化を行う。

unvoiced coding mode（無声符号化モード）

無声音の場合の処理

voiced coding mode（有声符号化モード）

周期的な繰り返しのある有声音の場合の処理

transition coding mode（遷移符号化モード）

有声音の開始時点の処理

discontinuous transmission and comfort noise generation (DTX/CNG)（非連続送信とコンフォートノイズ生成）

無音時の無音データ（silence insertion descriptor、SID）か NO_DATA フレームの生成、

まったくの無音を避けるため、デコーダ側での適切なレベルのバックグラウンドノイズ（コンフォートノイズ）生成

generic coding mode（ジェネリック符号化モード）

上記のいずれにも分類できない場合の処理

また、G.718 はIPネットワークのようなパケットロスやパケット遅延の多い環境での利用を想定しているため、これらによるフレーム消失時の音質低下を避けるための補助情報も同時に抽出する。これらの情報は第3層に格納され、必要に応じ復号時に使用される。

第2層

[編集]

コアの機能拡張である第2層もACELP を使用し 12.8 kHz でサンプリングされたフレームに対し符号化処理を行う。第1層での符号化モードやコードブックの値を使い第1層で符号化できなかった残差信号を計算し、それをACELP のコードブックを使って符号化する。動作は第1層の符号化モードにより異なるが、基本的には以下を行う。

12.8 kHz でサンプリングされた 6.4kHz 以下の信号成分について、元の信号と第1層で符号化した信号との残差を符号化
AMR-WB のアルゴリズムを使用し 6.4kHz～7kHz の信号成分を生成

第3層以上

[編集]

第3層以上の層は広帯域版でのみ使われ、サンプリング周波数は 16kHz である。これらの層では、第2層までで符号化できなかった残差部分をMDCT を用いて周波数領域の係数に変換し、入力信号の性質と人間の聴感特性に合わせてそれらを符号化する。

一般に、音声と音楽ではその音の性質がかなり異なる。G.718 では、信号に音声成分が多いか音楽成分が多いかを判定し、第3層と第4層で使われる符号化方法を切り替える。

音声/音楽の判定には第2層以下で符号化できた信号と実際の入力信号との周波数領域での差を調べることで行う。第2層以下は音声符号化用のアルゴリズムを用いているため音楽などを含む信号はうまく符号化ができず、実際の入力信号より符号化後の信号のほうがエネルギーが大きくなる領域が多くなる。これを利用し符号化後のエネルギーが大きくなる領域のエネルギーの総和を求めることで判定を行う。

音声成分が多い場合、第3層と第3層では AVQ（algebraic vector quantization）と呼ばれる方法が使われる。音楽成分が多い場合、第3層では BS-SGC（band-selective shape-gain vector quantization）が、第4層は FPC（factorial pulse coding）と呼ばれる方法が使われる。

第5層では常に FPC（factorial pulse coding）が使われる。それ以下の層で符号化できなかった周波数領域での残差を符号化する。

第3層以上で使われるMDCT 係数の符号化方式を以下の表にまとめる。

G.729.1 の第3層以上で使われる符号化方式
階層	符号化方式	説明
3	AVG（algebraic vector quantization）	音声（voice）成分が多い場合
3	BS-SGC（band-selective shape-gain vector quantization）	音楽（music）成分が多い場合
4	AVG（algebraic vector quantization）	音声（voice）成分が多い場合
4	FPC（factorial pulse coding）	音楽（music）成分が多い場合
5	FPC（factorial pulse coding）

脚注

[編集]

^^a ^b ^c ^dITU-T Recommendation G.718 (06/2008),Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T, 2008.
^IETF Network Working Group. RFC DraftRTP payload format for G.718 speech/audio. IETF. April, 2009.

参考文献

[編集]

Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed).Springer Handbook of Speech Processing. Springer, 2007.ISBN 978-3540491255.
ITU-T Recommendation G.718 (06/2008),Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s. ITU-T, 2008.
IETF Network Working Group. RFC DraftRTP payload format for G.718 speech/audio. IETF. April, 2009.

外部リンク

[編集]

マルチメディア圧縮フォーマット

動画ファイルフォーマット

ISO/IEC	MJPEG Motion JPEG 2000 MPEG-1 MPEG-2 Part 2（英語版） MPEG-4 Part 2/ASP（英語版） Part 10/AVC MPEG-H Part 2/HEVC MPEG-I VVC MPEG-5
ITU-T	H.120（英語版） H.261 H.262 H.263 H.264 H.265 DV H.266 H.267
SMPTE	VC-1 VC-2 (Dirac) VC-3 VC-5（英語版） VC-6
AOMedia	AV1
IETF	VP8
SAC	AVS（英語版）
その他	Apple Video（英語版） Bink（英語版） DVI（英語版） EVC（英語版） GIFアニメーション Microsoft Video 1（英語版） MSU Lossless（英語版） OMS Video（英語版） ProRes 422 ProRes 4444 RTVideo（英語版） SheerVideo（英語版） Smacker（英語版） Snow Sorenson Video, Spark（英語版） VP6 VP9 WMV YULS（英語版） XVC Xvid
可逆圧縮	FFV1（英語版） Ut Video Codec Suite
開発停止	Zlib Cinepak Daala Huffyuv Lagarith（英語版） RealVideo RMP4 Indeo Microsoft MPEG-4 QuickTime Pixlet Animation（英語版） Graphics（英語版） Theora Thor VP3 VP7 XEB XVD

音声ファイルフォーマット

ISO/IEC	MPEG-1 Layer III (MP3) MPEG-1 Layer II Multichannel（英語版） MPEG-1 Layer I（英語版） AAC HE-AAC AAC-LD（英語版） MPEG Surround（英語版） MPEG-4 ALS MPEG-4 SLS MPEG-4 DST MPEG-4 HILN MPEG-4 HVXC MPEG-4 CELP MPEG-D USAC（英語版） MPEG-H 3D Audio（英語版）
ITU-T	G.711 (A-law,µ-law) G.718 G.719 G.721 G.722 G.722.1 G.722.2 G.723 G.723.1 G.726 G.728 G.729 G.729.1
IETF	FLAC Opus iLBC Vorbis
3GPP	AMR AMR-WB AMR-WB+ EVRC EVRC-B（英語版） EVS GSM-HR GSM-FR GSM-EFR
ETSI	AC-3 AC-4（英語版） DTS
SAC	AVS（英語版） DRA（英語版）
その他	ADPCM ALAC Codec 2（英語版） Monkey's Audio OptimFROG（英語版） PCM WavPack TAK MQA（英語版）
開発停止	ACELP Asao（英語版） ATRAC CELT iSAC（英語版） La Musepack MT9（英語版） OSQ（英語版） PASC QCELP（英語版） RealAudio RCELP RTAudio（英語版） SD2 SHN SILK（英語版） Siren（英語版） SMV Speex SVOPC（英語版） VMR-WB TTA TwinVQ VSELP（英語版） WMA
Bluetooth	SBC (codec)（英語版） aptX LDAC LC3

画像ファイルフォーマット

IEC,ISO, ITU-T,W3C,IETF	CCITT Group 4（英語版） GIF HEIF HEVC JBIG JBIG2 JPEG JPEG-LS JPEG 2000 JPEG XR JPEG XS（英語版） JPEG XT（英語版） JPEG XL Lossless JPEG PNG APNG TIFF TIFF/EP（英語版） TIFF/IT（英語版） WebP
その他	AVIF BPG DjVu DNG EXR FLIF（英語版） ICER（英語版） ILBM JPEG Network Graphics MNG PCX PGF（英語版） QTVR（英語版） TGA WBMP

マルチメディアコンテナフォーマット

ISO/IEC	MPEG-ES（英語版） MPEG-PES（英語版） MPEG-PS（英語版） MPEG-TS ISO base media file format（英語版） MPEG-4 Part 14 (MP4) Motion JPEG 2000 MPEG-21 Part 9 MPEG media transport（英語版）
ITU-T	H.222.0 T.802
IETF	Matroska Ogg RTP
SMPTE	GXF（英語版） MXF
3GPP	3GP and 3G2（英語版） 3GP 3G2
その他	AMV ASF AIFF AVI AU BPG Bink（英語版） Smacker（英語版） BMP DivX Media Format DPX DSM EVO（英語版） Flash Video (FLV) IFF M2TS（英語版） WebM QuickTime File Format（英語版） (MOV) RatDVD RealMedia RIFF WAV MOD and TOD（英語版） VOB, IFO and BUP（英語版）