WO2006046547A1

WO2006046547A1 - 音声符号化装置および音声符号化方法

Info

Publication number: WO2006046547A1
Application number: PCT/JP2005/019579
Authority: WO
Inventors: Masahiro Oshikiri
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-10-27
Filing date: 2005-10-25
Publication date: 2006-05-04
Also published as: EP1806737A1; CN101044552A; US20080091440A1; JPWO2006046547A1; US8099275B2; JP4859670B2; KR20070070189A; EP1806737A4; BRPI0518193A; RU2007115914A

Abstract

　ビットレートの増加を最小限に抑えつつ、量子化性能の向上を図ることができる音声符号化装置。この装置では、第２レイヤ符号化部（４０）において、標準偏差算出部（４０８）が、復号スケールファクタ比乗算後の第１レイヤ復号スペクトルの標準偏差σcを算出して選択部（４０９）に出力し、選択部（４０９）が、標準偏差σcに基づいて、残差スペクトルを非線形変換する関数としてどの非線形変換関数を用いるか選択し、非線形変換関数部（４１０）が、選択部（４０９）での選択結果に基づいて、複数用意されている非線形変換関数＃１～＃Ｎのうちのいずれか一つを選択して逆変換部（４１１）に出力し、逆変換部（４１１）が、非線形変換関数部（４１０）から出力された非線形変換関数を用いて、残差スペクトル符号帳に（４１２）に格納されている残差スペクトル候補に対して逆変換（伸張処理）を施して加算器（４１３）に出力する。

Description

明細書

音声符号化装置および音声符号化方法

技術分野

[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、スケーラブル符号化に適した音声符号化装置および音声符号化方法に関する。

背景技術

[0002] 移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビットレートで圧縮することが要求されている。その一方で、通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声以外の信号をも高品質に符号化できることが望ましい。

[0003] このような相反する要求に対し、複数の符号ィ匕技術を階層的に統合するアブローチが有望視されている。このアプローチの一つに、音声信号に適したモデルで入力信号を低ビットレートで符号化する第 1レイヤと、入力信号と第 1レイヤでの復号信号との差分信号を音声以外の信号にも適したモデルで符号ィ匕する第 2レイヤとを階層的に組み合わせた符号ィ匕方式がある。このような階層構造を持つ符号ィ匕方式は、符号ィ匕により得られるビットストリームにスケーラビリティ性 (ビットストリームの一部の情報力もでも復号信号が得られること)を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号ィ匕はその性質から、ビットレートの異なるネットワーク間の通信にも柔軟に対応できる特徴を持つ。この特徴は、 IPプロトコルで多様なネットワークが統合されて、くと予想される今後のネットワーク環境に適したものと、える。

[0004] 従来のスケーラブル符号化としては、例えば、 MPEG -4 (Moving Picture Experts Group phase-4)で規格ィ匕された技術を用いてスケーラブル符号ィ匕を行うものがある（非特許文献 1参照)。このスケーラブル符号ィ匕では、音声信号に適した CELP (Code Excited Linear Prediction;符号励信線形予測）を第 1レイヤに用い、原信号から第 1 レイヤでの復号信号を減じた残差信号に対する AAC (Advanced Audio Coder)や T wmVQ、 i ransform Domain Weighted Interleave Vector Quantization;周波数領域重み付きインターリーブベクトル量子化）のような変換符号ィ匕を第 2レイヤとして用いる。

[0005] また、変換符号ィ匕においてスペクトルを効率的に量子化する技術がある（特許文献 1参照）。この技術は、スペクトルをブロック化し、そのブロック内に含まれる係数のばらつき度を表す標準偏差を求める。そして、この標準偏差の値に応じてブロックに含まれる係数の確率密度関数を推定し、その確率密度関数に適した量子化器を選択する。この技術により、スペクトルの量子化誤差を小さくし、音質を改善することができる。

特許文献 1：特許第 3299073号公報

非特許文献 1 :三木弼ー編著、 MPEG— 4の全て、初版、（株)工業調査会、 1998年 9月 30日、 p.126— 127

発明の開示

発明が解決しょうとする課題

[0006] しかし、特許文献 1記載の技術では、量子化対象である信号そのものの分布に応じて量子化器を選択するため、どの量子化器を選択したかという選択情報を符号ィ匕して復号ィ匕装置へ伝送する必要がある。そのために、その選択情報が付加情報として伝送される分だけビットレートが増加してしまう。

[0007] 本発明の目的は、ビットレートの増加を最小限に抑えつつ、量子化性能の向上を図ることができる音声符号ィ匕装置および音声符号ィ匕方法を提供することである。

課題を解決するための手段

[0008] 本発明の音声符号ィ匕装置は、複数のレイヤ力なる階層構造を有する符号ィ匕を行う音声符号化装置であって、下位レイヤの復号信号を周波数分析して下位レイヤの復号スペクトルを算出する分析手段と、前記下位レイヤの復号スペクトルのばらつき度に基づいて、複数の非線形変換関数のうちのいずれか一つの非線形変換関数を選択する選択手段と、非線形変換された残差スペクトルを、前記選択手段によって選択された非線形変換関数を用いて逆変換する逆変換手段と、逆変換された残差スベクトルと前記下位レイヤの復号スペクトルとを加算して上位レイヤの復号スペクトルを得る加算手段と、を具備する構成を採る。発明の効果

[0009] 本発明によれば、ビットレートの増加を最小限に抑えつつ、量子化性能の向上を図ることがでさる。

図面の簡単な説明

[0010] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図

[図 2]本発明の実施の形態 1に係る第 2レイヤ符号ィ匕部の構成を示すブロック図

[図 3]本発明の実施の形態 1に係る誤差比較部の構成を示すブロック図

[図 4]本発明の実施の形態 1に係る第 2レイヤ符号ィ匕部の構成を示すブロック図（変形例）

[図 5]本発明の実施の形態 1に係る第 1レイヤ復号スペクトルの標準偏差と誤差スぺクトルの標準偏差との関係を示すグラフ

[図 6]本発明の実施の形態 1に係る誤差スペクトルの標準偏差の推定方法を示す図

[図 7]本発明の実施の形態 1に係る非線形変換関数の一例を示す図

[図 8]本発明の実施の形態 1に係る音声復号ィ匕装置の構成を示すブロック図

[図 9]本発明の実施の形態 1に係る第 2レイヤ復号ィ匕部の構成を示すブロック図

[図 10]本発明の実施の形態 2に係る誤差比較部の構成を示すブロック図

[図 11]本発明の実施の形態 3に係る第 2レイヤ符号ィ匕部の構成を示すブロック図

[図 12]本発明の実施の形態 3に係る誤差スペクトルの標準偏差の推定方法を示す図

[図 13]本発明の実施の形態 3に係る第 2レイヤ復号ィ匕部の構成を示すブロック図発明を実施するための最良の形態

[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお、各実施の形態では、複数のレイヤ力なる階層構造を有するスケーラブル符号ィ匕を行う。また、各実施の形態では、一例として、（1)スケーラブル符号ィ匕の階層構造は、第 1レイヤ（下位レイヤ）と第 1レイヤより上位にある第 2レイヤ (上位レイヤ）の 2階層とする、（2)第 2レイヤの符号ィ匕では、周波数領域で符号化 (変換符号化)を行う、 (3)第 2レイヤの符号化における変換方式には MDCT (Modified Discrete Cosine Tr ansform ;変形離散コサイン変換)を使用する、（4)第 2レイヤの符号ィ匕では、入力信号帯域を複数のサブバンド (周波数帯域）に分割し、各々のサブバンド単位で符号化する、（5)第 2レイヤの符号ィ匕では、サブバンド分割は、臨界帯域に対応付けて行われ、 Bark^ケールで等間隔に分割される、ものとする。

[0012] (実施の形態 1)

本発明の実施の形態 1に係る音声符号ィ匕装置の構成を図 1に示す。

[0013] 図 1において、第 1レイヤ符号ィ匕部 10は、入力される音声信号 (原信号)を符号化して得られる符号ィ匕パラメータを第 1レイヤ復号ィ匕部 20および多重化部 50に出力する

[0014] 第 1レイヤ復号ィ匕部 20は、第 1レイヤ符号ィ匕部 10から出力された符号ィ匕パラメータ力も第 1レイヤの復号信号を生成して第 2レイヤ符号ィ匕部 40に出力する。

[0015] 一方、遅延部 30は、入力される音声信号 (原信号）に所定の長さの遅延を与えて第 2レイヤ符号ィ匕部 40に出力する。この遅延は、第 1レイヤ符号化部 10および第 1レィャ復号ィ匕部 20で生じる時間遅れを調整するためのものである。

[0016] 第 2レイヤ符号ィ匕部 40は、遅延部 30から出力された原信号を第 1レイヤ復号ィ匕部 2 0から出力された第 1レイヤ復号信号を用いてスペクトル符号ィ匕し、このスペクトル符号ィ匕により得られる符号ィ匕パラメータを多重化部 50に出力する。

[0017] 多重化部 50は、第 1レイヤ符号ィ匕部 10から出力された符号ィ匕パラメータと第 2レイャ符号ィ匕部 40から出力された符号化パラメータとを多重化し、ビットストリームとして出力する。

[0018] 次いで、第 2レイヤ符号ィ匕部 40についてより詳細に説明する。第 2レイヤ符号化部

40の構成を図 2に示す。

[0019] 図 2において、 MDCT分析部 401は、第 1レイヤ復号ィ匕部 20から出力された第 1レィャ復号信号を MDCT変換により周波数分析して MDCT係数 (第 1レイヤ復号スぺタトル)を算出し、第 1レイヤ復号スペクトルをスケールファクタ符号ィ匕部 404および乗算器 405に出力する。

[0020] MDCT分析部 402は、遅延部 30から出力された原信号を MDCT変換により周波数分析して MDCT係数 (原スペクトル）を算出し、原スペクトルをスケールファクタ符号ィ匕部 404および誤差比較部 406に出力する。

[0021] 聴覚マスキング算出部 403は、遅延部 30から出力された原信号を用いて、あらかじめ規定されている帯域幅を持つサブバンド毎の聴覚マスキングを算出し、この聴覚マスキングを誤差比較部 406に通知する。人間の聴覚特性には、ある信号が聞こえているときに、その信号と周波数の近い音が耳に入ってきても聞こえにくい、という聴覚マスキング特性がある。上記聴覚マスキングは、この人間の聴覚マスキング特性を利用して、量子化歪が聞こえにくい周波数のスペクトルの量子化ビット数を少なくし、量子化歪が聞こえやすい周波数のスペクトルの量子化ビット数を多く配分することで効率的なスペクトル符号ィ匕を実現するために利用される。

[0022] スケールファクタ符号ィ匕部 404は、スケールファクタ (スペクトル概形を表す情報)の符号化を行う。スペクトル概形を表す情報として、サブバンド毎の平均振幅を用いる。スケールファクタ符号ィ匕部 404は、 MDCT分析部 401から出力された第 1レイヤ復号スペクトルに基づいて第 1レイヤ復号信号における各サブバンドのスケールファクタを算出する。それと共に、スケールファクタ符号ィ匕部 404は、 MDCT分析部 402から出力された原スペクトルに基づいて原信号の各サブバンドのスケールファクタを算出する。そして、スケールファクタ符号ィ匕部 404は、原信号のスケールファクタに対する第 1レイヤ復号信号のスケールファクタの比を算出し、このスケールファクタ比を符号化して得られる符号化パラメータをスケールファクタ復号ィ匕部 407および多重化部 5 0に出力する。

[0023] スケールファクタ復号ィ匕部 407は、スケールファクタ符号ィ匕部 404から出力された符号化パラメータを基に、スケールファクタ比を復号し、この復号した比 (復号スケールファクタ比）を乗算器 405に出力する。

[0024] 乗算器 405は、 MDCT分析部 401から出力された第 1レイヤ復号スペクトルにスケールファクタ復号ィ匕部 407から出力された復号スケールファクタ比を対応するサブバンド毎に乗じ、乗算結果を標準偏差算出部 408および加算器 413に出力する。この結果、第 1レイヤ復号スペクトルのスケールファクタは原スペクトルのスケールファクタに近づく。

[0025] 標準偏差算出部 408は、復号スケールファクタ比乗算後の第 1レイヤ復号スぺクトルの標準偏差 _σ cを算出して選択部 409に出力する。この標準偏差 σ cの算出の際には、スペクトルを振幅値と正号 Z負号情報とに分離し、振幅値に対して標準偏差を算出するようにする。この標準偏差の算出により、第 1レイヤ復号スペクトルのばらつき度が定量化される。

[0026] 選択部 409は、標準偏差算出部 408から出力された標準偏差 σ cに基づいて、逆変換部 411で残差スペクトルを非線形逆変換する関数としてどの非線形変換関数を用いる力選択し、その選択結果を示す情報を非線形変換関数部 410に出力する。

[0027] 非線形変換関数部 410は、選択部 409での選択結果に基づいて、複数用意されて、る非線形変換関数 # 1〜 # Nのうちの、ずれか一つを逆変換部 411に出力する

[0028] 残差スペクトル符号帳 412には、残差スペクトルを非線形変換して圧縮した複数の残差スペクトルの候補が格納されている。残差スペクトル符号帳 412に格納されている残差スペクトル候補はスカラーでもベクトルでもよい。また、残差スペクトル符号帳 4 12はあら力じめ学習用のデータを用いて設計される。

[0029] 逆変換部 411は、非線形変換関数部 410から出力された非線形変換関数を用いて、残差スペクトル符号帳 412に格納されている残差スペクトル候補のいずれか一つに対して逆変換 (伸張処理)を施して加算器 413に出力する。これは、第 2レイヤ符号化部 40が伸張後の信号の誤差を最小化する構成になっているためである。

[0030] 加算器 413は、復号スケールファクタ比乗算後の第 1レイヤ復号スペクトルに、逆変換後（伸張後）の残差スペクトル候補を加算して誤差比較部 406に出力する。この加算の結果得られるスペクトルは第 2レイヤ復号スペクトルの候補に相当する。

[0031] つまり、第 2レイヤ符号化部 40は、後述する音声復号化装置に備えられる第 2レイャ復号ィ匕部と同一の構成を備え、第 2レイヤ復号ィ匕部で生成されるであろう第 2レイャ復号スペクトルの候補を生成する。

[0032] 誤差比較部 406は、残差スペクトル符号帳 412内の一部もしくは全ての残差スぺクトル候補にっ、て、聴覚マスキング算出部 403から通知された聴覚マスキングを用いて、原スペクトルと第 2レイヤ復号スペクトル候補との比較を行い、残差スペクトル符号帳 412内から最も適切な残差スペクトル候補を探索する。そして、誤差比較部 406は、その探索した残差スペクトルを表す符号ィ匕パラメータを多重化部 50に出力する。

[0033] 誤差比較部 406の構成を図 3に示す。図 3において、減算器 4061は、原スペクトル力第 2レイヤ復号スペクトル候補を減じて誤差スペクトルを生成し、マスキング対誤差比算出部 4062に出力する。マスキング対誤差比算出部 4062は、聴覚マスキングに対する誤差スペクトルの大きさの比 (マスキング対誤差比）を算出し、人間の聴感上どの程度誤差スペクトルが知覚されるかを定量ィ匕する。ここで算出されるマスキング対誤差比が大きい程、聴覚マスキングに対する誤差スペクトルが小さいとはいえ、人間に知覚される聴感的な歪は小さくなる。探索部 4063は、残差スペクトル符号帳 41 2内の一部もしくは全ての残差スペクトル候補の中でマスキング対誤差比が最も大きくなる (すなわち、知覚される誤差スペクトルが最も小さくなる)ときの残差スペクトル候補を探索し、その探索した残差スぺ外ル候補を表す符号化パラメータを多重化部 5 0に出力する。

[0034] なお、第 2レイヤ符号ィ匕部 40の構成として、図 2に示す構成力もスケールファクタ符号ィ匕部 404およびスケールファクタ復号ィ匕部 407を除、た構成を採ってもょ、。この場合、第 1レイヤ復号スペクトルはスケールファクタにて振幅値が補正されることなく加算器 413に与えられる。つまり、伸張後の残差スペクトルは第 1レイヤ復号スぺクトルに直接加算される構成になる。

[0035] また、上記説明では残差スペクトルを逆変換部 411で逆変換 (伸張処理)する構成について説明した力次のような構成を採ってもよい。すなわち、原スペクトルからスケールファクタ比乗算後の第 1レイヤ復号スペクトルを減じて目標残差スペクトルを生成し、この目標残差スペクトルを選択された非線形変換関数を用いて順変換 (圧縮処理)し、非線形変換後の目標残差スペクトルに最も近い残差スペクトルを残差スぺタトル符号帳より探索して決定する構成としてもよい。この構成では、逆変換部 411に代えて、目標残差スペクトルを非線形変換関数にて順変換 (圧縮処理)する順変換部を用いる。

[0036] また、図 4に示すように、残差スペクトル符号帳 412が各非線形変換関数 # 1〜# Nに対応した残差スペクトル符号帳 # 1〜# Nを有し、選択部 409からの選択結果情報が残差スペクトル符号帳 412にも入力される構成としてもよい。この構成では、選択部 409での選択結果に基づき、残差スペクトル符号帳 # 1〜# Nのうち、非線形変換関数部 410において選択される非線形変換関数に対応するいずれか一つの残差スペクトル符号帳が選択される。このような構成を採ることで、各非線形変換関数に最適な残差スペクトル符号帳を用いることができるため、さらに音声品質を向上させることがでさる。

[0037] 次いで、選択部 409における、第 1レイヤ復号スペクトルの標準偏差 σ cに基づく非線形変換関数の選択について詳しく説明する。図 5のグラフは、第 1レイヤ復号スぺタトルの標準偏差 σ cと、原スペクトル力ゝら第 1レイヤ復号スペクトルを減じて生成した誤差スペクトルの標準偏差 σ eとの関係を示している。またこのグラフは約 30秒間の音声信号に対しての結果である。ここでいう誤差スペクトルは、第 2レイヤが符号ィ匕の対象とするスペクトルに相当する。よって、この誤差スペクトルをいかに少ないビット数で高品質に (聴感的な歪が小さくなるように)符号ィ匕できるかが重要となる。

[0038] ここで、第 1レイヤ符号ィ匕へのビット配分が十分大きいときには、誤差スペクトルの特性は白色に近くなる。しかし、実用的なビット配分の下では誤差スペクトルの特性は十分に白色化されず、誤差スペクトルの特性は原信号のスペクトル特性にある程度類似した特性となる。そのため、第 1レイヤ復号スペクトル (原スペクトルに近づくように符号化され求められたスペクトル)の標準偏差 σ cと誤差スペクトルの標準偏差 σ eの間には相関があると考えられる。

[0039] このことは図 5のグラフにより確かめられる。つまり、図 5のグラフより、第 1レイヤ復号スペクトルの標準偏差 σ c (第 1レイヤ復号スペクトルのばらつき度）と誤差スペクトルの標準偏差 σ e (誤差スペクトルのばらつき度）との間には、正の相関があることが分かる。つまり、第 1レイヤ復号スペクトルの標準偏差が小さいときには誤差スぺタトルの標準偏差 _σ eも小さぐ第 1レイヤ復号スペクトルの標準偏差 σ cが大きいときには誤差スペクトルの標準偏差 σ eも大きくなる傾向にある。

[0040] そこでこの関係を利用し、本実施の形態では、選択部 409において、第 1レイヤ復号スペクトルの標準偏差 _σ cから誤差スペクトルの標準偏差 σ eを推定し、この推定された標準偏差 _σ eに最適な非線形変換関数を非線形変換関数 # 1〜 # Νの中から選択する。

[0041] 第 1レイヤ復号スペクトルの標準偏差 σ cから誤差スペクトルの標準偏差 σ eを決定する具体例について図 6を用いて説明する。図 6において横軸は第 1レイヤ復号スぺタトルの標準偏差 _{σ c}、縦軸は誤差スペクトルの標準偏差 σ eを表す。第 1レイヤ復号スペクトルの標準偏差 σ cが範囲 Xに属する場合に、あらかじめ定められた範囲 X用の代表点で表される標準偏差 σ eが誤差スペクトルの標準偏差 σ eの推定値とされる

[0042] このように第 1レイヤ復号スペクトルの標準偏差 σ c (第 1レイヤ復号スペクトルのばらつき度)を基に誤差スペクトルの標準偏差 σ e (誤差スペクトルのばらつき度)を推定し、この推定値に最適な非線形変換関数を選択することにより、誤差スペクトルを効率的に符号化することが可能となる。また、第 1レイヤの復号信号は音声復号装置側でも得られるため、非線形変換関数の選択結果を示す情報を音声復号装置側へ伝送する必要がない。このために、ビットレートの増加を抑えて高品質に符号ィ匕を行うことができる。

[0043] 次、で、非線形変換関数の一例を図 7に示す。この例では 3種類の対数関数 (a) 〜(c)を用いている。選択部 409において選択される非線形変換関数は、符号化対象の標準偏差の推定値 (本実施形態では第 1レイヤ復号スペクトルの標準偏差 _σ c) の大きさに応じて選択される。すなわち、標準偏差が小さいときには関数 (a)のようにばらつきの小さ、信号に適した非線形変換関数が選択され、標準偏差が大き!、ときには関数 (c)のようにばらつきの大きい信号に適した非線形変換関数が選択される。このように、本実施形態では誤差スペクトルの標準偏差 σ eの大きさに応じて、非線形変換関数の、ずれか一つを選択する。

[0044] 非線形変換関数としては、例えば式（1)で表されるような則 PCMに用いられる非線形変換関数を用いる。

[数 1]

F _νί , _λ ( \ ^ζ^ + μ · \ Ι^Β) ₍ , _Λ

(〃,x) = sgn(x) ·~ - ~ r ~ · ·■ ( 1 )

log l +〃）

[0045] 式（1)にお、て、 A、 Bは非線形変換関数の特性を規定する定数、 sgn ( )は符号を返す関数を表す。底 bには正の実数を用いる。 μの異なる複数の非線形変換関数をあらかじめ用意しておき、第 1レイヤ復号スペクトルの標準偏差 σ cを基に、誤差スぺタトルを符号ィ匕する際にどの非線形変換関数を用いるかを選択する。標準偏差の小さい誤差スペクトルに対してはの小さい非線形変換関数を用い、標準偏差の大きい誤差スペクトルに対してはの大きい非線形変換関数を用いる。適切なは第 1 レイヤ符号ィ匕の性質に依存するために、あら力じめ学習用のデータを利用して決定しておく。

また、非線形変換関数として、式 (2)で表される関数を用いてもよい。

[数 2]

F(a, χ) = Α · sgn(x) - log_a (l + |x|) · · · ( 2 )

[0047] 式（2)にお、て、 Aは非線形関数の特性を規定する定数である。この場合、底 aの異なる複数の非線形変換関数をあらかじめ用意しておき、第 1レイヤ復号スペクトルの標準偏差 σ cを基に、誤差スペクトルを符号ィ匕する際にどの非線形変換関数を用 V、るかを選択する。標準偏差の小さ、誤差スペクトルに対しては aの小さ、非線形変換関数を用い、標準偏差の大き、誤差スペクトルに対しては aの大き、非線形変換関数を用いる。適切な aは第 1レイヤ符号化の性質に依存するために、あら力じめ学習用のデータを利用して決定しておく。

[0048] なお、これらの非線形変換関数は一例として挙げたものであり、本発明はどのような非線形変換関数を使用するかによって限定されるものではない。

[0049] 次、で、スペクトル符号ィ匕を行う際に非線形変換が必要である理由につ、て説明する。スペクトルの振幅値のダイナミックレンジ (最大振幅値と最小振幅値の比)は非常に大きい。そのため、振幅スペクトルを符号ィ匕する際に、量子化ステップサイズが均一の線形量子化を適用すると、非常に多くのビット数が必要になる。仮に符号化ビット数が限定される場合、ステップサイズを小さく設定すると振幅値の大き、スぺタトルはクリッピングされてしまい、そのクリッピング部分の量子化誤差が大きくなる。一方で、ステップサイズを大きく設定すると振幅値の小さ、スペクトルの量子化誤差が大きくなる。よって、振幅スペクトルのようにダイナミックレンジの大きい信号を符号ィ匕する場合には、非線形変換関数を用いて非線形変換を行った後に符号ィ匕する方法が効果的である。この場合、適切な非線形変換関数を用いることが重要となる。また、非線形変換を行う際には、スペクトルを振幅値と正号 Z負号情報とに分離し、振幅値に対してまず非線形変換を行う。そして非線形変換後に符号ィ匕を行い、その復号値に正号 Z負号情報を付加する。

[0050] なお、本実施の形態では全帯域を一括して処理する構成に基づ!/、て説明して!/、る

1S 本発明はこれに限定されず、スペクトルを複数のサブバンドに分割し、各サブバンド毎に第 1レイヤ復号スペクトルの標準偏差力誤差スペクトルの標準偏差を推定し、その推定された標準偏差に最適な非線形変換関数を用いて各サブバンドのスぺタトルを符号ィ匕する構成であってもよヽ。

[0051] また、第 1レイヤ復号信号スペクトルのばらつき度は、低域ほどばらつき度が大きぐ高域ほどばらつき度が小さい傾向にある。この傾向を利用し、複数のサブバンド毎に設計し用意した複数の非線形変換関数を用いてもよい。この場合、各サブバンド毎に非線形変換関数部 410が複数備えられる構成を採る。つまり、各サブバンドに対応する非線形変換関数部がそれぞれ、非線形変換関数 # 1〜# Nの組を有する。そして、選択部 409は、複数のサブバンド各々に対して、複数のサブバンド毎に用意された複数の非線形変換関数 # 1〜 # Nの中の、ずれか一つの非線形変換関数を選択する。このような構成を採ることにより、サブバンド毎に最適な非線形変換関数を用いることができ、さらに量子化性能を向上させて音声品質を向上させることができる。

[0052] 次いで、本発明の実施の形態 1に係る音声復号化装置の構成について図 8を用いて説明する。

[0053] 図 8において、分離部 60は、入力されるビットストリームを符号ィ匕パラメータ (第 1レィャ用）と符号ィ匕パラメータ (第 2レイヤ用）とに分離して、それぞれ第 1レイヤ復号ィ匕部 70と第 2レイヤ復号ィ匕部 80に出力する。符号ィ匕パラメータ (第 1レイヤ用）は第 1レィャ符号化部 10で求められた符号化パラメータであり、例えば第 1レイヤ符号化部 1 0にて CELP (Code Excited Linear Prediction)を用いた場合には、この符号化パラメータは、 LPC係数、ラグ、駆動信号、ゲイン情報などで構成されることになる。符号ィ匕ノラメータ（第 2レイヤ用）はスケールファクタ比の符号ィ匕パラメータおよび残差スぺクトルの符号化パラメータである。

[0054] 第 1レイヤ復号ィ匕部 70は、第 1レイヤ符号ィ匕パラメータ力も第 1レイヤの復号信号を生成して、第 2レイヤ復号ィ匕部 80に出力するとともに、必要に応じて低品質の復号信号として出力する。

[0055] 第 2レイヤ復号ィ匕部 80は、第 1レイヤ復号信号、スケールファクタ比の符号ィ匕パラメータおよび残差スペクトルの符号ィ匕パラメータを用いて、第 2レイヤの復号信号、すなわち、高品質の復号信号を生成し、必要に応じてこの復号信号を出力する。

[0056] このように、第 1レイヤ復号信号によって再生音声の最低限の品質が担保され、第 2 レイヤ復号信号によって再生音声の品質を高めることができる。また、第 1レイヤ復号信号または第 2レイヤ復号信号の、ずれを出力するかは、ネットワーク環境 (パケットロスの発生等）によって第 2レイヤ符号化パラメータが得られるかどうか、または、アブリケーシヨンやユーザの設定等に依存する。

[0057] 次いで、第 2レイヤ復号化部 80についてより詳細に説明する。第 2レイヤ復号化部 80の構成を図 9に示す。なお、図 9に示すスケールファクタ復号化部 801、 MDCT 分析部 802、乗算器 803、標準偏差算出部 804、選択部 805、非線形変換関数部 8 06、逆変換部 807、残差スペクトル符号帳 808、および加算器 809は、音声符号ィ匕装置の第 2レイヤ符号ィ匕部 40 (図 2)に備えられるスケールファクタ復号ィ匕部 407、 M DCT分析部 401、乗算器 405、標準偏差算出部 408、選択部 409、非線形変換関数部 410、逆変換部 411、残差スペクトル符号帳 412、および加算器 413にそれぞれ対応し、対応する各構成は同一の機能を有する。

[0058] 図 9において、スケールファクタ復号化部 801は、スケールファクタ比の符号化パラメータを基に、スケールファクタ比を復号し、この復号した比 (復号スケールファクタ比 )を乗算器 803に出力する。

[0059] MDCT分析部 802は、第 1レイヤ復号信号を MDCT変換により周波数分析して M DCT係数 (第 1レイヤ復号スペクトル)を算出し、第 1レイヤ復号スペクトルを乗算器 8 03に出力する。

[0060] 乗算器 803は、 MDCT分析部 802から出力された第 1レイヤ復号スペクトルにスケールファクタ復号ィ匕部 801から出力された復号スケールファクタ比を対応するサブバンド毎に乗じ、乗算結果を標準偏差算出部 804および加算器 809に出力する。この結果、第 1レイヤ復号スペクトルのスケールファクタは原スペクトルのスケールファクタに近づく。

[0061] 標準偏差算出部 804は、復号スケールファクタ比乗算後の第 1レイヤ復号スぺクトルの標準偏差 er eを算出して選択部 805に出力する。この標準偏差の算出により、第 1レイヤ復号スペクトルのばらつき度が定量ィ匕される。

[0062] 選択部 805は、標準偏差算出部 804から出力された標準偏差 σ cに基づいて、逆変換部 807で残差スペクトルを非線形逆変換する関数としてどの非線形変換関数を用いる力選択し、その選択結果を示す情報を非線形変換関数部 806に出力する。

[0063] 非線形変換関数部 806は、選択部 805での選択結果に基づ、て、複数用意されて、る非線形変換関数 # 1〜 # Nのうちの、ずれか一つを逆変換部 807に出力する

[0064] 残差スペクトル符号帳 808には、残差スペクトルを非線形変換して圧縮した複数の残差スペクトルの候補が格納されて、る。残差スペクトル符号帳 808に格納されてヽる残差スペクトル候補はスカラーでもベクトルでもよい。また、残差スペクトル符号帳 8 08はあら力じめ学習用のデータを用いて設計されている。

[0065] 逆変換部 807は、非線形変換関数部 806から出力された非線形変換関数を用いて、残差スペクトル符号帳 808に格納されている残差スペクトル候補のいずれか一つに対して逆変換 (伸張処理)を施して加算器 809に出力する。残差スペクトル候補のうち逆変換が施される残差スペクトルは、分離部 60から入力される残差スペクトルの符号化パラメータに従って選択される。

[0066] 加算器 809は、復号スケールファクタ比乗算後の第 1レイヤ復号スペクトルに、逆変換後 (伸張後)の残差スぺ外ル候補を加算して時間領域変換部 810に出力する。この加算の結果得られるスペクトルは周波数領域の第 2レイヤ復号スペクトルに相当する。

[0067] 時間領域変換部 810は、第 2レイヤ復号スペクトルを時間領域の信号に変換した後、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に生じる不連続を回避し、最終的な高品質の復号信号を出力する。

[0068] このように、本実施の形態によれば、第 1レイヤ復号スペクトルのばらつき度力誤差スペクトルのばらつき度を推定し、第 2レイヤではこのばらつき度に最適な非線形変換関数を選択する。このとき、非線形変換関数の選択情報を音声符号化装置から音声復号化装置へ伝送しなくても音声復号化装置では音声符号化装置と同様にして非線形変換関数を選択可能である。このため、本実施の形態では、非線形変換関数の選択情報を音声符号化装置から音声復号化装置へ伝送する必要がな!、。よつて、ビットレートを増加させることなく量子化性能を向上させることができる。

[0069] (実施の形態 2)

本発明の実施の形態 2に係る誤差比較部 406の構成を図 10に示す。この図に示すように、本実施の形態に係る誤差比較部 406は、実施の形態 1の構成（図 3)のマスキング対誤差比算出部 4062に代えて重み付き誤差算出部 4064を備える。図 10 において図 3と同一の構成には同一符号を付して説明を省略する。

[0070] 重み付き誤差算出部 4064は、減算器 4061から出力された誤差スペクトルに聴覚マスキングで定められる重み関数を乗じ、そのエネルギー（重み付き誤差エネルギー )を算出する。重み関数は、聴覚マスキングの大きさで定まり、聴覚マスキングが大きい周波数に対しては、その周波数での歪は聞こえにくいため、重みを小さく設定する。逆に聴覚マスキングが小さい周波数に対しては、その周波数での歪は聞こえやすいので、重みを大きく設定する。重み付き誤差算出部 4064は、このように聴覚マスキングが大き、周波数での誤差スペクトルの影響を小さくし、聴覚マスキングが小さヽ周波数での誤差スペクトルの影響を大きくするような重みを付与した上でエネルギーを算出する。そして、算出したエネルギー値を探索部 4063に出力する。

[0071] 探索部 4063は、残差スペクトル符号帳 412内の一部もしくは全ての残差スペクトル候補の中で重み付き誤差エネルギーを最も小さくするときの残差スペクトル候補を探索し、その探索した残差スペクトル候補を表す符号ィ匕パラメータを多重化部 50に出力する。

[0072] このような処理を行うことで、聴感的な歪を小さくする第 2レイヤ符号ィ匕部を実現することができる。

[0073] (実施の形態 3)

本発明の実施の形態 3に係る第 2レイヤ符号ィ匕部 40の構成を図 11に示す。この図に示すように、本実施の形態に係る第 2レイヤ符号ィ匕部 40は、実施の形態 1の構成（図 2)の選択部 409に代えて符号付き選択部 414を備える。図 11にお、て図 2と同一の構成には同一符号を付して説明を省略する。

[0074] 符号付き選択部 414には、復号スケールファクタ比乗算後の第 1レイヤ復号スぺクトルが乗算器 405より入力されるとともに、その第 1レイヤ復号スペクトルの標準偏差 σ cが標準偏差算出部 408より入力される。また、符号付き選択部 414には、 MDCT 分析部 402より原スペクトルが入力される。

[0075] 符号付き選択部 414は、まず、標準偏差 σ cを基に誤差スペクトルの推定標準偏差のとり得る値を限定する。次いで、符号付き選択部 414は、原スペクトルと復号スケールファクタ比乗算後の第 1レイヤ復号スペクトル力誤差スペクトルを求め、この誤差スペクトルの標準偏差を算出し、この標準偏差に最も近い推定標準偏差を、上記のようにして限定した推定標準偏差の中から選択する。そして、符号付き選択部 414は、選択した推定標準偏差 (誤差スぺ外ルのばらつき度）に応じて実施の形態 1同様にして非線形変換関数を選択するとともに、選択した推定標準偏差を示す選択情報を符号ィ匕した符号化パラメータを多重化部 50に出力する。

[0076] 多重化部 50は、第 1レイヤ符号ィ匕部 10から出力された符号ィ匕パラメータ、第 2レイャ符号ィ匕部 40から出力された符号化パラメータおよび符号付き選択部 414から出力された符号化パラメータを多重化し、ビットストリームとして出力する。

[0077] 符号付き選択部 414での誤差スペクトルの標準偏差の推定値の選択方法について図 12を用いてより詳しく説明する。図 12において横軸は第 1レイヤ復号スペクトルの標準偏差 σ c、縦軸は誤差スペクトルの標準偏差 σ eを表す。第 1レイヤ復号スぺクトルの標準偏差 _σ cが範囲 Xに属する場合に、誤差スペクトルの標準偏差の推定値は、推定値 σ e(0)、推定値 σ e(l)、推定値 σ e(2)、推定値 σ e(3)のいずれかに限定される。これら 4個の推定値のうち、原スペクトルと復号スケールファクタ比乗算後の第 1 レイヤ復号スペクトルとから求められる誤差スペクトルの標準偏差に最も近い推定値を選択する。

[0078] このように、第 1レイヤ復号スペクトルの標準偏差を基に誤差スペクトルの推定標準偏差のとり得る推定値を複数に限定し、その限定された推定位置の中から、原スぺクトルと復号スケールファクタ比乗算後の第 1レイヤ復号スペクトルとから求められる誤差スペクトルの標準偏差に最も近い推定値を選択するため、第 1レイヤ復号スぺクトルの標準偏差による推定値の変動分に対して符号ィヒすることにより、より正確な標準偏差を求めることができ、さらに量子化性能を向上させて音声品質を向上させることができる。

[0079] 次いで、本発明の実施の形態 3に係る第 2レイヤ復号ィ匕部 80の構成について図 13 を用いて説明する。この図に示すように、本実施の形態に係る第 2レイヤ復号ィ匕部 80 は、実施の形態 1の構成（図 9)の選択部 805に代えて符号付き選択部 811を備える。図 13において図 9と同一の構成には同一符号を付して説明を省略する。

[0080] 符号付き選択部 811には、分離部 60により分離された選択情報の符号化パラメ一タが入力される。符号付き選択部 811は、選択情報によって示される推定標準偏差に基づいて、残差スペクトルを非線形変換する関数としてどの非線形変換関数を用いる力選択し、その選択結果を示す情報を非線形変換関数部 806に出力する。

[0081] 以上、本発明の実施の形態について説明した。

[0082] なお、上記各実施形態では、第 1レイヤ復号スペクトルの標準偏差を用いずに、誤差スペクトルの標準偏差を直接符号ィ匕してもよい。このようにした場合、誤差スぺタトルの標準偏差を表すための符号量は増加するものの、第 1レイヤ復号スペクトルの標準偏差と誤差スペクトルの標準偏差との相関が小さいフレームについても量子化性能を向上させることができる。

[0083] また、（i)第 1レイヤ復号スペクトルの標準偏差を基にして誤差スペクトルの標準偏差がとり得る推定値を限定することと、（ii)第 1レイヤ復号スペクトルの標準偏差を用いずに誤差スペクトルの標準偏差を直接符号化することとを、フレーム毎に切り替えるよう〖こしてもよい。この場合、第 1レイヤ復号スペクトルの標準偏差と誤差スペクトルの標準偏差との相関が所定値以上のフレームについては (i)の処理を行い、その相関が所定値未満のフレームについては (ii)の処理を行う。このように、第 1レイヤ復号スペクトルの標準偏差と誤差スペクトルの標準偏差との相関値に応じて処理 (i)と処理 (ii)とを適応的に切り替えることにより、さらに量子化性能を向上させることができる

[0084] また、上記各実施形態では、スペクトルのばらつき度を表す指標として標準偏差を用いたが、その他に、分散、最大振幅スペクトルと最小振幅スペクトルの差または比などを用いてもよい。

[0085] また、上記各実施形態では変換方式として MDCTを使用する場合について説明した力これに限定されず、他の変換方式、例えば DFTゃコサイン変換、 Wavalet変換などを使用するときにも本発明を同様に適用することができる。

[0086] また、上記各実施形態ではスケーラブル符号化の階層構造を第 1レイヤ（下位レイャ）と第 2レイヤ（上位レイヤ)の 2階層として説明したが、これに限定されず、 3階層以上の階層を持つスケーラブル符号ィ匕にも本発明を同様に適用することができる。この場合、複数のレイヤのうちのいずれかを上記各実施の形態における第 1レイヤとみなし、そのレイヤより上位にあるレイヤを上記各実施の形態における第 2レイヤとみなして、本発明を同様に適用することができる。

[0087] また、各レイヤが扱う信号のサンプリングレートが異なるときにも本発明を適用可能である。第 nレイヤが扱う信号のサンプリングレートを Fs (n)と表した場合、 Fs (n)≤F s (n+ l)の関係が成り立つ。

[0088] また、上記各実施の形態に係る音声符号化装置、音声復号化装置を、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線通信装置に搭載することも可能である。

[0089] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

[0090] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを含むように 1チップィ匕されてもょ、。

[0091] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレ卜ラ LSIと呼称されることちある。

[0092] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギユラブル'プロセッサーを利用してもよい。 [0093] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行ってもよい。バイオ技術の適応等が可能性としてありえる。

[0094] 本明細書は、 2004年 10月 27日出願の特願 2004— 312262に基づくものである。この内容はすべてここに含めておく。

産業上の利用可能性

[0095] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信システム等における通信装置の用途に適用できる。

Claims

請求の範囲

[1] 複数のレイヤ力なる階層構造を有する符号ィ匕を行う音声符号ィ匕装置であって、下位レイヤの復号信号を周波数分析して下位レイヤの復号スペクトルを算出する分析手段と、

前記下位レイヤの復号スペクトルのばらつき度に基づ、て、複数の非線形変換関数のうちのいずれか一つの非線形変換関数を選択する選択手段と、

非線形変換された残差スペクトルを、前記選択手段によって選択された非線形変換関数を用いて逆変換する逆変換手段と、

逆変換された残差スペクトルと前記下位レイヤの復号スペクトルとを加算して上位レィャの復号スペクトルを得る加算手段と、

を具備する音声符号化装置。

[2] 前記複数の非線形変換関数のそれぞれに対応する複数の残差スペクトル符号帳をさらに具備する、

請求項 1記載の音声符号化装置。

[3] 前記選択手段は、複数のサブバンド各々に対して、前記複数のサブバンド毎に用意された複数の非線形変換関数のうちのいずれか一つの非線形変換関数を選択する、

請求項 1記載の音声符号化装置。

[4] 前記選択手段は、前記下位レイヤの復号スペクトルのばらつき度から推定した誤差スペクトルのばらつき度に応じて、前記複数の非線形変換関数のうちのいずれか一つの非線形変換関数を選択する、

請求項 1記載の音声符号化装置。

[5] 前記選択手段は、さらに前記誤差スペクトルのばらつき度を示す情報を符号ィ匕する請求項 4記載の音声符号化装置。

[6] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。

[7] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。

[8] 複数のレイヤ力なる階層構造を有する符号ィ匕を行う音声符号ィ匕方法であって、下位レイヤの復号信号を周波数分析して下位レイヤの復号スペクトルを算出する分析工程と、

前記下位レイヤの復号スペクトルのばらつき度に基づ、て、複数の非線形変換関数のうちのいずれか一つの非線形変換関数を選択する選択工程と、

非線形変換された残差スペクトルを、前記選択工程にお!ヽて選択された非線形変換関数を用いて逆変換する逆変換工程と、

逆変換された残差スペクトルと前記下位レイヤの復号スペクトルとを加算して上位レィャの復号スペクトルを得る加算工程と、

を具備する音声符号化方法。