WO2006046547A1 - 音声符号化装置および音声符号化方法 - Google Patents

音声符号化装置および音声符号化方法 Download PDF

Info

Publication number
WO2006046547A1
WO2006046547A1 PCT/JP2005/019579 JP2005019579W WO2006046547A1 WO 2006046547 A1 WO2006046547 A1 WO 2006046547A1 JP 2005019579 W JP2005019579 W JP 2005019579W WO 2006046547 A1 WO2006046547 A1 WO 2006046547A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectrum
layer
standard deviation
nonlinear
unit
Prior art date
Application number
PCT/JP2005/019579
Other languages
English (en)
French (fr)
Inventor
Masahiro Oshikiri
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/577,424 priority Critical patent/US8099275B2/en
Priority to BRPI0518193-3A priority patent/BRPI0518193A/pt
Priority to JP2006543163A priority patent/JP4859670B2/ja
Priority to EP05799366A priority patent/EP1806737A4/en
Publication of WO2006046547A1 publication Critical patent/WO2006046547A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Definitions

  • the present invention relates to a speech coding apparatus and speech coding method, and more particularly to a speech coding apparatus and speech coding method suitable for scalable coding.
  • an approach that hierarchically integrates a plurality of coding techniques is promising.
  • One approach is to apply a difference signal between the input signal and the decoded signal in the first layer to a non-speech signal for the first layer that encodes the input signal at a low bit rate using a model suitable for the speech signal.
  • Conventional scalable coding includes, for example, performing scalable coding using a technique standardized by MPEG-4 (Moving Picture Experts Group phase-4) (see Non-Patent Document 1). ).
  • CELP Code Excited Linear Prediction
  • AAC Analog Domain Weighted Interleave Vector Quantization
  • frequency domain A transform code such as weighted interleaved vector quantization is used as the second layer.
  • Patent Document 1 Japanese Patent No. 3299073
  • Non-Patent Document 1 edited by Satoshi Miki, All of MPEG-4, first edition, Industrial Research Co., Ltd., September 30, 1998, p.126-127
  • An object of the present invention is to provide a speech coding apparatus and speech coding method that can improve quantization performance while minimizing an increase in bit rate.
  • the speech coding apparatus is a speech coding apparatus that performs coding with a hierarchical structure having a plurality of layer forces, and performs frequency analysis on a lower layer decoded signal to perform lower layer decoding.
  • Analysis means for calculating a spectrum; selection means for selecting any one of a plurality of nonlinear transformation functions based on a degree of variation in the decoded spectrum of the lower layer; and a residual spectrum subjected to nonlinear transformation
  • the inverse transforming means for inverse transforming using the nonlinear transform function selected by the selecting means, and adding the inversely transformed residual vector and the decoded spectrum of the lower layer to obtain the decoded spectrum of the upper layer And obtaining addition means.
  • FIG. 1 is a block diagram showing a configuration of a speech encoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a second layer code key section according to Embodiment 1 of the present invention.
  • FIG. 3 is a block diagram showing a configuration of an error comparison unit according to the first embodiment of the present invention.
  • FIG. 4 is a block diagram showing a configuration of a second layer code key section according to Embodiment 1 of the present invention (an example of modification).
  • FIG. 5 is a graph showing the relationship between the standard deviation of the first layer decoded spectrum and the standard deviation of the error spectrum according to Embodiment 1 of the present invention.
  • FIG. 6 is a diagram showing a method for estimating a standard deviation of an error spectrum according to Embodiment 1 of the present invention.
  • FIG. 7 is a diagram showing an example of a nonlinear conversion function according to Embodiment 1 of the present invention.
  • FIG. 8 is a block diagram showing the configuration of the speech decoding apparatus according to Embodiment 1 of the present invention.
  • FIG. 9 is a block diagram showing the configuration of the second layer decoding unit according to Embodiment 1 of the present invention.
  • FIG. 10 is a block diagram showing a configuration of an error comparison unit according to the second embodiment of the present invention.
  • FIG. 11 is a block diagram showing a configuration of a second layer code key section according to Embodiment 3 of the present invention.
  • FIG. 12 is a diagram showing a method for estimating a standard deviation of an error spectrum according to Embodiment 3 of the present invention.
  • FIG. 13 is a block diagram showing a configuration of a second layer decoding unit according to Embodiment 3 of the present invention. Best Mode for Carrying Out the Invention
  • scalable code encoding having a hierarchical structure having a plurality of layer forces is performed.
  • the hierarchical structure of the scalable code is: a first layer (lower layer) and a second layer (upper layer) higher than the first layer.
  • the second layer encoding is performed in the frequency domain (transform coding).
  • the second layer encoding is based on MDCT (Modified Discrete Cosine Transform; (4)
  • MDCT Modified Discrete Cosine Transform;
  • the second layer code ⁇ the input signal band is divided into a plurality of subbands (frequency bands), and the code is coded for each subband.
  • subband division is performed in association with the critical band, and is divided at equal intervals using Bark ⁇ Kale.
  • FIG. 1 shows the configuration of a speech coding apparatus according to Embodiment 1 of the present invention.
  • first layer encoding unit 10 converts first input decoding signal unit 20 and multiplexing unit 50 into encoding parameters obtained by encoding an input speech signal (original signal). Output to
  • the first layer decoding unit 20 also generates the first layer decoded signal from the first layer encoding unit 10 and outputs it to the second layer encoding unit 40. To do.
  • the delay unit 30 gives a predetermined length of delay to the input audio signal (original signal) and outputs the delayed signal to the second layer coding unit 40.
  • This delay is for adjusting the time delay generated in the first layer encoding unit 10 and the first layer decoding unit 20.
  • the second layer code key unit 40 spectrally codes the original signal output from the delay unit 30 using the first layer decoded signal output from the first layer decoding key unit 20,
  • the code parameter obtained from the spectrum code is output to the multiplexing unit 50.
  • the multiplexing unit 50 multiplexes the code parameter output from the first layer encoding unit 10 and the encoding parameter output from the second layer encoding unit 40 to obtain a bit stream. Output.
  • Second layer encoding unit 40 Second layer encoding unit
  • Figure 2 shows the configuration of 40.
  • an MDCT analysis unit 401 analyzes the frequency of the first layer decoded signal output from the first layer decoding unit 20 by MDCT conversion, and generates MDCT coefficients (first layer decoding spectrum). ) And outputs the first layer decoded spectrum to the scale factor code unit 404 and the multiplier 405.
  • MDCT analysis section 402 performs frequency analysis on the original signal output from delay section 30 by MDCT conversion to calculate MDCT coefficients (original spectrum), and converts the original spectrum to scale factor code input section 404 and error. The result is output to the comparison unit 406.
  • the auditory masking calculation unit 403 uses the original signal output from the delay unit 30 in advance. Therefore, the auditory masking for each subband having the specified bandwidth is calculated, and the auditory masking is notified to the error comparing unit 406.
  • Human auditory characteristics include an auditory masking characteristic in which when a signal is heard, it is difficult to hear even if a sound with a frequency close to that signal enters the ear.
  • the above-mentioned auditory masking uses this human auditory masking characteristic to reduce the number of quantization bits in the frequency spectrum where it is difficult to hear quantization distortion, and the number of quantization bits in the frequency spectrum where quantization distortion is easy to hear. It is used to realize an efficient spectral code by allocating a large amount of.
  • the scale factor code unit 404 encodes a scale factor (information representing the spectral outline). The average amplitude for each subband is used as information representing the spectral outline.
  • Scale factor coding unit 404 calculates the scale factor of each subband in the first layer decoded signal based on the first layer decoded spectrum output from MDCT analysis unit 401. At the same time, the scale factor code unit 404 calculates the scale factor of each subband of the original signal based on the original spectrum output from the MDCT analysis unit 402.
  • the scale factor encoding unit 404 calculates the ratio of the scale factor of the first layer decoded signal to the scale factor of the original signal, and encodes the encoding parameter obtained by encoding the scale factor ratio. Output to unit 407 and multiplexing unit 50.
  • the scale factor decoding unit 407 decodes the scale factor ratio based on the encoding parameters output from the scale factor code unit 404, and multiplies the decoded ratio (decoding scale factor ratio) by a multiplier. Output to 405.
  • Multiplier 405 multiplies the first layer decoded spectrum output from MDCT analysis section 401 by the decoding scale factor ratio output from scale factor decoding section 407 for each corresponding subband, and standardizes the multiplication result. Output to deviation calculator 408 and adder 413. As a result, the scale factor of the first layer decoded spectrum approaches that of the original spectrum.
  • Standard deviation calculation section 408 calculates standard deviation ⁇ c of the first layer decoding spectrum after decoding scale factor ratio multiplication, and outputs the standard deviation ⁇ c to selection section 409.
  • the spectrum is separated into amplitude values and positive and negative Z information, and the standard deviation is calculated for the amplitude values. Try to calculate.
  • the variation in the first layer decoded spectrum is quantified.
  • the selection unit 409 selects, based on the standard deviation ⁇ c output from the standard deviation calculation unit 408, a force to use which non-linear transformation function as a function for performing non-linear inverse transformation of the residual spectrum by the inverse transformation unit 411, Information indicating the selection result is output to the nonlinear transformation function unit 410.
  • a plurality of nonlinear transformation function units 410 are prepared based on the selection result of the selection unit 409, and one of the non-linear transformation functions # 1 to #N is output to the inverse transformation unit 411. Do
  • the residual spectrum codebook 412 stores a plurality of residual spectrum candidates obtained by compressing the residual spectrum by nonlinear transformation.
  • the residual spectrum candidates stored in the residual spectrum codebook 412 may be scalars or vectors.
  • the residual spectrum codebook 4 12 is designed using data for intensive learning.
  • Inverse transform section 411 performs inverse transform on any one of the residual spectrum candidates stored in residual spectrum codebook 412 using the nonlinear transform function output from nonlinear transform function section 410. (Expansion processing) is performed and output to the adder 413. This is because the second layer encoding unit 40 is configured to minimize the error of the expanded signal.
  • Adder 413 adds the residual spectrum candidate after inverse transformation (after decompression) to the first layer decoded spectrum after multiplication of the decoding scale factor ratio, and outputs the result to error comparison section 406.
  • the spectrum obtained as a result of this addition corresponds to the candidate for the second layer decoded spectrum.
  • second layer encoding section 40 has the same configuration as the second layer decoding section provided in the speech decoding apparatus described later, and is generated by the second layer decoding section. Probably a second layer decoded spectrum candidate.
  • the error comparison unit 406 uses the auditory masking notified from the auditory masking calculation unit 403 for some or all of the residual spectrum candidates in the residual spectrum codebook 412, and uses the original masking. The spectrum is compared with the second layer decoded spectrum candidate, and the most suitable residual spectrum candidate is searched from the residual spectrum codebook 412. Then, error comparison section 406 outputs the sign key parameter representing the searched residual spectrum to multiplexing section 50.
  • error comparison section 406 The configuration of error comparison section 406 is shown in FIG. In Figure 3, the subtractor 4061 is the original spectrum. Power Generates an error spectrum by subtracting the second layer decoded spectrum candidates and outputs it to the masking versus error ratio calculation unit 4062.
  • the masking to error ratio calculation unit 4062 calculates the ratio of the magnitude of the error spectrum to auditory masking (masking to error ratio), and quantifies how much the error spectrum is perceived by human hearing. The larger the masking-to-error ratio calculated here, the smaller the perceptual distortion perceived by humans, even though the error spectrum for auditory masking is smaller.
  • Search unit 4063 obtains the highest masking-to-error ratio (that is, the perceived error spectrum is the smallest) among some or all residual spectrum candidates in residual spectrum codebook 41 2. The residual spectrum candidate is searched, and the encoding parameter indicating the searched residual candidate is output to the multiplexing unit 50.
  • the configuration of the second layer code key unit 40 may be the same as that shown in FIG. 2 except for the scale factor code key unit 404 and the scale factor decoding key unit 407. .
  • the first layer decoded spectrum is supplied to adder 413 without the amplitude value being corrected by the scale factor.
  • the expanded residual spectrum is directly added to the first layer decoding spectrum.
  • the force described for the configuration in which the residual spectrum is inversely transformed (expanded) by the inverse transform unit 411 may adopt the following configuration. That is, a target residual spectrum is generated by subtracting the first layer decoded spectrum after multiplication by the scale factor ratio from the original spectrum, and this target residual spectrum is forward-converted (compressed using a selected nonlinear transformation function). The residual spectrum closest to the target residual spectrum after nonlinear transformation may be searched and determined from the residual spectral codebook. In this configuration, instead of the inverse transform unit 411, a forward transform unit that forward transforms (compresses) the target residual spectrum using a nonlinear transform function is used.
  • residual spectrum codebook 412 has residual spectrum codebooks # 1 to #N corresponding to the respective nonlinear transformation functions # 1 to #N, and The selection result information may be input to the residual spectrum codebook 412 as well.
  • a spectral codebook is selected.
  • the graph in FIG. 5 shows the relationship between the standard deviation ⁇ c of the first layer decoding spectrum and the standard deviation ⁇ e of the error spectrum generated by subtracting the first layer decoded spectrum from the original spectral power. This graph shows the results for an audio signal of about 30 seconds.
  • the error spectrum here is equivalent to the spectrum that the second layer is the target of the code. Therefore, it is important that the error spectrum can be encoded with a small number of bits with high quality (so that auditory distortion is reduced).
  • standard deviation ⁇ e of the error spectrum is estimated from standard deviation ⁇ c of the first layer decoded spectrum, and this estimated standard Select the optimal nonlinear transformation function for deviation ⁇ e from nonlinear transformation functions # 1 to # ⁇ .
  • the horizontal axis represents the first layer decoding space.
  • the standard deviation ⁇ c of the tuttle and the vertical axis represent the standard deviation ⁇ e of the error spectrum.
  • the standard deviation ⁇ e degree of variation of the error spectrum
  • ⁇ c the degree of variation of the first layer decoded spectrum
  • FIG. 7 shows an example of the nonlinear conversion function.
  • the non-linear transformation function selected by the selection unit 409 is selected according to the standard deviation estimated value (standard deviation ⁇ c of the first layer decoded spectrum in this embodiment) of the encoding target.
  • standard deviation estimated value standard deviation ⁇ c of the first layer decoded spectrum in this embodiment
  • a suitable nonlinear transformation function is selected.
  • one of the deviations of the nonlinear conversion function is selected according to the magnitude of the standard deviation ⁇ e of the error spectrum.
  • non-linear conversion function for example, a non-linear conversion function used in the rule PCM as expressed by Equation (1) is used.
  • a and B are constants that define the characteristics of the nonlinear transformation function, and sgn () represents a function that returns a sign.
  • sgn () represents a function that returns a sign.
  • Small standard deviation Use a nonlinear transformation function with a small for the error spectrum and a nonlinear transformation function with a large for the error spectrum with a large standard deviation. Since the appropriate value depends on the nature of the first layer code, it must be determined using data for intensive learning.
  • a function represented by Expression (2) may be used as the nonlinear conversion function.
  • A is a constant that defines the characteristics of the nonlinear function.
  • multiple nonlinear transformation functions with different bases a are prepared in advance, and which nonlinear transformation function is used when signing the error spectrum based on the standard deviation ⁇ c of the first layer decoded spectrum V, Select whether or not.
  • a small standard deviation and error spectrum a small a is used, and a nonlinear transformation function is used.
  • a magnitude is used and a nonlinear transformation function is used. Since the appropriate a depends on the nature of the first layer coding, it is decided to use data for training.
  • nonlinear conversion functions are given as examples, and the present invention is not limited by what kind of nonlinear conversion function is used.
  • the dynamic range of the amplitude value of the spectrum (ratio of maximum amplitude value to minimum amplitude value) is very large. Therefore, when encoding the amplitude spectrum, applying linear quantization with a uniform quantization step size requires a very large number of bits. If the number of encoded bits is limited, if the step size is set small, the amplitude value and the spectrum are clipped, resulting in a large quantization error in the clipping portion. On the other hand, when the step size is set large, the amplitude value is small and the quantization error of the spectrum is large.
  • the present invention is not limited to this, the spectrum is divided into a plurality of subbands, the standard deviation power of the first layer decoded spectrum is estimated for each subband, and the standard deviation of the error spectrum is estimated, and the estimated standard deviation is calculated.
  • a configuration may be used in which the spectrum of each subband is encoded using an optimal nonlinear transformation function.
  • the degree of variation of the first layer decoded signal spectrum tends to be larger as the frequency is lower, and the degree of variation is smaller as the frequency is higher.
  • a plurality of nonlinear transformation functions designed and prepared for each of a plurality of subbands may be used.
  • a configuration is adopted in which a plurality of nonlinear conversion function units 410 are provided for each subband. That is, the nonlinear transformation function part corresponding to each subband has a set of nonlinear transformation functions # 1 to #N.
  • the selection unit 409 selects, for each of the plurality of subbands, one of the plurality of nonlinear conversion functions # 1 to #N prepared for each of the plurality of subbands. select.
  • the separation unit 60 separates the input bit stream into code key parameters (for the first layer) and code key parameters (for the second layer), respectively,
  • the data is output to the layer decoding key unit 70 and the second layer decoding key unit 80.
  • the code parameter (for the first layer) is the encoding parameter obtained by the first layer encoding unit 10, and for example, the first layer encoding unit 10 uses CELP (Code Excited Linear Prediction). In this case, this encoding parameter is composed of LPC coefficient, lag, drive signal, gain information, etc.
  • CELP Code Excited Linear Prediction
  • this encoding parameter is composed of LPC coefficient, lag, drive signal, gain information, etc.
  • the sign parameter (for the second layer) is the sign factor parameter for the scale factor ratio and the coding parameter for the residual spectrum.
  • the first layer decoding key unit 70 also determines the first layer code key parameter power from the first layer decoded signal. It is generated and output to the second layer decoding unit 80 and, if necessary, is output as a low-quality decoded signal.
  • Second layer decoding section 80 uses the first layer decoded signal, the sign factor parameter of the scale factor ratio, and the sign key parameter of the residual spectrum, That is, a high-quality decoded signal is generated, and this decoded signal is output as necessary.
  • the minimum quality of reproduced speech is ensured by the first layer decoded signal, and the quality of reproduced speech can be enhanced by the second layer decoded signal. Also, whether the deviation of the first layer decoded signal or the second layer decoded signal is output depends on whether the second layer encoding parameter can be obtained depending on the network environment (occurrence of packet loss, etc.) Depends on the setting etc.
  • second layer decoding section 80 will be described in more detail.
  • the configuration of second layer decoding section 80 is shown in FIG. Note that the scale factor decoding unit 801, MDCT analysis unit 802, multiplier 803, standard deviation calculation unit 804, selection unit 805, nonlinear transformation function unit 806, inverse transformation unit 807, residual spectrum codebook 808 shown in FIG. , And adder 809 are scale factor decoding unit 407, M DCT analysis unit 401, multiplier 405, standard deviation calculation unit provided in second layer code unit 40 (FIG. 2) of the speech code unit. 408, selection unit 409, nonlinear transformation function unit 410, inverse transformation unit 411, residual spectrum codebook 412 and adder 413 correspond to each other, and the corresponding components have the same functions.
  • scale factor decoding section 801 decodes the scale factor ratio based on the scale factor ratio encoding parameter, and outputs the decoded ratio (decoded scale factor ratio) to multiplier 803. To do.
  • MDCT analysis section 802 performs frequency analysis on the first layer decoded signal by MDCT conversion to calculate an M DCT coefficient (first layer decoded spectrum), and outputs the first layer decoded spectrum to multiplier 8003.
  • Multiplier 803 multiplies the first layer decoded spectrum output from MDCT analysis unit 802 by the decoding scale factor ratio output from scale factor decoding unit 801 for each corresponding subband, and standardizes the multiplication result.
  • the scale factor of the first layer decoded spectrum is the scale factor of the original spectrum. Get closer to.
  • the standard deviation calculation unit 804 calculates the standard deviation er e of the first layer decoding spectrum after the decoding scale factor ratio multiplication and outputs the standard deviation er e to the selection unit 805. By calculating the standard deviation, the degree of variation of the first layer decoded spectrum is quantified.
  • the selection unit 805 selects a force that uses a nonlinear transformation function as a function for nonlinearly inverse transforming the residual spectrum in the inverse transformation unit 807, Information indicating the selection result is output to the nonlinear transformation function unit 806.
  • a plurality of nonlinear transformation function units 806 are prepared based on the selection result of the selection unit 805, and one of the nonlinear transformation functions # 1 to #N is converted into an inverse transformation unit 807. Output to
  • the residual spectrum codebook 808 stores a plurality of residual spectrum candidates obtained by compressing the residual spectrum by nonlinear transformation.
  • the residual spectrum candidates stored in the residual spectrum codebook 808 may be scalars or vectors.
  • the residual spectrum code book 808 is designed using data for intensive learning.
  • Inverse transform section 807 performs inverse transform on any one of residual spectrum candidates stored in residual spectrum codebook 808 using the nonlinear transform function output from nonlinear transform function section 806. (Expansion processing) is performed and output to the adder 809. Of the residual spectrum candidates, the residual spectrum to be subjected to inverse transformation is selected according to the encoding parameter of the residual spectrum input from the separation unit 60.
  • Adder 809 adds the residual spline candidate after inverse transformation (after decompression) to the first layer decoded spectrum after decoding scale factor ratio multiplication, and outputs the result to time domain conversion section 810 .
  • the spectrum obtained as a result of this addition corresponds to the second layer decoded spectrum in the frequency domain.
  • time domain conversion section 810 After converting the second layer decoded spectrum into a time domain signal, time domain conversion section 810 performs processing such as appropriate windowing and superposition addition as necessary to eliminate discontinuities generated between frames. To avoid and output the final high quality decoded signal.
  • the degree of variation of the first layer decoded spectrum is estimated, and the degree of variation of the error spectrum is estimated in the second layer.
  • Select a conversion function At this time, the non-linear transformation function can be selected in the speech decoding apparatus in the same manner as the speech encoding apparatus without transmitting the selection information of the non-linear transformation function from the speech encoding apparatus to the speech decoding apparatus. For this reason, in this embodiment, there is no need to transmit the selection information of the nonlinear transformation function from the speech coding apparatus to the speech decoding apparatus! Therefore, the quantization performance can be improved without increasing the bit rate.
  • FIG. 10 shows the configuration of error comparison section 406 according to Embodiment 2 of the present invention.
  • error comparison section 406 according to the present embodiment includes weighted error calculation section 4064 instead of masking-to-error ratio calculation section 4062 in the configuration of Embodiment 1 (FIG. 3). .
  • FIG. 10 the same components as those in FIG.
  • the weighted error calculation unit 4064 multiplies the error spectrum output from the subtractor 4061 by a weight function determined by auditory masking, and calculates its energy (weighted error energy).
  • the weighting function is determined by the size of auditory masking, and for frequencies with large auditory masking, distortion at that frequency is difficult to hear, so the weight is set small. Conversely, for frequencies with low auditory masking, the distortion at that frequency is easy to hear, so set a large weight. In this way, the weighted error calculation unit 4064 assigns weights such that the auditory masking is large and the influence of the error spectrum at the frequency is reduced, and the auditory masking is small and the influence of the error spectrum at the frequency is increased. Calculate energy with. Then, the calculated energy value is output to search section 4063.
  • Search section 4063 searches for a residual spectrum candidate when the weighted error energy is minimized among some or all residual spectrum candidates in residual spectrum codebook 412 and searches for them.
  • the sign key parameter representing the residual spectrum candidate is output to the multiplexing unit 50.
  • FIG. 11 shows the configuration of second layer code key unit 40 according to Embodiment 3 of the present invention.
  • the second layer code key unit 40 according to the present embodiment is the same as the configuration of the first embodiment ( Instead of the selection unit 409 in FIG. In FIG. 11, the same components as those in FIG.
  • Signed selection section 414 receives the first layer decoding spectrum after decoding scale factor ratio multiplication from multiplier 405, and the standard deviation ⁇ c of the first layer decoded spectrum is the standard deviation. Input from the calculation unit 408. In addition, the original spectrum is input to the signed selection unit 414 from the MDCT analysis unit 402.
  • the signed selection unit 414 first limits the possible values of the estimated standard deviation of the error spectrum based on the standard deviation ⁇ c. Next, signed selection section 414 obtains the first layer decoded spectrum power error spectrum after multiplication of the original spectrum and the decoding scale factor ratio, calculates the standard deviation of this error spectrum, and calculates the estimated standard deviation closest to this standard deviation. Select from the estimated standard deviations limited as described above. Then, the signed selection unit 414 selects a nonlinear transformation function in the same manner as in the first embodiment according to the selected estimated standard deviation (degree of variation of the error spectrum), and selects the selected estimated standard deviation. The encoding parameter obtained by encoding the information is output to the multiplexing unit 50.
  • the multiplexing unit 50 outputs the code parameter output from the first layer encoding unit 10, the encoding parameter output from the second layer encoding unit 40, and the signed selection unit 414.
  • the encoded parameters are multiplexed and output as a bit stream.
  • the horizontal axis represents the standard deviation ⁇ c of the first layer decoded spectrum
  • the vertical axis represents the standard deviation ⁇ e of the error spectrum.
  • the estimated values that can be taken by the estimated standard deviation of the error spectrum are limited to a plurality based on the standard deviation of the first layer decoded spectrum, and the original spectrum is selected from the limited estimated positions.
  • the first layer decoded spectrum after decoding scale factor ratio multiplication In order to select the estimated value closest to the standard deviation of the difference spectrum, a more accurate standard deviation can be obtained by signing the estimated value variation due to the standard deviation of the first layer decoding spectrum.
  • the speech quality can be improved by further improving the quantization performance.
  • second layer decoding section 80 according to Embodiment 3 of the present invention includes signed selection section 811 instead of selection section 805 in the configuration of Embodiment 1 (FIG. 9).
  • FIG. 13 the same components as those in FIG.
  • the signed selection unit 811 To the signed selection unit 811, the encoding parameter of the selection information separated by the separation unit 60 is input.
  • the signed selection unit 811 selects a force that uses a nonlinear transformation function as a function for nonlinear transformation of the residual spectrum based on the estimated standard deviation indicated by the selection information, and information indicating the selection result is a nonlinear transformation function unit. Output to 806.
  • the standard deviation of the error spectrum may be directly signed without using the standard deviation of the first layer decoded spectrum.
  • the frame for which the correlation between the standard deviation of the first layer decoded spectrum and the standard deviation of the error spectrum is small is also quantized. Performance can be improved.
  • the standard deviation is used as an index representing the degree of variation in the spectrum.
  • dispersion the difference or ratio between the maximum amplitude spectrum and the minimum amplitude spectrum, or the like may be used.
  • the force described in the case of using MDCT as a conversion method is not limited to this, and also when using other conversion methods, such as DFT, cosine conversion, Wavalet conversion, etc.
  • the present invention can be similarly applied.
  • the hierarchical structure of scalable coding has been described as two layers of the first layer (lower layer) and the second layer (upper layer).
  • the present invention is not limited to this.
  • the present invention can be similarly applied to scalable codes having upper layers.
  • any one of the plurality of layers is regarded as the first layer in each of the above embodiments, and a layer higher than that layer is regarded as the second layer in each of the above embodiments, and the present invention is similarly applied. Can be applied to.
  • the present invention is also applicable when the sampling rates of signals handled by each layer are different.
  • the sampling rate of the signal handled by the nth layer is expressed as Fs (n)
  • the relationship of Fs (n) ⁇ F s (n + l) holds.
  • the speech encoding apparatus and speech decoding apparatus are mounted on a wireless communication apparatus such as a wireless communication mobile station apparatus or a wireless communication base station apparatus used in a mobile communication system. It is also possible.
  • each functional block used in the description of the above embodiment is typically realized as an LSI which is an integrated circuit. These may be individually made into one chip, or may be made into one chip to include some or all of them.
  • IC integrated circuit
  • system LSI system LSI
  • super LSI super LSI
  • non-linear LSI depending on the difference in power integration as LSI.
  • the method of circuit integration is not limited to LSI's, and implementation using dedicated circuitry or general purpose processors is also possible. You may use an FPGA (Field Programmable Gate Array) that can be programmed after manufacturing the LSI, or a reconfigurable processor that can reconfigure the connection and settings of the circuit cells inside the LSI. [0093] Furthermore, if integrated circuit technology that replaces LSI emerges as a result of progress in semiconductor technology or other derived technology, it is naturally also possible to perform functional block integration using that technology. Biotechnology can be applied.
  • FPGA Field Programmable Gate Array
  • the present invention can be applied to the use of a communication device in a mobile communication system or a packet communication system using the Internet protocol.

Abstract

 ビットレートの増加を最小限に抑えつつ、量子化性能の向上を図ることができる音声符号化装置。この装置では、第2レイヤ符号化部(40)において、標準偏差算出部(408)が、復号スケールファクタ比乗算後の第1レイヤ復号スペクトルの標準偏差σcを算出して選択部(409)に出力し、選択部(409)が、標準偏差σcに基づいて、残差スペクトルを非線形変換する関数としてどの非線形変換関数を用いるか選択し、非線形変換関数部(410)が、選択部(409)での選択結果に基づいて、複数用意されている非線形変換関数#1~#Nのうちのいずれか一つを選択して逆変換部(411)に出力し、逆変換部(411)が、非線形変換関数部(410)から出力された非線形変換関数を用いて、残差スペクトル符号帳に(412)に格納されている残差スペクトル候補に対して逆変換(伸張処理)を施して加算器(413)に出力する。

Description

明 細 書
音声符号化装置および音声符号化方法
技術分野
[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、スケーラブル符 号化に適した音声符号化装置および音声符号化方法に関する。
背景技術
[0002] 移動体通信システムにおける電波資源等の有効利用のために、音声信号を低ビッ トレートで圧縮することが要求されている。その一方で、通話音声の品質向上や臨場 感の高い通話サービスの実現が望まれている。この実現には、音声信号の高品質化 のみならず、より帯域の広いオーディオ信号等の音声以外の信号をも高品質に符号 化できることが望ましい。
[0003] このような相反する要求に対し、複数の符号ィ匕技術を階層的に統合するアブロー チが有望視されている。このアプローチの一つに、音声信号に適したモデルで入力 信号を低ビットレートで符号化する第 1レイヤと、入力信号と第 1レイヤでの復号信号 との差分信号を音声以外の信号にも適したモデルで符号ィ匕する第 2レイヤとを階層 的に組み合わせた符号ィ匕方式がある。このような階層構造を持つ符号ィ匕方式は、符 号ィ匕により得られるビットストリームにスケーラビリティ性 (ビットストリームの一部の情報 力もでも復号信号が得られること)を有するため、スケーラブル符号化と呼ばれる。ス ケーラブル符号ィ匕はその性質から、ビットレートの異なるネットワーク間の通信にも柔 軟に対応できる特徴を持つ。この特徴は、 IPプロトコルで多様なネットワークが統合さ れて 、くと予想される今後のネットワーク環境に適したものと 、える。
[0004] 従来のスケーラブル符号化としては、例えば、 MPEG -4 (Moving Picture Experts Group phase-4)で規格ィ匕された技術を用いてスケーラブル符号ィ匕を行うものがある( 非特許文献 1参照)。このスケーラブル符号ィ匕では、音声信号に適した CELP (Code Excited Linear Prediction;符号励信線形予測)を第 1レイヤに用い、原信号から第 1 レイヤでの復号信号を減じた残差信号に対する AAC (Advanced Audio Coder)や T wmVQ、 i ransform Domain Weighted Interleave Vector Quantization;周波数領域 重み付きインターリーブベクトル量子化)のような変換符号ィ匕を第 2レイヤとして用い る。
[0005] また、変換符号ィ匕においてスペクトルを効率的に量子化する技術がある(特許文献 1参照)。この技術は、スペクトルをブロック化し、そのブロック内に含まれる係数のば らつき度を表す標準偏差を求める。そして、この標準偏差の値に応じてブロックに含 まれる係数の確率密度関数を推定し、その確率密度関数に適した量子化器を選択 する。この技術により、スペクトルの量子化誤差を小さくし、音質を改善することができ る。
特許文献 1:特許第 3299073号公報
非特許文献 1 :三木弼ー編著、 MPEG— 4の全て、初版、(株)工業調査会、 1998年 9月 30日、 p.126— 127
発明の開示
発明が解決しょうとする課題
[0006] しかし、特許文献 1記載の技術では、量子化対象である信号そのものの分布に応じ て量子化器を選択するため、どの量子化器を選択したかという選択情報を符号ィ匕し て復号ィ匕装置へ伝送する必要がある。そのために、その選択情報が付加情報として 伝送される分だけビットレートが増加してしまう。
[0007] 本発明の目的は、ビットレートの増加を最小限に抑えつつ、量子化性能の向上を図 ることができる音声符号ィ匕装置および音声符号ィ匕方法を提供することである。
課題を解決するための手段
[0008] 本発明の音声符号ィ匕装置は、複数のレイヤ力 なる階層構造を有する符号ィ匕を行 う音声符号化装置であって、下位レイヤの復号信号を周波数分析して下位レイヤの 復号スペクトルを算出する分析手段と、前記下位レイヤの復号スペクトルのばらつき 度に基づいて、複数の非線形変換関数のうちのいずれか一つの非線形変換関数を 選択する選択手段と、非線形変換された残差スペクトルを、前記選択手段によって選 択された非線形変換関数を用いて逆変換する逆変換手段と、逆変換された残差ス ベクトルと前記下位レイヤの復号スペクトルとを加算して上位レイヤの復号スペクトル を得る加算手段と、を具備する構成を採る。 発明の効果
[0009] 本発明によれば、ビットレートの増加を最小限に抑えつつ、量子化性能の向上を図 ることがでさる。
図面の簡単な説明
[0010] [図 1]本発明の実施の形態 1に係る音声符号化装置の構成を示すブロック図
[図 2]本発明の実施の形態 1に係る第 2レイヤ符号ィ匕部の構成を示すブロック図
[図 3]本発明の実施の形態 1に係る誤差比較部の構成を示すブロック図
[図 4]本発明の実施の形態 1に係る第 2レイヤ符号ィ匕部の構成を示すブロック図(変 形例)
[図 5]本発明の実施の形態 1に係る第 1レイヤ復号スペクトルの標準偏差と誤差スぺク トルの標準偏差との関係を示すグラフ
[図 6]本発明の実施の形態 1に係る誤差スペクトルの標準偏差の推定方法を示す図
[図 7]本発明の実施の形態 1に係る非線形変換関数の一例を示す図
[図 8]本発明の実施の形態 1に係る音声復号ィ匕装置の構成を示すブロック図
[図 9]本発明の実施の形態 1に係る第 2レイヤ復号ィ匕部の構成を示すブロック図
[図 10]本発明の実施の形態 2に係る誤差比較部の構成を示すブロック図
[図 11]本発明の実施の形態 3に係る第 2レイヤ符号ィ匕部の構成を示すブロック図
[図 12]本発明の実施の形態 3に係る誤差スペクトルの標準偏差の推定方法を示す図
[図 13]本発明の実施の形態 3に係る第 2レイヤ復号ィ匕部の構成を示すブロック図 発明を実施するための最良の形態
[0011] 以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。なお 、各実施の形態では、複数のレイヤ力 なる階層構造を有するスケーラブル符号ィ匕 を行う。また、各実施の形態では、一例として、(1)スケーラブル符号ィ匕の階層構造 は、第 1レイヤ(下位レイヤ)と第 1レイヤより上位にある第 2レイヤ (上位レイヤ)の 2階 層とする、(2)第 2レイヤの符号ィ匕では、周波数領域で符号化 (変換符号化)を行う、 (3)第 2レイヤの符号化における変換方式には MDCT (Modified Discrete Cosine Tr ansform ;変形離散コサイン変換)を使用する、(4)第 2レイヤの符号ィ匕では、入力信 号帯域を複数のサブバンド (周波数帯域)に分割し、各々のサブバンド単位で符号 化する、(5)第 2レイヤの符号ィ匕では、サブバンド分割は、臨界帯域に対応付けて行 われ、 Bark^ケールで等間隔に分割される、ものとする。
[0012] (実施の形態 1)
本発明の実施の形態 1に係る音声符号ィ匕装置の構成を図 1に示す。
[0013] 図 1において、第 1レイヤ符号ィ匕部 10は、入力される音声信号 (原信号)を符号化し て得られる符号ィ匕パラメータを第 1レイヤ復号ィ匕部 20および多重化部 50に出力する
[0014] 第 1レイヤ復号ィ匕部 20は、第 1レイヤ符号ィ匕部 10から出力された符号ィ匕パラメータ 力も第 1レイヤの復号信号を生成して第 2レイヤ符号ィ匕部 40に出力する。
[0015] 一方、遅延部 30は、入力される音声信号 (原信号)に所定の長さの遅延を与えて 第 2レイヤ符号ィ匕部 40に出力する。この遅延は、第 1レイヤ符号化部 10および第 1レ ィャ復号ィ匕部 20で生じる時間遅れを調整するためのものである。
[0016] 第 2レイヤ符号ィ匕部 40は、遅延部 30から出力された原信号を第 1レイヤ復号ィ匕部 2 0から出力された第 1レイヤ復号信号を用いてスペクトル符号ィ匕し、このスペクトル符 号ィ匕により得られる符号ィ匕パラメータを多重化部 50に出力する。
[0017] 多重化部 50は、第 1レイヤ符号ィ匕部 10から出力された符号ィ匕パラメータと第 2レイ ャ符号ィ匕部 40から出力された符号化パラメータとを多重化し、ビットストリームとして 出力する。
[0018] 次いで、第 2レイヤ符号ィ匕部 40についてより詳細に説明する。第 2レイヤ符号化部
40の構成を図 2に示す。
[0019] 図 2において、 MDCT分析部 401は、第 1レイヤ復号ィ匕部 20から出力された第 1レ ィャ復号信号を MDCT変換により周波数分析して MDCT係数 (第 1レイヤ復号スぺ タトル)を算出し、第 1レイヤ復号スペクトルをスケールファクタ符号ィ匕部 404および乗 算器 405に出力する。
[0020] MDCT分析部 402は、遅延部 30から出力された原信号を MDCT変換により周波 数分析して MDCT係数 (原スペクトル)を算出し、原スペクトルをスケールファクタ符 号ィ匕部 404および誤差比較部 406に出力する。
[0021] 聴覚マスキング算出部 403は、遅延部 30から出力された原信号を用いて、あらかじ め規定されている帯域幅を持つサブバンド毎の聴覚マスキングを算出し、この聴覚マ スキングを誤差比較部 406に通知する。人間の聴覚特性には、ある信号が聞こえて いるときに、その信号と周波数の近い音が耳に入ってきても聞こえにくい、という聴覚 マスキング特性がある。上記聴覚マスキングは、この人間の聴覚マスキング特性を利 用して、量子化歪が聞こえにくい周波数のスペクトルの量子化ビット数を少なくし、量 子化歪が聞こえやすい周波数のスペクトルの量子化ビット数を多く配分することで効 率的なスペクトル符号ィ匕を実現するために利用される。
[0022] スケールファクタ符号ィ匕部 404は、スケールファクタ (スペクトル概形を表す情報)の 符号化を行う。スペクトル概形を表す情報として、サブバンド毎の平均振幅を用いる。 スケールファクタ符号ィ匕部 404は、 MDCT分析部 401から出力された第 1レイヤ復 号スペクトルに基づいて第 1レイヤ復号信号における各サブバンドのスケールファクタ を算出する。それと共に、スケールファクタ符号ィ匕部 404は、 MDCT分析部 402から 出力された原スペクトルに基づいて原信号の各サブバンドのスケールファクタを算出 する。そして、スケールファクタ符号ィ匕部 404は、原信号のスケールファクタに対する 第 1レイヤ復号信号のスケールファクタの比を算出し、このスケールファクタ比を符号 化して得られる符号化パラメータをスケールファクタ復号ィ匕部 407および多重化部 5 0に出力する。
[0023] スケールファクタ復号ィ匕部 407は、スケールファクタ符号ィ匕部 404から出力された 符号化パラメータを基に、スケールファクタ比を復号し、この復号した比 (復号スケー ルファクタ比)を乗算器 405に出力する。
[0024] 乗算器 405は、 MDCT分析部 401から出力された第 1レイヤ復号スペクトルにスケ ールファクタ復号ィ匕部 407から出力された復号スケールファクタ比を対応するサブバ ンド毎に乗じ、乗算結果を標準偏差算出部 408および加算器 413に出力する。この 結果、第 1レイヤ復号スペクトルのスケールファクタは原スペクトルのスケールファクタ に近づく。
[0025] 標準偏差算出部 408は、復号スケールファクタ比乗算後の第 1レイヤ復号スぺクト ルの標準偏差 σ cを算出して選択部 409に出力する。この標準偏差 σ cの算出の際 には、スペクトルを振幅値と正号 Z負号情報とに分離し、振幅値に対して標準偏差を 算出するようにする。この標準偏差の算出により、第 1レイヤ復号スペクトルのばらつ き度が定量化される。
[0026] 選択部 409は、標準偏差算出部 408から出力された標準偏差 σ cに基づいて、逆 変換部 411で残差スペクトルを非線形逆変換する関数としてどの非線形変換関数を 用いる力選択し、その選択結果を示す情報を非線形変換関数部 410に出力する。
[0027] 非線形変換関数部 410は、選択部 409での選択結果に基づいて、複数用意され て 、る非線形変換関数 # 1〜 # Nのうちの 、ずれか一つを逆変換部 411に出力する
[0028] 残差スペクトル符号帳 412には、残差スペクトルを非線形変換して圧縮した複数の 残差スペクトルの候補が格納されている。残差スペクトル符号帳 412に格納されてい る残差スペクトル候補はスカラーでもベクトルでもよい。また、残差スペクトル符号帳 4 12はあら力じめ学習用のデータを用いて設計される。
[0029] 逆変換部 411は、非線形変換関数部 410から出力された非線形変換関数を用い て、残差スペクトル符号帳 412に格納されている残差スペクトル候補のいずれか一つ に対して逆変換 (伸張処理)を施して加算器 413に出力する。これは、第 2レイヤ符号 化部 40が伸張後の信号の誤差を最小化する構成になっているためである。
[0030] 加算器 413は、復号スケールファクタ比乗算後の第 1レイヤ復号スペクトルに、逆変 換後(伸張後)の残差スペクトル候補を加算して誤差比較部 406に出力する。この加 算の結果得られるスペクトルは第 2レイヤ復号スペクトルの候補に相当する。
[0031] つまり、第 2レイヤ符号化部 40は、後述する音声復号化装置に備えられる第 2レイ ャ復号ィ匕部と同一の構成を備え、第 2レイヤ復号ィ匕部で生成されるであろう第 2レイ ャ復号スペクトルの候補を生成する。
[0032] 誤差比較部 406は、残差スペクトル符号帳 412内の一部もしくは全ての残差スぺク トル候補にっ 、て、聴覚マスキング算出部 403から通知された聴覚マスキングを用い て、原スペクトルと第 2レイヤ復号スペクトル候補との比較を行い、残差スペクトル符号 帳 412内から最も適切な残差スペクトル候補を探索する。そして、誤差比較部 406は 、その探索した残差スペクトルを表す符号ィ匕パラメータを多重化部 50に出力する。
[0033] 誤差比較部 406の構成を図 3に示す。図 3において、減算器 4061は、原スペクトル 力 第 2レイヤ復号スペクトル候補を減じて誤差スペクトルを生成し、マスキング対誤 差比算出部 4062に出力する。マスキング対誤差比算出部 4062は、聴覚マスキング に対する誤差スペクトルの大きさの比 (マスキング対誤差比)を算出し、人間の聴感上 どの程度誤差スペクトルが知覚されるかを定量ィ匕する。ここで算出されるマスキング 対誤差比が大きい程、聴覚マスキングに対する誤差スペクトルが小さいとはいえ、人 間に知覚される聴感的な歪は小さくなる。探索部 4063は、残差スペクトル符号帳 41 2内の一部もしくは全ての残差スペクトル候補の中でマスキング対誤差比が最も大き くなる (すなわち、知覚される誤差スペクトルが最も小さくなる)ときの残差スペクトル候 補を探索し、その探索した残差スぺ外ル候補を表す符号化パラメータを多重化部 5 0に出力する。
[0034] なお、第 2レイヤ符号ィ匕部 40の構成として、図 2に示す構成力もスケールファクタ符 号ィ匕部 404およびスケールファクタ復号ィ匕部 407を除 、た構成を採ってもょ 、。この 場合、第 1レイヤ復号スペクトルはスケールファクタにて振幅値が補正されることなく 加算器 413に与えられる。つまり、伸張後の残差スペクトルは第 1レイヤ復号スぺクト ルに直接加算される構成になる。
[0035] また、上記説明では残差スペクトルを逆変換部 411で逆変換 (伸張処理)する構成 について説明した力 次のような構成を採ってもよい。すなわち、原スペクトルからス ケールファクタ比乗算後の第 1レイヤ復号スペクトルを減じて目標残差スペクトルを生 成し、この目標残差スペクトルを選択された非線形変換関数を用いて順変換 (圧縮処 理)し、非線形変換後の目標残差スペクトルに最も近い残差スペクトルを残差スぺタト ル符号帳より探索して決定する構成としてもよい。この構成では、逆変換部 411に代 えて、目標残差スペクトルを非線形変換関数にて順変換 (圧縮処理)する順変換部を 用いる。
[0036] また、図 4に示すように、残差スペクトル符号帳 412が各非線形変換関数 # 1〜# Nに対応した残差スペクトル符号帳 # 1〜# Nを有し、選択部 409からの選択結果情 報が残差スペクトル符号帳 412にも入力される構成としてもよい。この構成では、選 択部 409での選択結果に基づき、残差スペクトル符号帳 # 1〜# Nのうち、非線形変 換関数部 410において選択される非線形変換関数に対応するいずれか一つの残差 スペクトル符号帳が選択される。このような構成を採ることで、各非線形変換関数に最 適な残差スペクトル符号帳を用いることができるため、さらに音声品質を向上させるこ とがでさる。
[0037] 次いで、選択部 409における、第 1レイヤ復号スペクトルの標準偏差 σ cに基づく非 線形変換関数の選択について詳しく説明する。図 5のグラフは、第 1レイヤ復号スぺ タトルの標準偏差 σ cと、原スペクトル力ゝら第 1レイヤ復号スペクトルを減じて生成した 誤差スペクトルの標準偏差 σ eとの関係を示している。またこのグラフは約 30秒間の 音声信号に対しての結果である。ここでいう誤差スペクトルは、第 2レイヤが符号ィ匕の 対象とするスペクトルに相当する。よって、この誤差スペクトルをいかに少ないビット数 で高品質に (聴感的な歪が小さくなるように)符号ィ匕できるかが重要となる。
[0038] ここで、第 1レイヤ符号ィ匕へのビット配分が十分大きいときには、誤差スペクトルの特 性は白色に近くなる。しかし、実用的なビット配分の下では誤差スペクトルの特性は 十分に白色化されず、誤差スペクトルの特性は原信号のスペクトル特性にある程度 類似した特性となる。そのため、第 1レイヤ復号スペクトル (原スペクトルに近づくように 符号化され求められたスペクトル)の標準偏差 σ cと誤差スペクトルの標準偏差 σ eの 間には相関があると考えられる。
[0039] このことは図 5のグラフにより確かめられる。つまり、図 5のグラフより、第 1レイヤ復号 スペクトルの標準偏差 σ c (第 1レイヤ復号スペクトルのばらつき度)と誤差スペクトル の標準偏差 σ e (誤差スペクトルのばらつき度)との間には、正の相関があることが分 かる。つまり、第 1レイヤ復号スペクトルの標準偏差 が小さいときには誤差スぺタト ルの標準偏差 σ eも小さぐ第 1レイヤ復号スペクトルの標準偏差 σ cが大きいときに は誤差スペクトルの標準偏差 σ eも大きくなる傾向にある。
[0040] そこでこの関係を利用し、本実施の形態では、選択部 409において、第 1レイヤ復 号スペクトルの標準偏差 σ cから誤差スペクトルの標準偏差 σ eを推定し、この推定さ れた標準偏差 σ eに最適な非線形変換関数を非線形変換関数 # 1〜 # Νの中から 選択する。
[0041] 第 1レイヤ復号スペクトルの標準偏差 σ cから誤差スペクトルの標準偏差 σ eを決定 する具体例について図 6を用いて説明する。図 6において横軸は第 1レイヤ復号スぺ タトルの標準偏差 σ c、縦軸は誤差スペクトルの標準偏差 σ eを表す。第 1レイヤ復号 スペクトルの標準偏差 σ cが範囲 Xに属する場合に、あらかじめ定められた範囲 X用 の代表点で表される標準偏差 σ eが誤差スペクトルの標準偏差 σ eの推定値とされる
[0042] このように第 1レイヤ復号スペクトルの標準偏差 σ c (第 1レイヤ復号スペクトルのばら つき度)を基に誤差スペクトルの標準偏差 σ e (誤差スペクトルのばらつき度)を推定し 、この推定値に最適な非線形変換関数を選択することにより、誤差スペクトルを効率 的に符号化することが可能となる。また、第 1レイヤの復号信号は音声復号装置側で も得られるため、非線形変換関数の選択結果を示す情報を音声復号装置側へ伝送 する必要がない。このために、ビットレートの増加を抑えて高品質に符号ィ匕を行うこと ができる。
[0043] 次 、で、非線形変換関数の一例を図 7に示す。この例では 3種類の対数関数 (a) 〜(c)を用いている。選択部 409において選択される非線形変換関数は、符号化対 象の標準偏差の推定値 (本実施形態では第 1レイヤ復号スペクトルの標準偏差 σ c) の大きさに応じて選択される。すなわち、標準偏差が小さいときには関数 (a)のように ばらつきの小さ 、信号に適した非線形変換関数が選択され、標準偏差が大き!、とき には関数 (c)のようにばらつきの大きい信号に適した非線形変換関数が選択される。 このように、本実施形態では誤差スペクトルの標準偏差 σ eの大きさに応じて、非線 形変換関数の 、ずれか一つを選択する。
[0044] 非線形変換関数としては、例えば式(1)で表されるような 則 PCMに用いられる非 線形変換関数を用いる。
[数 1]
F νί , λ ( \ ^ζ^ + μ · \ ΙΒ) ( , Λ
(〃,x) = sgn(x) ·~ - ~ r ~ · ·■ ( 1 )
log l +〃)
[0045] 式(1)にお 、て、 A、 Bは非線形変換関数の特性を規定する定数、 sgn ( )は符号を 返す関数を表す。底 bには正の実数を用いる。 μの異なる複数の非線形変換関数を あらかじめ用意しておき、第 1レイヤ復号スペクトルの標準偏差 σ cを基に、誤差スぺ タトルを符号ィ匕する際にどの非線形変換関数を用いるかを選択する。標準偏差の小 さい誤差スペクトルに対しては の小さい非線形変換関数を用い、標準偏差の大き い誤差スペクトルに対しては の大きい非線形変換関数を用いる。適切な は第 1 レイヤ符号ィ匕の性質に依存するために、あら力じめ学習用のデータを利用して決定 しておく。
また、非線形変換関数として、式 (2)で表される関数を用いてもよい。
[数 2]
F(a, χ) = Α · sgn(x) - loga (l + |x|) · · · ( 2 )
[0047] 式(2)にお 、て、 Aは非線形関数の特性を規定する定数である。この場合、底 aの 異なる複数の非線形変換関数をあらかじめ用意しておき、第 1レイヤ復号スペクトル の標準偏差 σ cを基に、誤差スペクトルを符号ィ匕する際にどの非線形変換関数を用 V、るかを選択する。標準偏差の小さ 、誤差スペクトルに対しては aの小さ 、非線形変 換関数を用い、標準偏差の大き 、誤差スペクトルに対しては aの大き 、非線形変換 関数を用いる。適切な aは第 1レイヤ符号化の性質に依存するために、あら力じめ学 習用のデータを利用して決定しておく。
[0048] なお、これらの非線形変換関数は一例として挙げたものであり、本発明はどのような 非線形変換関数を使用するかによって限定されるものではない。
[0049] 次 、で、スペクトル符号ィ匕を行う際に非線形変換が必要である理由につ 、て説明 する。スペクトルの振幅値のダイナミックレンジ (最大振幅値と最小振幅値の比)は非 常に大きい。そのため、振幅スペクトルを符号ィ匕する際に、量子化ステップサイズが 均一の線形量子化を適用すると、非常に多くのビット数が必要になる。仮に符号化ビ ット数が限定される場合、ステップサイズを小さく設定すると振幅値の大き 、スぺタト ルはクリッピングされてしまい、そのクリッピング部分の量子化誤差が大きくなる。一方 で、ステップサイズを大きく設定すると振幅値の小さ 、スペクトルの量子化誤差が大き くなる。よって、振幅スペクトルのようにダイナミックレンジの大きい信号を符号ィ匕する 場合には、非線形変換関数を用いて非線形変換を行った後に符号ィ匕する方法が効 果的である。この場合、適切な非線形変換関数を用いることが重要となる。また、非 線形変換を行う際には、スペクトルを振幅値と正号 Z負号情報とに分離し、振幅値に 対してまず非線形変換を行う。そして非線形変換後に符号ィ匕を行い、その復号値に 正号 Z負号情報を付加する。
[0050] なお、本実施の形態では全帯域を一括して処理する構成に基づ!/、て説明して!/、る
1S 本発明はこれに限定されず、スペクトルを複数のサブバンドに分割し、各サブバ ンド毎に第 1レイヤ復号スペクトルの標準偏差力 誤差スペクトルの標準偏差を推定 し、その推定された標準偏差に最適な非線形変換関数を用いて各サブバンドのスぺ タトルを符号ィ匕する構成であってもよ ヽ。
[0051] また、第 1レイヤ復号信号スペクトルのばらつき度は、低域ほどばらつき度が大きぐ 高域ほどばらつき度が小さい傾向にある。この傾向を利用し、複数のサブバンド毎に 設計し用意した複数の非線形変換関数を用いてもよい。この場合、各サブバンド毎 に非線形変換関数部 410が複数備えられる構成を採る。つまり、各サブバンドに対 応する非線形変換関数部がそれぞれ、非線形変換関数 # 1〜# Nの組を有する。そ して、選択部 409は、複数のサブバンド各々に対して、複数のサブバンド毎に用意さ れた複数の非線形変換関数 # 1〜 # Nの中の 、ずれか一つの非線形変換関数を選 択する。このような構成を採ることにより、サブバンド毎に最適な非線形変換関数を用 いることができ、さらに量子化性能を向上させて音声品質を向上させることができる。
[0052] 次いで、本発明の実施の形態 1に係る音声復号化装置の構成について図 8を用い て説明する。
[0053] 図 8において、分離部 60は、入力されるビットストリームを符号ィ匕パラメータ (第 1レ ィャ用)と符号ィ匕パラメータ (第 2レイヤ用)とに分離して、それぞれ第 1レイヤ復号ィ匕 部 70と第 2レイヤ復号ィ匕部 80に出力する。符号ィ匕パラメータ (第 1レイヤ用)は第 1レ ィャ符号化部 10で求められた符号化パラメータであり、例えば第 1レイヤ符号化部 1 0にて CELP (Code Excited Linear Prediction)を用いた場合には、この符号化パラメ ータは、 LPC係数、ラグ、駆動信号、ゲイン情報などで構成されることになる。符号ィ匕 ノ ラメータ(第 2レイヤ用)はスケールファクタ比の符号ィ匕パラメータおよび残差スぺク トルの符号化パラメータである。
[0054] 第 1レイヤ復号ィ匕部 70は、第 1レイヤ符号ィ匕パラメータ力も第 1レイヤの復号信号を 生成して、第 2レイヤ復号ィ匕部 80に出力するとともに、必要に応じて低品質の復号信 号として出力する。
[0055] 第 2レイヤ復号ィ匕部 80は、第 1レイヤ復号信号、スケールファクタ比の符号ィ匕パラメ ータおよび残差スペクトルの符号ィ匕パラメータを用いて、第 2レイヤの復号信号、すな わち、高品質の復号信号を生成し、必要に応じてこの復号信号を出力する。
[0056] このように、第 1レイヤ復号信号によって再生音声の最低限の品質が担保され、第 2 レイヤ復号信号によって再生音声の品質を高めることができる。また、第 1レイヤ復号 信号または第 2レイヤ復号信号の 、ずれを出力するかは、ネットワーク環境 (パケット ロスの発生等)によって第 2レイヤ符号化パラメータが得られるかどうか、または、アブ リケーシヨンやユーザの設定等に依存する。
[0057] 次いで、第 2レイヤ復号化部 80についてより詳細に説明する。第 2レイヤ復号化部 80の構成を図 9に示す。なお、図 9に示すスケールファクタ復号化部 801、 MDCT 分析部 802、乗算器 803、標準偏差算出部 804、選択部 805、非線形変換関数部 8 06、逆変換部 807、残差スペクトル符号帳 808、および加算器 809は、音声符号ィ匕 装置の第 2レイヤ符号ィ匕部 40 (図 2)に備えられるスケールファクタ復号ィ匕部 407、 M DCT分析部 401、乗算器 405、標準偏差算出部 408、選択部 409、非線形変換関 数部 410、逆変換部 411、残差スペクトル符号帳 412、および加算器 413にそれぞ れ対応し、対応する各構成は同一の機能を有する。
[0058] 図 9において、スケールファクタ復号化部 801は、スケールファクタ比の符号化パラ メータを基に、スケールファクタ比を復号し、この復号した比 (復号スケールファクタ比 )を乗算器 803に出力する。
[0059] MDCT分析部 802は、第 1レイヤ復号信号を MDCT変換により周波数分析して M DCT係数 (第 1レイヤ復号スペクトル)を算出し、第 1レイヤ復号スペクトルを乗算器 8 03に出力する。
[0060] 乗算器 803は、 MDCT分析部 802から出力された第 1レイヤ復号スペクトルにスケ ールファクタ復号ィ匕部 801から出力された復号スケールファクタ比を対応するサブバ ンド毎に乗じ、乗算結果を標準偏差算出部 804および加算器 809に出力する。この 結果、第 1レイヤ復号スペクトルのスケールファクタは原スペクトルのスケールファクタ に近づく。
[0061] 標準偏差算出部 804は、復号スケールファクタ比乗算後の第 1レイヤ復号スぺクト ルの標準偏差 er eを算出して選択部 805に出力する。この標準偏差の算出により、第 1レイヤ復号スペクトルのばらつき度が定量ィ匕される。
[0062] 選択部 805は、標準偏差算出部 804から出力された標準偏差 σ cに基づいて、逆 変換部 807で残差スペクトルを非線形逆変換する関数としてどの非線形変換関数を 用いる力選択し、その選択結果を示す情報を非線形変換関数部 806に出力する。
[0063] 非線形変換関数部 806は、選択部 805での選択結果に基づ 、て、複数用意され て 、る非線形変換関数 # 1〜 # Nのうちの 、ずれか一つを逆変換部 807に出力する
[0064] 残差スペクトル符号帳 808には、残差スペクトルを非線形変換して圧縮した複数の 残差スペクトルの候補が格納されて 、る。残差スペクトル符号帳 808に格納されて ヽ る残差スペクトル候補はスカラーでもベクトルでもよい。また、残差スペクトル符号帳 8 08はあら力じめ学習用のデータを用いて設計されている。
[0065] 逆変換部 807は、非線形変換関数部 806から出力された非線形変換関数を用い て、残差スペクトル符号帳 808に格納されている残差スペクトル候補のいずれか一つ に対して逆変換 (伸張処理)を施して加算器 809に出力する。残差スペクトル候補の うち逆変換が施される残差スペクトルは、分離部 60から入力される残差スペクトルの 符号化パラメータに従って選択される。
[0066] 加算器 809は、復号スケールファクタ比乗算後の第 1レイヤ復号スペクトルに、逆変 換後 (伸張後)の残差スぺ外ル候補を加算して時間領域変換部 810に出力する。こ の加算の結果得られるスペクトルは周波数領域の第 2レイヤ復号スペクトルに相当す る。
[0067] 時間領域変換部 810は、第 2レイヤ復号スペクトルを時間領域の信号に変換した後 、必要に応じて適切な窓掛けおよび重ね合わせ加算等の処理を行ってフレーム間に 生じる不連続を回避し、最終的な高品質の復号信号を出力する。
[0068] このように、本実施の形態によれば、第 1レイヤ復号スペクトルのばらつき度力 誤 差スペクトルのばらつき度を推定し、第 2レイヤではこのばらつき度に最適な非線形 変換関数を選択する。このとき、非線形変換関数の選択情報を音声符号化装置から 音声復号化装置へ伝送しなくても音声復号化装置では音声符号化装置と同様にし て非線形変換関数を選択可能である。このため、本実施の形態では、非線形変換関 数の選択情報を音声符号化装置から音声復号化装置へ伝送する必要がな!、。よつ て、ビットレートを増加させることなく量子化性能を向上させることができる。
[0069] (実施の形態 2)
本発明の実施の形態 2に係る誤差比較部 406の構成を図 10に示す。この図に示 すように、本実施の形態に係る誤差比較部 406は、実施の形態 1の構成(図 3)のマ スキング対誤差比算出部 4062に代えて重み付き誤差算出部 4064を備える。図 10 において図 3と同一の構成には同一符号を付して説明を省略する。
[0070] 重み付き誤差算出部 4064は、減算器 4061から出力された誤差スペクトルに聴覚 マスキングで定められる重み関数を乗じ、そのエネルギー(重み付き誤差エネルギー )を算出する。重み関数は、聴覚マスキングの大きさで定まり、聴覚マスキングが大き い周波数に対しては、その周波数での歪は聞こえにくいため、重みを小さく設定する 。逆に聴覚マスキングが小さい周波数に対しては、その周波数での歪は聞こえやす いので、重みを大きく設定する。重み付き誤差算出部 4064は、このように聴覚マスキ ングが大き 、周波数での誤差スペクトルの影響を小さくし、聴覚マスキングが小さ ヽ 周波数での誤差スペクトルの影響を大きくするような重みを付与した上でエネルギー を算出する。そして、算出したエネルギー値を探索部 4063に出力する。
[0071] 探索部 4063は、残差スペクトル符号帳 412内の一部もしくは全ての残差スペクトル 候補の中で重み付き誤差エネルギーを最も小さくするときの残差スペクトル候補を探 索し、その探索した残差スペクトル候補を表す符号ィ匕パラメータを多重化部 50に出 力する。
[0072] このような処理を行うことで、聴感的な歪を小さくする第 2レイヤ符号ィ匕部を実現する ことができる。
[0073] (実施の形態 3)
本発明の実施の形態 3に係る第 2レイヤ符号ィ匕部 40の構成を図 11に示す。この図 に示すように、本実施の形態に係る第 2レイヤ符号ィ匕部 40は、実施の形態 1の構成( 図 2)の選択部 409に代えて符号付き選択部 414を備える。図 11にお 、て図 2と同一 の構成には同一符号を付して説明を省略する。
[0074] 符号付き選択部 414には、復号スケールファクタ比乗算後の第 1レイヤ復号スぺク トルが乗算器 405より入力されるとともに、その第 1レイヤ復号スペクトルの標準偏差 σ cが標準偏差算出部 408より入力される。また、符号付き選択部 414には、 MDCT 分析部 402より原スペクトルが入力される。
[0075] 符号付き選択部 414は、まず、標準偏差 σ cを基に誤差スペクトルの推定標準偏差 のとり得る値を限定する。次いで、符号付き選択部 414は、原スペクトルと復号スケー ルファクタ比乗算後の第 1レイヤ復号スペクトル力 誤差スペクトルを求め、この誤差 スペクトルの標準偏差を算出し、この標準偏差に最も近い推定標準偏差を、上記の ようにして限定した推定標準偏差の中から選択する。そして、符号付き選択部 414は 、選択した推定標準偏差 (誤差スぺ外ルのばらつき度)に応じて実施の形態 1同様 にして非線形変換関数を選択するとともに、選択した推定標準偏差を示す選択情報 を符号ィ匕した符号化パラメータを多重化部 50に出力する。
[0076] 多重化部 50は、第 1レイヤ符号ィ匕部 10から出力された符号ィ匕パラメータ、第 2レイ ャ符号ィ匕部 40から出力された符号化パラメータおよび符号付き選択部 414から出力 された符号化パラメータを多重化し、ビットストリームとして出力する。
[0077] 符号付き選択部 414での誤差スペクトルの標準偏差の推定値の選択方法につい て図 12を用いてより詳しく説明する。図 12において横軸は第 1レイヤ復号スペクトル の標準偏差 σ c、縦軸は誤差スペクトルの標準偏差 σ eを表す。第 1レイヤ復号スぺク トルの標準偏差 σ cが範囲 Xに属する場合に、誤差スペクトルの標準偏差の推定値 は、推定値 σ e(0)、推定値 σ e(l)、推定値 σ e(2)、推定値 σ e(3)のいずれかに限定さ れる。これら 4個の推定値のうち、原スペクトルと復号スケールファクタ比乗算後の第 1 レイヤ復号スペクトルとから求められる誤差スペクトルの標準偏差に最も近い推定値 を選択する。
[0078] このように、第 1レイヤ復号スペクトルの標準偏差を基に誤差スペクトルの推定標準 偏差のとり得る推定値を複数に限定し、その限定された推定位置の中から、原スぺク トルと復号スケールファクタ比乗算後の第 1レイヤ復号スペクトルとから求められる誤 差スペクトルの標準偏差に最も近い推定値を選択するため、第 1レイヤ復号スぺクト ルの標準偏差による推定値の変動分に対して符号ィヒすることにより、より正確な標準 偏差を求めることができ、さらに量子化性能を向上させて音声品質を向上させること ができる。
[0079] 次いで、本発明の実施の形態 3に係る第 2レイヤ復号ィ匕部 80の構成について図 13 を用いて説明する。この図に示すように、本実施の形態に係る第 2レイヤ復号ィ匕部 80 は、実施の形態 1の構成(図 9)の選択部 805に代えて符号付き選択部 811を備える 。図 13において図 9と同一の構成には同一符号を付して説明を省略する。
[0080] 符号付き選択部 811には、分離部 60により分離された選択情報の符号化パラメ一 タが入力される。符号付き選択部 811は、選択情報によって示される推定標準偏差 に基づいて、残差スペクトルを非線形変換する関数としてどの非線形変換関数を用 いる力選択し、その選択結果を示す情報を非線形変換関数部 806に出力する。
[0081] 以上、本発明の実施の形態について説明した。
[0082] なお、上記各実施形態では、第 1レイヤ復号スペクトルの標準偏差を用いずに、誤 差スペクトルの標準偏差を直接符号ィ匕してもよい。このようにした場合、誤差スぺタト ルの標準偏差を表すための符号量は増加するものの、第 1レイヤ復号スペクトルの標 準偏差と誤差スペクトルの標準偏差との相関が小さいフレームについても量子化性 能を向上させることができる。
[0083] また、 (i)第 1レイヤ復号スペクトルの標準偏差を基にして誤差スペクトルの標準偏 差がとり得る推定値を限定することと、(ii)第 1レイヤ復号スペクトルの標準偏差を用 いずに誤差スペクトルの標準偏差を直接符号化することとを、フレーム毎に切り替え るよう〖こしてもよい。この場合、第 1レイヤ復号スペクトルの標準偏差と誤差スペクトル の標準偏差との相関が所定値以上のフレームについては (i)の処理を行い、その相 関が所定値未満のフレームについては (ii)の処理を行う。このように、第 1レイヤ復号 スペクトルの標準偏差と誤差スペクトルの標準偏差との相関値に応じて処理 (i)と処 理 (ii)とを適応的に切り替えることにより、さらに量子化性能を向上させることができる
[0084] また、上記各実施形態では、スペクトルのばらつき度を表す指標として標準偏差を 用いたが、その他に、分散、最大振幅スペクトルと最小振幅スペクトルの差または比 などを用いてもよい。
[0085] また、上記各実施形態では変換方式として MDCTを使用する場合について説明し た力 これに限定されず、他の変換方式、例えば DFTゃコサイン変換、 Wavalet変 換などを使用するときにも本発明を同様に適用することができる。
[0086] また、上記各実施形態ではスケーラブル符号化の階層構造を第 1レイヤ(下位レイ ャ)と第 2レイヤ(上位レイヤ)の 2階層として説明したが、これに限定されず、 3階層以 上の階層を持つスケーラブル符号ィ匕にも本発明を同様に適用することができる。この 場合、複数のレイヤのうちのいずれかを上記各実施の形態における第 1レイヤとみな し、そのレイヤより上位にあるレイヤを上記各実施の形態における第 2レイヤとみなし て、本発明を同様に適用することができる。
[0087] また、各レイヤが扱う信号のサンプリングレートが異なるときにも本発明を適用可能 である。第 nレイヤが扱う信号のサンプリングレートを Fs (n)と表した場合、 Fs (n)≤F s (n+ l)の関係が成り立つ。
[0088] また、上記各実施の形態に係る音声符号化装置、音声復号化装置を、移動体通信 システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の無線 通信装置に搭載することも可能である。
[0089] また、上記実施の形態では、本発明をノヽードウエアで構成する場合を例にとって説 明したが、本発明はソフトウェアで実現することも可能である。
[0090] また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路で ある LSIとして実現される。これらは個別に 1チップ化されてもよいし、一部又は全てを 含むように 1チップィ匕されてもょ 、。
[0091] ここでは、 LSIとした力 集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥ ノレ卜ラ LSIと呼称されることちある。
[0092] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサ で実現してもよい。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィ ギユラブル'プロセッサーを利用してもよい。 [0093] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回 路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行って もよい。バイオ技術の適応等が可能性としてありえる。
[0094] 本明細書は、 2004年 10月 27日出願の特願 2004— 312262に基づくものである 。この内容はすべてここに含めておく。
産業上の利用可能性
[0095] 本発明は、移動体通信システムやインターネットプロトコルを用いたパケット通信シ ステム等における通信装置の用途に適用できる。

Claims

請求の範囲
[1] 複数のレイヤ力 なる階層構造を有する符号ィ匕を行う音声符号ィ匕装置であって、 下位レイヤの復号信号を周波数分析して下位レイヤの復号スペクトルを算出する分 析手段と、
前記下位レイヤの復号スペクトルのばらつき度に基づ 、て、複数の非線形変換関 数のうちのいずれか一つの非線形変換関数を選択する選択手段と、
非線形変換された残差スペクトルを、前記選択手段によって選択された非線形変 換関数を用いて逆変換する逆変換手段と、
逆変換された残差スペクトルと前記下位レイヤの復号スペクトルとを加算して上位レ ィャの復号スペクトルを得る加算手段と、
を具備する音声符号化装置。
[2] 前記複数の非線形変換関数のそれぞれに対応する複数の残差スペクトル符号帳 をさらに具備する、
請求項 1記載の音声符号化装置。
[3] 前記選択手段は、複数のサブバンド各々に対して、前記複数のサブバンド毎に用 意された複数の非線形変換関数のうちのいずれか一つの非線形変換関数を選択す る、
請求項 1記載の音声符号化装置。
[4] 前記選択手段は、前記下位レイヤの復号スペクトルのばらつき度から推定した誤差 スペクトルのばらつき度に応じて、前記複数の非線形変換関数のうちのいずれか一 つの非線形変換関数を選択する、
請求項 1記載の音声符号化装置。
[5] 前記選択手段は、さらに前記誤差スペクトルのばらつき度を示す情報を符号ィ匕する 請求項 4記載の音声符号化装置。
[6] 請求項 1記載の音声符号化装置を具備する無線通信移動局装置。
[7] 請求項 1記載の音声符号化装置を具備する無線通信基地局装置。
[8] 複数のレイヤ力 なる階層構造を有する符号ィ匕を行う音声符号ィ匕方法であって、 下位レイヤの復号信号を周波数分析して下位レイヤの復号スペクトルを算出する分 析工程と、
前記下位レイヤの復号スペクトルのばらつき度に基づ 、て、複数の非線形変換関 数のうちのいずれか一つの非線形変換関数を選択する選択工程と、
非線形変換された残差スペクトルを、前記選択工程にお!ヽて選択された非線形変 換関数を用いて逆変換する逆変換工程と、
逆変換された残差スペクトルと前記下位レイヤの復号スペクトルとを加算して上位レ ィャの復号スペクトルを得る加算工程と、
を具備する音声符号化方法。
PCT/JP2005/019579 2004-10-27 2005-10-25 音声符号化装置および音声符号化方法 WO2006046547A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US11/577,424 US8099275B2 (en) 2004-10-27 2005-10-25 Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
BRPI0518193-3A BRPI0518193A (pt) 2004-10-27 2005-10-25 aparelho e método de codificação vocal, aparelhos de estação móvel e de base de comunicação de rádio
JP2006543163A JP4859670B2 (ja) 2004-10-27 2005-10-25 音声符号化装置および音声符号化方法
EP05799366A EP1806737A4 (en) 2004-10-27 2005-10-25 TONE CODIER AND TONE CODING METHOD

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004312262 2004-10-27
JP2004-312262 2004-10-27

Publications (1)

Publication Number Publication Date
WO2006046547A1 true WO2006046547A1 (ja) 2006-05-04

Family

ID=36227787

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019579 WO2006046547A1 (ja) 2004-10-27 2005-10-25 音声符号化装置および音声符号化方法

Country Status (8)

Country Link
US (1) US8099275B2 (ja)
EP (1) EP1806737A4 (ja)
JP (1) JP4859670B2 (ja)
KR (1) KR20070070189A (ja)
CN (1) CN101044552A (ja)
BR (1) BRPI0518193A (ja)
RU (1) RU2007115914A (ja)
WO (1) WO2006046547A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009501944A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更
US20090109964A1 (en) * 2007-10-23 2009-04-30 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR PLAYOUT SCHEDULING IN VOICE OVER INTERNET PROTOCOL (VoIP) SYSTEM
WO2010103854A3 (ja) * 2009-03-13 2011-03-03 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
CN101582259B (zh) * 2008-05-13 2012-05-09 华为技术有限公司 立体声信号编解码方法、装置及编解码系统
US9349376B2 (en) 2007-06-29 2016-05-24 Microsoft Technology Licensing, Llc Bitstream syntax for multi-process audio decoding
US9443525B2 (en) 2001-12-14 2016-09-13 Microsoft Technology Licensing, Llc Quality improvement techniques in an audio encoder
WO2020179472A1 (ja) * 2019-03-05 2020-09-10 ソニー株式会社 信号処理装置および方法、並びにプログラム

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
CN101273404B (zh) 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
JP5030789B2 (ja) * 2005-11-30 2012-09-19 パナソニック株式会社 サブバンド符号化装置およびサブバンド符号化方法
US20100161323A1 (en) * 2006-04-27 2010-06-24 Panasonic Corporation Audio encoding device, audio decoding device, and their method
JP5339919B2 (ja) * 2006-12-15 2013-11-13 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US20090006081A1 (en) * 2007-06-27 2009-01-01 Samsung Electronics Co., Ltd. Method, medium and apparatus for encoding and/or decoding signal
CN101527138B (zh) * 2008-03-05 2011-12-28 华为技术有限公司 超宽带扩展编码、解码方法、编解码器及超宽带扩展系统
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
US9230551B2 (en) * 2010-10-18 2016-01-05 Nokia Technologies Oy Audio encoder or decoder apparatus
US10553228B2 (en) * 2015-04-07 2020-02-04 Dolby International Ab Audio coding with range extension

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2956548B2 (ja) * 1995-10-05 1999-10-04 松下電器産業株式会社 音声帯域拡大装置
JPH08278800A (ja) * 1995-04-05 1996-10-22 Fujitsu Ltd 音声通信システム
JP3299073B2 (ja) * 1995-04-11 2002-07-08 パイオニア株式会社 量子化装置及び量子化方法
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JPH10288852A (ja) 1997-04-14 1998-10-27 Canon Inc 電子写真感光体
US6615169B1 (en) * 2000-10-18 2003-09-02 Nokia Corporation High frequency enhancement layer coding in wideband speech codec
US6614370B2 (en) * 2001-01-26 2003-09-02 Oded Gottesman Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation
US20020133246A1 (en) * 2001-03-02 2002-09-19 Hong-Kee Kim Method of editing audio data and recording medium thereof and digital audio player
AU2003213149A1 (en) * 2002-02-21 2003-09-09 The Regents Of The University Of California Scalable compression of audio and other signals
AU2002246280A1 (en) * 2002-03-12 2003-09-22 Nokia Corporation Efficient improvements in scalable audio coding
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
JP3881946B2 (ja) * 2002-09-12 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
US7752052B2 (en) * 2002-04-26 2010-07-06 Panasonic Corporation Scalable coder and decoder performing amplitude flattening for error spectrum estimation
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
CN1748443B (zh) * 2003-03-04 2010-09-22 诺基亚有限公司 多声道音频扩展支持
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OSHIKIRI MASAHIRO ET AL: "Jikan-Shuhasu Ryoki no Keisu no teio Sentaku Vector Ryoshika o Mochiita 10kHz Taiiki Scalable Fugoka Hoshiki. (A 10 KHZ bandwith scalable codec using adaptive selection VQ of time-frequency coefficients)", FIT2003 KOEN RONBUNSHU., 25 August 2003 (2003-08-25), pages 239 - 240, (F-017), XP002986229 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443525B2 (en) 2001-12-14 2016-09-13 Microsoft Technology Licensing, Llc Quality improvement techniques in an audio encoder
JP2009501944A (ja) * 2005-07-15 2009-01-22 マイクロソフト コーポレーション ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更
US9349376B2 (en) 2007-06-29 2016-05-24 Microsoft Technology Licensing, Llc Bitstream syntax for multi-process audio decoding
US9741354B2 (en) 2007-06-29 2017-08-22 Microsoft Technology Licensing, Llc Bitstream syntax for multi-process audio decoding
US20090109964A1 (en) * 2007-10-23 2009-04-30 Samsung Electronics Co., Ltd. APPARATUS AND METHOD FOR PLAYOUT SCHEDULING IN VOICE OVER INTERNET PROTOCOL (VoIP) SYSTEM
US8615045B2 (en) * 2007-10-23 2013-12-24 Samsung Electronics Co., Ltd Apparatus and method for playout scheduling in voice over internet protocol (VoIP) system
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
CN101582259B (zh) * 2008-05-13 2012-05-09 华为技术有限公司 立体声信号编解码方法、装置及编解码系统
WO2010103854A3 (ja) * 2009-03-13 2011-03-03 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
WO2020179472A1 (ja) * 2019-03-05 2020-09-10 ソニー株式会社 信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
EP1806737A1 (en) 2007-07-11
CN101044552A (zh) 2007-09-26
US20080091440A1 (en) 2008-04-17
JPWO2006046547A1 (ja) 2008-05-22
US8099275B2 (en) 2012-01-17
JP4859670B2 (ja) 2012-01-25
KR20070070189A (ko) 2007-07-03
EP1806737A4 (en) 2010-08-04
BRPI0518193A (pt) 2008-11-04
RU2007115914A (ru) 2008-11-10

Similar Documents

Publication Publication Date Title
JP4859670B2 (ja) 音声符号化装置および音声符号化方法
KR101220621B1 (ko) 부호화 장치 및 부호화 방법
US8457319B2 (en) Stereo encoding device, stereo decoding device, and stereo encoding method
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
JP5383676B2 (ja) 符号化装置、復号装置およびこれらの方法
US7983904B2 (en) Scalable decoding apparatus and scalable encoding apparatus
US8010349B2 (en) Scalable encoder, scalable decoder, and scalable encoding method
JP5404412B2 (ja) 符号化装置、復号装置およびこれらの方法
CN102436822A (zh) 信号控制装置及其方法
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
CN112352277A (zh) 编码装置及编码方法
Kandadai et al. Optimal Bit Layering for Scalable Audio Compression Using Objective Audio Quality Metrics

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BW BY BZ CA CH CN CO CR CU CZ DK DM DZ EC EE EG ES FI GB GD GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV LY MD MG MK MN MW MX MZ NA NG NO NZ OM PG PH PL PT RO RU SC SD SG SK SL SM SY TJ TM TN TR TT TZ UG US UZ VC VN YU ZA ZM

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SZ TZ UG ZM ZW AM AZ BY KG MD RU TJ TM AT BE BG CH CY DE DK EE ES FI FR GB GR HU IE IS IT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006543163

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2005799366

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 11577424

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 200580036011.4

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2007115914

Country of ref document: RU

Ref document number: 1020077009516

Country of ref document: KR

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 2005799366

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11577424

Country of ref document: US

ENP Entry into the national phase

Ref document number: PI0518193

Country of ref document: BR