[go: up one dir, main page]

WO2025182579A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム

Info

Publication number
WO2025182579A1
WO2025182579A1 PCT/JP2025/004704 JP2025004704W WO2025182579A1 WO 2025182579 A1 WO2025182579 A1 WO 2025182579A1 JP 2025004704 W JP2025004704 W JP 2025004704W WO 2025182579 A1 WO2025182579 A1 WO 2025182579A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
model
target data
information processing
common
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
PCT/JP2025/004704
Other languages
English (en)
French (fr)
Inventor
悠季 川崎
隆一 難波
弘幸 本間
徹 知念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of WO2025182579A1 publication Critical patent/WO2025182579A1/ja
Pending legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • This technology relates to an information processing device, method, and program, and in particular to an information processing device, method, and program that improves recording efficiency while enabling more accurate data to be obtained during restoration.
  • multiple frequency bins are grouped into bands, a mixture model representing the directivity is assigned to each band, and the parameters of that mixture model are recorded.
  • the directivity data is used, the directivity data for each of the multiple frequency bins belonging to that band is restored from the parameters of the mixture model for that band.
  • This technology was developed in light of these circumstances, improving recording efficiency while enabling more accurate data to be obtained during restoration.
  • the information processing device of the first aspect of the present technology includes an acquisition unit that acquires common part data for restoring the common parts of multiple target data and unique part data for each of the multiple target data for restoring unique parts that differ from the common parts of the target data, and a data restoration unit that restores the target data based on the common part data and the unique part data.
  • the information processing method or program of the first aspect of the present technology includes the steps of acquiring common portion data for restoring the common portion of a plurality of target data, and unique portion data for each of the plurality of target data for restoring unique portions that differ from the common portion of the target data, and restoring the target data based on the common portion data and the unique portion data.
  • common portion data for restoring the common portion of multiple target data and unique portion data for each of the multiple target data for restoring unique portions different from the common portion of the target data are obtained, and the target data is restored based on the common portion data and the unique portion data.
  • the information processing device of the second aspect of the present technology includes a generation unit that generates, based on multiple pieces of target data, common portion data for restoring the common portion of the multiple pieces of target data, and unique portion data for each of the multiple pieces of target data for restoring the unique portion of the target data that differs from the common portion.
  • the information processing method includes generating, based on a plurality of target data, common portion data for restoring the common portion of the plurality of target data, and unique portion data for each of the plurality of target data for restoring the unique portion of the target data that differs from the common portion.
  • common portion data for restoring the common portion of the plurality of target data, and unique portion data for each of the plurality of target data for restoring the unique portion of the target data that differs from the common portion are generated based on the plurality of target data.
  • FIG. 1 is a diagram illustrating data modeling.
  • FIG. 1 is a diagram illustrating the present technology.
  • FIG. 10 is a diagram illustrating grouping.
  • FIG. 10 is a diagram illustrating a change in the shape of directivity.
  • FIG. 10 is a diagram illustrating an example of a distribution function.
  • FIG. 10 is a diagram illustrating modeling of data to be recorded.
  • FIG. 10 is a diagram illustrating an individual recording method.
  • FIG. 10 is a diagram illustrating an individual designation method.
  • FIG. 10 is a diagram illustrating a combination designation method.
  • FIG. 10 is a diagram illustrating an example of data to be recorded.
  • FIG. 10 is a diagram illustrating an example of data syntax.
  • FIG. 10 is a diagram illustrating an example of data syntax.
  • FIG. 10 is a diagram illustrating an example of data syntax.
  • FIG. 10 is a diagram illustrating an example of data syntax.
  • FIG. 2 illustrates an example of the configuration of a server.
  • 10 is a flowchart illustrating an encoding process.
  • FIG. 1 illustrates an example of the configuration of an information processing device.
  • 10 is a flowchart illustrating a directionality data generation process.
  • 10 is a flowchart illustrating an output audio data generation process.
  • FIG. 10 is a diagram illustrating a limitation of the range of use.
  • FIG. 1 illustrates an example of the configuration of a computer.
  • data having values at each position on a surface such as a spherical surface, a flat surface, a curved surface, etc. is regarded as data to be recorded (hereinafter also referred to as "recording target data").
  • recording target data data indicating a distribution on a surface.
  • the shape data to be recorded is data that has values at each position on the spherical surface, i.e., data that represents the distribution (shape) on the spherical surface.
  • shape data D11 expressed by a distribution function F org (x) at each position x on the surface of a sphere is modeled.
  • the desired shape i.e., shape data D11
  • shape data D11 is expressed by overlaying multiple unimodal distribution functions (models).
  • the original shape data D11 before modeling is represented by shape data D12 expressed by distribution function f(x, ⁇ 1 ), shape data D13 expressed by distribution function f(x, ⁇ 2 ), and shape data D14 expressed by distribution function f(x, ⁇ 3 ).
  • weights w1 , w2 , and w3 are assigned to distribution functions f(x, ⁇ 1 ), f(x, ⁇ 2 ), and f(x, ⁇ 3 ), and the distribution functions are superimposed to form a single mixture model (mixture distribution).
  • ⁇ 1 to ⁇ 3 in each distribution function are parameters that represent shape data.
  • the mixture model determines (estimates) the parameters ⁇ 1 to ⁇ 3 and weights w 1 to w 3 that can best represent the original shape data D11 before modeling, that is, the shape represented by the distribution function F org (x).
  • the determined parameters ⁇ 1 to ⁇ 3 and weights w 1 to w 3 are then recorded or transmitted as parameters of the mixture model representing the shape data D11.
  • a model consisting of multiple models will also be referred to as a mixture model, and the parameters representing the models that make up the mixture model and the weights of those models will also be referred to as model parameters.
  • model parameters a group of parameters consisting of the model parameters of each model used to restore the mixture model will also be simply referred to as the model parameters of the mixture model.
  • the shape data D11 When the shape data D11 is used, such as when playing back content, the shape data D11 representing the original shape is restored from the model parameters. More specifically, shape data represented by a mixed model that corresponds to the shape data D11 is generated (restored).
  • the shapes of the multiple pieces of shape data to be recorded or transmitted vary slightly, so if you want to accurately record the shape (distribution) represented by the shape data in detail, it is necessary to model each piece of shape data. As a result, the total amount of model parameters for the multiple pieces of shape data, i.e., the amount of shape data recorded, increases.
  • shape data can be divided into areas where the shape is similar across multiple pieces of shape data, and areas that are unique to each piece of shape data.
  • this technology separately models and records the parts of the data (shape data) that are similar to other data, and the parts that are unique, thereby improving recording efficiency and enabling more accurate data to be obtained when restoring data.
  • models such as distribution functions that make up the mixture model representing the data to be recorded are classified into models that represent parts whose shapes are common across multiple pieces of data to be recorded (hereinafter also referred to as common parts), and models that represent parts that are unique to each piece of data to be recorded (hereinafter also referred to as unique parts).
  • common parts models that represent parts whose shapes are common across multiple pieces of data to be recorded
  • unique parts models that represent parts that are unique to each piece of data to be recorded
  • the data to be recorded is divided into a common part that is similar to other data to be recorded, and a unique part that is not similar to other data to be recorded, and model parameters are recorded separately for the common part and the unique part.
  • groups are formed consisting of recording target data whose shapes (general shapes) in a specified area are similar to each other. Areas of the recording target data whose shapes are similar to each other are then considered common parts, and model parameters are recorded collectively for each group.
  • a mixture model representing a group is given, and the model parameters of that mixture model are recorded as a single common model parameter for the common portion of all recording target data belonging to that group.
  • model parameters are generated individually for each piece of data to be recorded.
  • whether or not to record or use the model parameters of the models (distribution functions) that make up the mixture model can be specified (defined) individually for each piece of data to be recorded. For example, whether or not to record or use model parameters can be specified for each model that makes up the mixture model of the specific part.
  • J pieces of recording target data including recording target data D31-1 with index 1, recording target data D31-j with index j, and recording target data D31-J with index J, are grouped together.
  • recording target data D31 when there is no need to particularly distinguish between recording target data D31-1, recording target data D31-j, and other recording target data belonging to a group, it will be simply referred to as recording target data D31.
  • Figure 2 the distribution on the surface of a sphere expanded onto a plane is shown as recording target data D31.
  • common parts are those parts in each piece of recording target data D31 that have similar shapes (value distributions), such as area R11 in recording target data D31-1, area R12 in recording target data D31-j, and area R13 in recording target data D31-J.
  • the common parts in each piece of recording target data D31 are areas of the same position and size.
  • each recordable data D31 is restored based on the model parameters of the common and unique parts.
  • a mixed model representing the data in the common parts of the recording target data D31-1 is reconstructed based on the model parameters of the common parts for each group. Furthermore, a mixed model representing the data in the unique parts of the recording target data D31-1 is also reconstructed based on the model parameters of the unique parts.
  • the mixture model of the common part and the mixture model of the unique part are integrated to generate a single mixture model, and the data represented by the resulting mixture model is used as the recording target data D31-1 obtained by restoration.
  • a group consisting of recording target data D31 having similar parts may be treated as a subgroup, and model parameters of a mixed model may be generated that represent the common parts of the multiple recording target data D31 belonging to that subgroup.
  • the recording target data D31 belonging to the subgroups will be restored based on the model parameters of the common parts of the group, the model parameters of the common parts of the subgroups, and the model parameters of the unique parts.
  • the overall recording volume i.e., the overall data volume
  • the overall data volume can be reduced, while maintaining the high expressiveness and precision (quality) of the recording data when it is restored.
  • this technology can improve recording efficiency by modeling common parts collectively and generating model parameters for a single common part for each group. This also improves transmission efficiency when transmitting data to be recorded.
  • multiple unique parts may be prepared in advance for a single piece of recording data, and when restoring the recording data, the unique part to be used for restoration may be selected from the multiple unique parts depending on the circumstances, such as the usage scene.
  • model parameters for indoor use and model parameters for outdoor use it would be possible to prepare model parameters for indoor use and model parameters for outdoor use, and then select the model parameters to be used for restoration from among these model parameters.
  • model parameters of each model that makes up the mixed model that represents the unique portion depending on the usage scenario, playback environment, communication conditions, the device's computing power, the device's remaining battery power, etc.
  • whether or not to use the model parameters may be switched on a mixed model basis, or on a model basis that makes up the mixed model.
  • a specific example of data to be recorded is frequency domain directional data (acoustic directional data) for each sound source.
  • directional data indicating the directionality of the sound source is prepared for each frequency (frequency bin) of the sound output from the sound source, as shown in Figure 3, for example.
  • the directional data for each frequency bin prepared for one sound source is treated as the data to be recorded.
  • directional data D51, directional data D52, directional data D53, etc. are treated as directional data for each frequency bin (data to be recorded).
  • the entire frequency range can be divided into multiple frequency bands according to the similarity of the directivity shapes, and these frequency bands can be grouped together.
  • multiple frequency bins belong to the frequency band corresponding to one group, and for each group (frequency band), model parameters for the common parts and model parameters for the unique parts of each frequency bin are generated and recorded.
  • directivity data D51 to D53 are grouped together.
  • the data to be recorded is directional data for each frequency bin of the sound source (acoustic directional data)
  • the following models can be selected as models that constitute a mixed model that represents the common and unique parts.
  • the directivity data when recording only the amplitude characteristics of the directivity as the directivity data, the directivity data will be real number data, so a distribution function (model) expressed in real numbers, such as the vMF distribution or Kent distribution, can be used.
  • the directional data includes not only the amplitude characteristics of the directivity but also the phase characteristics, the directional data will be complex number data.
  • a specific example of directional data (acoustic directional data) indicating the directivity of a sound source to be recorded is radiation directional data indicating the radiation directivity of a sound source of a specific sound source type, such as a violin.
  • Radiation directivity data is data for each frequency that represents the sound pressure intensity of sound waves emitted from a sound source in each direction as seen from the sound source. In this case, grouping is performed on the radiation directivity data prepared for each frequency.
  • sound pickup directivity data that indicates the sound pickup directivity for each microphone frequency
  • HRTFs head-related transfer functions
  • sound pickup directivity data is data that indicates the sound pickup sensitivity for each frequency in each direction as seen from the sound source.
  • the data to be recorded is not limited to frequency domain (frequency-specific) data, but may also be time domain (time-specific) acoustic data, etc.
  • the data to be recorded may be directional data that indicates the directionality for each time interval, with a time index indicating the time interval assigned.
  • directional data that can take on different values for each time index is considered to be the data to be recorded.
  • the directivity data for adjacent time indexes can be grouped together because at least some of the directivity shapes can be considered similar.
  • the directivity data for each time index to be modeled is, for example, real-number data.
  • Specific examples of data to be recorded for each time index include acoustic data indicating the direction of sound waves arriving at each time at a specific listening point within a specific space such as a room, and the room transfer function (RIR (Room Impulse Response)).
  • the room transfer function can also be applied to recording for each direction.
  • the data to be recorded may be data in the frequency or time domain, or data for multiple types, or data for the size or posture of objects related to the sound source.
  • the data to be recorded can be directional data indicating the acoustic directivity of multiple sound sources (musical instruments) that may have similar acoustic directivities, such as guitars, violins, and violas.
  • the acoustic directionality (directivity) of each instrument is thought to have both common parts and parts that are unique to each instrument, so if the directional data for each instrument is used as the data to be recorded, it is possible to expect improved recording efficiency.
  • the directionality of the sound of a musical instrument when expressing the directionality of the sound of a musical instrument as a sound source (object), the directionality will differ depending on whether the instrument is far from the ceiling of the space in which it is played, or whether there is no ceiling, as shown by arrow Q11 in Figure 4, or whether the instrument is close to the ceiling, as shown by arrow Q12.
  • the directional shape of a musical instrument as a sound source is thought to change depending on the performer's individual habits, such as their physique and posture when playing.
  • a mixed model is obtained by mixing (combining) one or more models.
  • a distribution function when used as a model, a single mixed distribution obtained by superimposing (mixing) one or more distribution functions is considered a mixed model.
  • the desired shape i.e., the shape of the common and unique parts of the data to be recorded, can be expressed by overlaying multiple unimodal distribution functions.
  • the distribution functions that make up the mixture model can be of any type, but for example, if the data to be recorded is data that indicates a distribution (shape) on a spherical surface, it is possible to use distribution functions such as vMF distribution, Kent distribution, or spherical Laplace distribution. Furthermore, the distribution functions (models) that make up the mixture model can be of different types, such as vMF distribution and Kent distribution.
  • each distribution function that makes up a mixture model has its own parameters. In other words, each distribution function is expressed by parameters.
  • the vMF distribution which is a distribution function, is a function that represents the distribution on the surface of a sphere, as shown in Figure 5.
  • the vMF distribution can represent an isotropic distribution centered on the position indicated by the vector ⁇ (mean vector), which is represented by the arrow in the figure.
  • Equation (1) shows the value of the vMF distribution f(x, ⁇ ) at position x on the surface of the sphere, i.e., the position indicated by vector x.
  • c( ⁇ ) is a normalization constant
  • indicates the concentration (parameter concentration)
  • indicates the vector (mean vector) that defines the center of the mean direction distribution.
  • is a set of parameters that represent the vMF distribution f(x, ⁇ ).
  • the set of parameters ⁇ i.e., the parameter ⁇
  • the vector ⁇ can be expressed by the azimuth and elevation angles of a polar coordinate system with the center of the sphere as the origin.
  • the data to be recorded is mainly shape data representing a distribution on a spherical surface, but the data to be recorded may also be, for example, data representing a distribution (shape) on a two-dimensional plane or data representing a distribution on an arbitrary curved surface.
  • the data to be recorded represents a distribution on a two-dimensional plane
  • a mixed Gaussian distribution consisting of multiple two-dimensional Gaussian distributions could be used as the mixture model.
  • a mixture model can be obtained by overlaying multiple distribution functions (models) like those above, but when recording common parts of the target data, a mixture model representing the group is given, as described above.
  • the mixture model representing the distribution function F org (x) (shape data D11) shown in Figure 1 i.e., the mixture model obtained by superimposing the distribution functions f(x, ⁇ 1 ), f(x, ⁇ 2 ), and f(x, ⁇ 3 ), is assumed to be the mixture model representing the common part of the recording target data belonging to the group (hereinafter also referred to as the common mixture model).
  • the common mixture model may be one of the mixture models representing the common parts of each record target data belonging to the group, or it may be a mixture model calculated from the mixture model of the common parts of each record target data, such as the average value of those mixture models.
  • the common mixture model may be a mixture model that represents a single piece of data obtained from the common portion of each piece of record target data belonging to a group, such as the average value of the common portion of each piece of record target data, or the common mixture model may be a predetermined or specified one.
  • the common mixture model can be reconstructed using the parameters ⁇ 1 to ⁇ 3 of each model (distribution function) and the weights w 1 to w 3 of each model, and these parameters and weights are considered to be the model parameters of the common mixture model, i.e., the model parameters of the common part of the group.
  • a scale factor and an offset value are used as parameters to adjust for the differences between the common mixture model and the common parts of the data to be recorded.
  • the scale factor is a parameter related to the dynamic range of the data to be recorded, i.e., a parameter that determines the magnification of the entire mixture model, and adjusts for differences in the dynamic range of each piece of data to be recorded.
  • the scale factor is a parameter based on the ratio between the common mixture model and the common part of the data to be recorded or the entire data to be recorded.
  • the offset value is a parameter related to the shift amount of the data to be recorded, i.e., a parameter that determines the shift amount of the entire mixture model.
  • the offset value adjusts the difference in the lower limit value for each piece of data to be recorded.
  • the offset value is a parameter based on the difference in the lower limit value between the common mixture model and the common part of the data to be recorded or the entire data to be recorded.
  • the model parameters of the common mixture model are the parameters ⁇ 1 to ⁇ K of each model and the weights w 1 to w K. Also, assume that a scale factor S and an offset value C are given to one piece of data to be recorded.
  • the mixture distribution F rep (x) of the common part of the data to be recorded can be obtained based on the parameters ⁇ 1 to ⁇ K , the weights w 1 to w K , the scale factor S and the offset value C using the following equation (2).
  • the mixture distribution F rep (x) obtained by such equation (2) becomes the common part (mixture model of the common part) of the data to be recorded obtained by restoration.
  • the model parameters of the common parts, the scale factor and offset value of each piece of recording target data, and the model parameters of the unique parts of each piece of recording target data are obtained as modeling results.
  • a common mixture model for the common part of J pieces of recording target data is represented by K models (distribution functions), and parameters ⁇ 1 to ⁇ K and weights w 1 to w K are obtained as model parameters of the common mixture model.
  • These common part model parameters are common part data for restoring the common part of all recording target data belonging to the group.
  • the part indicated by arrow Q32 shows, for the data to be recorded with index 1, the model parameters of the specific part, parameters ⁇ 11 to ⁇ 1K(1) and weights w 11 to w 1K(1) , as well as the scale factor S 1 and offset value C 1 .
  • the mixture model of the eigenpart is composed of K(1) models (distribution functions).
  • the model parameters of the eigenpart are eigenpart data for reconstructing the eigenpart that is different from the common part of the recording target data.
  • the portion indicated by arrow Q33 shows, for the recording target data with index J, the model parameters of the eigenpart, ie, parameters ⁇ J1 to ⁇ JK (J) and weights wJ1 to wJK (J) , as well as the scale factor SJ and offset value CJ .
  • the mixture model of the eigenpart is composed of K(J) models (distribution functions).
  • the model parameters of the specific part are denoted as parameters ⁇ j1 to ⁇ jK(j) and weights w j1 to w jK(j) , and the scale factor and offset value are denoted as S j and C j .
  • the jth data to be recorded can be obtained from the common part parameters ⁇ 1 to ⁇ K and weights w 1 to w K , the unique part parameters ⁇ j1 to ⁇ jK(j) and weights w j1 to w jK(j) , the scale factor S j and the offset value C j using the following equation (3):
  • the mixture distribution F j (x) obtained by this formula (3) is the j-th data to be recorded obtained by restoration. It can be said that the mixture distribution F j (x) is obtained by superimposing (adding) a mixture model of the common part (common mixture model) and a mixture model of the unique part to generate one mixture model, and adjusting the scale and lower limit of the mixture model by a scale factor and an offset value.
  • model parameters that are unique to each piece of data to be recorded, which are defined (or specified), include the individual recording method and specification method shown below.
  • the individual recording method defines model parameters for the unique parts of each piece of data to be recorded that belongs to a group, and records all of the model parameters for those unique parts.
  • the specification method involves defining all distribution functions (models) that may be used as the unique part for the entire group, and then specifying one or more of these distribution functions to use to restore the unique part for each piece of data to be recorded.
  • Figure 7 shows an example of the individual recording method.
  • model parameters of the unique parts of each piece of recording data belonging to a group are defined as subparameters, and the model parameters of those unique parts are recorded.
  • parameters ⁇ 11 to ⁇ 1K(1) and weights w 11 to w 1K(1) are generated and recorded as model parameters of the unique part, as shown by arrow Q41.
  • parameters ⁇ j1 to ⁇ jK(j) and weights w j1 to w jK(j) are generated and recorded as model parameters of the inherent part, as indicated by arrow Q42.
  • parameters ⁇ J1 to ⁇ JK(J) and weights w J1 to w JK(J) are generated and recorded, as indicated by arrow Q43.
  • possible specification methods include a method of individually specifying the distribution functions that make up the mixture model of the eigenpart (hereinafter also referred to as the individual specification method), and a method of specifying a combination of distribution functions that make up the mixture model of the eigenpart (hereinafter also referred to as the combination specification method).
  • Figure 8 shows an example of the individual designation method, which is one example of a designation method.
  • a set of K(A) predetermined distribution functions and weights are prepared (defined) in advance as candidates (hereinafter also referred to as candidate parameters) for the model (distribution function) of the eigenpart, as shown by arrow Q51, for example.
  • candidate parameters ⁇ 1 to ⁇ K(A) and weights w 1 to w K (A) are prepared as candidate model parameters for the distribution function (model) that constitutes the mixture model of the eigenpart. These candidate parameters can also be generated from each recording target data belonging to the group.
  • candidate parameters ⁇ j , w j are a set of parameter ⁇ j and weight w j .
  • a candidate parameter representing the distribution function is selected (specified) from among K(A) candidate parameters for one or more distribution functions (models) that constitute the mixture model of the unique part of the data to be recorded, and an index indicating the selected candidate parameter is recorded.
  • the part indicated by arrow Q52 shows indices i 11 to i 1K( 1) indicating candidate parameters for each of the K(1) distribution functions that constitute the mixture model of the eigenpart selected for the recording target data with index 1 .
  • the mixture model of the eigenpart is composed of K(1) distribution functions (models).
  • index i 11 indicates any one of the K(A) candidate parameters such as candidate parameters ⁇ 3 and w 3 .
  • index information indicating the distribution functions (models) that make up the mixture model, or more specifically, the model parameters (candidate parameters) of the distribution functions is recorded as information for restoring a mixture model of the specific parts of the data to be recorded.
  • the number of recording bits per index representing a candidate parameter depends on the total number of candidate parameters (distribution functions), K(A). For example, if the total number of candidate parameters, K(A), is 16, then one index can be represented by 4 bits.
  • Figure 9 shows an example of a combination specification method, which is one example of a specification method.
  • candidate parameters are prepared in the same way as in the individual designation method.
  • K(A) sets of distribution functions and weights are prepared as candidate parameters ⁇ j , wj for all J pieces of data to be recorded belonging to a group.
  • the distribution function (model) that constitutes the mixture model of the unique part is specified by index for each piece of data to be recorded.
  • a set of distribution functions (models) that make up the mixture model of the eigenpart i.e., multiple combinations of one or more candidate parameters, are prepared in advance.
  • models that make up the mixture model of the eigenpart, i.e., multiple combinations of one or more candidate parameters, are prepared in advance.
  • pattern 1 shown in the upper right corner of the figure is a combination of candidate parameters (distribution functions) indicated by index "1", candidate parameters indicated by index "2", and candidate parameters indicated by index "3".
  • one of patterns 1 to 5 is selected as a candidate parameter combination for obtaining a mixture model of the unique part of that data.
  • the part indicated by arrow Q63 shows "Pattern 1," which is a combination (set) of candidate parameters for obtaining a mixture model of the eigenpart selected for the recording target data with index 1. More specifically, flag information indicating "Pattern 1" is recorded during recording.
  • the part indicated by arrow Q64 shows "Pattern 3," which is a combination of candidate parameters for obtaining a mixture model of the eigenpart selected for the recording target data with index J.
  • a finite number of candidate parameter combinations for obtaining a mixture model of the eigenpart are defined in advance, and flag information is set for each combination.
  • the number of bits in the flag information is determined by the number of combinations prepared in advance. For example, if the total number of candidate parameter combinations is four (four patterns), the flag information can be two bits.
  • model parameters of the common parts may also be recorded using the individual specification method or the combined specification method.
  • the model parameters of each model that makes up the common mixture model are selected from multiple candidate model parameters, or the combination of model parameters of each model that makes up the common mixture model is selected from multiple candidate model parameter combinations.
  • the model parameters of each model that makes up the common mixture model are selected from multiple candidate model parameters, or the combination of model parameters of each model that makes up the common mixture model is selected from multiple candidate model parameter combinations.
  • a data series consisting of multiple pieces of recording target data is divided into one or more groups based on a predetermined evaluation index. At this time, recording target data that are considered to have similar shapes are assigned to the same group.
  • the correlation value between the recording target data, calculated from the values of each position (grid) of the original recording target data can be used.
  • the SAD between a predetermined recording target data F org — i (x) and another recording target data F org — j (x) can be obtained by the following equation (4).
  • the data to be recorded F org_i (x) and the data to be recorded F org_j (x) are considered to belong to the same group.
  • the data to be recorded F org_i (x) and the data to be recorded F org_j (x) are considered to be data having similar shapes (distribution of values on a surface such as a sphere).
  • a group will be formed consisting of recording target data whose SAD between the recording target data, such as the recording target data F org_i (x), is below the threshold.
  • the SSD between a predetermined piece of data to be recorded F org — i (x) and another piece of data to be recorded F org — j (x) can be obtained by the following formula (5).
  • SSD mean square error
  • SAD mean absolute error
  • each record target data belonging to a group are determined by the local distribution of absolute error and squared error of the values at each position (grid) on the spherical surface of the record target data relative to the record target data that represents the group (hereinafter also referred to as representative data).
  • representative data representing a group is determined based on all of the recording target data belonging to that group.
  • the representative data may be a single piece of recording target data selected by any method from all of the recording target data, such as selecting the median, or it may be calculated from several pieces of recording target data, such as the average value of all of the recording target data, or it may be predetermined.
  • the average or sum of the errors at the same position for all recording target data is below a predetermined threshold, that position can be said to be a part with a similar shape among all recording target data belonging to the group, and is therefore considered a common part.
  • the average or sum of the errors at the same position is greater than a predetermined threshold, the shape of each recording target data at that position is different, and it is therefore considered a unique part.
  • each position (grid) will be a common part or a unique part
  • the data to be recorded is separated into common part data and unique part data, and each of these pieces of data is modeled.
  • the values at each position (grid) in areas on a surface such as a sphere that are not considered to be common parts, i.e., areas considered to be unique parts are set to 0 or similar.
  • the values at positions considered to be common parts are set to 0 or similar.
  • errors such as absolute error or squared error at each position (grid) may be calculated between the recording target data, and the common parts and unique parts may be determined based on the calculation results.
  • the common and unique parts are determined by performing threshold processing on the average or sum of the errors for each position (grid) calculated for all combinations of the two recording target data.
  • all recording target data belonging to a group may be modeled first, and the common and unique parts may be determined based on the modeling results.
  • each piece of record data is modeled using a vMF distribution or Kent distribution, and a mixture model for each piece of record data is generated. Then, for each model (distribution function) that makes up these mixture models, the distance between a given mixture model and other mixture models is calculated, the similarity between the models is determined according to the distance for each model, and the common and unique parts are determined based on the results of this determination.
  • models with close distribution centers can be said to have similar shapes, so if there are models with close distribution centers among the mixture models of all recorded data, those models are said to represent the common parts.
  • a model that is determined to be a common part is one that is close to the models that make up the mixture model of other record target data, i.e., one whose distribution center is close, for example.
  • the recording data to be grouped may not only be data arranged in one dimension, such as the frequency direction or time direction, but may also be data arranged in multiple dimensions.
  • the directional data for each frequency prepared for each sound source type may be used as the data to be recorded and grouped.
  • the data to be recorded is directional data arranged in each direction in two dimensions: the dimension of sound source type and the dimension of frequency.
  • a group consisting of data to be recorded within an area surrounded by frame W11, for example, is considered to be one group.
  • one group contains directional data of adjacent frequencies for all sound source types.
  • FIGS. 11 and 12 An example of a data format, that is, an example of syntax, when a plurality of pieces of data to be recorded are grouped and recorded or transmitted is shown in FIGS. 11 and 12.
  • FIG. 11 An example of a data format, that is, an example of syntax, when a plurality of pieces of data to be recorded are grouped and recorded or transmitted is shown in FIGS. 11 and 12.
  • FIG. 11 An example of a data format, that is, an example of syntax, when a plurality of pieces of data to be recorded are grouped and recorded or transmitted is shown in FIGS. 11 and 12.
  • the directivity data (acoustic directivity data) for each frequency bin is the data to be recorded, and the common and unique parts of each piece of data to be recorded are modeled using at least one of the vMF distribution and the Kent distribution.
  • one or more consecutive frequency bins are considered to be one band, and one band is considered to be one group.
  • Figure 11 shows an example of syntax when recording or transmitting data to be recorded using the individual recording method.
  • the portion of the overall data indicated by W41 at the top of the figure stores information for identifying which frequency bin belongs to which group (band), and information (data) for obtaining a mixture model (common mixture model) of the common parts of each group.
  • the portion indicated by W41 will also be referred to specifically as the common parameter recording section W41.
  • the portion of the overall data shown in Figure 11 indicated by W42 at the bottom stores information (data) for obtaining a mixture model of the unique portion of each piece of data to be recorded.
  • the portion indicated by W42 will also be referred to specifically as the unique parameter recording section W42.
  • the common parameter recording section W41 contains the band count "band_count,” which is information indicating the number of groups, i.e., the number of bands corresponding to a group, obtained as a result of grouping all data to be recorded.
  • the common parameter recording section W41 contains, for each band, frequency bin information "bin_range_per_band[i_band]” indicating the frequency bins included in the band, and a mixture count “mix_count[i_band]” indicating the number of models (distribution functions) that make up the common mixture model for the common part of the bands (groups).
  • the frequency bin information "bin_range_per_band[i_band]" indicates the highest frequency bin among the frequency bins included in the band, and it is possible to identify which frequency bins are included in the band from this frequency bin information.
  • the common parameter recording unit W41 stores model parameters, etc. for each model that makes up the common mixture model for each band, equal to the number of mixtures "mix_count[i_band]".
  • the model weight "weight[i_band][i_mix]”, the concentration "kappa[i_band][i_mix]", the azimuth angle of vector ⁇ (mean vector) "gamma1[i_band][i_mix][ ⁇ ]", the elevation angle of vector ⁇ "gamma1[i_band][i_mix][ ⁇ ]", and the selection flag "dist_flag" are stored.
  • the weight "weight[i_band][i_mix]” corresponds to the weight w k in the above-mentioned formula (3).
  • the concentration degree "kappa[i_band][i_mix]”, the azimuth angle “gamma1[i_band][i_mix][ ⁇ ]", and the elevation angle "gamma1[i_band][i_mix][ ⁇ ]" correspond to the concentration degree ⁇ and the azimuth angle and elevation angle of the vector ⁇ in the above-mentioned formula (1).
  • the parameter ⁇ k in equation (3) is a set of parameters consisting of the concentration “kappa[i_band][i_mix]”, the azimuth angle “gamma1[i_band][i_mix][ ⁇ ]”, and the elevation angle “gamma1[i_band][i_mix][ ⁇ ] ” .
  • the selection flag "dist_flag” is flag information that indicates whether the distribution function used as a model is a Kent distribution or a vMF distribution.
  • a value of "1" for the selection flag "dist_flag” indicates that the model is a Kent distribution, and a value of "0" for the selection flag "dist_flag” indicates that the model is a vMF distribution.
  • the vMF distribution can be expressed by the concentration factor ⁇ and the azimuth and elevation angles of the vector ⁇ .
  • the Kent distribution can be expressed by the concentration factor ⁇ , the azimuth and elevation angles of the vector ⁇ , the ellipticity ⁇ , the major axis vector ⁇ 2 , and the minor axis vector ⁇ 3 , similar to those in the vMF distribution.
  • the major axis vector ⁇ 2 and the minor axis vector ⁇ 3 are expressed as azimuth angles and elevation angles.
  • the specific parameter recording section W42 stores the number of all frequency bins, i.e., the number of frequency points "bin_count,” which indicates the total number of data to be recorded.
  • the intrinsic parameter recording unit W42 stores the scale factor "scale_factor[i_bin]", offset value “offset[i_bin]”, and sub-mixing number “mix_count_bin[i_bin]", which is the number of models (distribution functions) that make up the mixture model of the intrinsic part, for the number of frequency points "bin_count”, i.e., the number of data to be recorded (frequency bins).
  • scale factor "scale_factor[i_bin]” and offset value “offset[i_bin]” correspond to the scale factor S j and offset value C j in the above equation (3), and the sub-mixing number "mix_count_bin[i_bin]” corresponds to K(j) in equation (3).
  • the inherent parameter recording unit W42 stores model parameters, etc. for each model that makes up the mixture model of the inherent part for all data to be recorded, in the number equal to the sub-mixture count "mix_count_bin[i_bin]".
  • the model weight "weight[i_bin][i_mix]”, the concentration "kappa[i_bin][i_mix]", the azimuth angle of vector ⁇ (mean vector) "gamma1[i_bin][i_mix][ ⁇ ]", the elevation angle of vector ⁇ "gamma1[i_bin][i_mix][ ⁇ ]", and the selection flag "dist_flag[i_bin][i_mix]" are stored.
  • the weight "weight[i_bin][i_mix]” corresponds to the weight w jk in the above-mentioned formula (3). Furthermore, the concentration degree “kappa[i_bin][i_mix]” indicates the concentration degree ⁇ of the vMF distribution or the Kent distribution, and the vector consisting of the azimuth angle "gamma1[i_bin][i_mix][ ⁇ ]” and the elevation angle "gamma1[i_bin][i_mix][ ⁇ ]” is the vector ⁇ (mean vector) of the vMF distribution or the Kent distribution.
  • the parameter ⁇ jk in the above equation (3) is a set of parameters consisting of the concentration degree “kappa[i_bin][i_mix]”, the azimuth angle “gamma1[i_bin][i_mix][ ⁇ ]”, and the elevation angle “gamma1[i_bin][i_mix][ ⁇ ] ” .
  • the index [i_mix] recorded in the specific parameter recording unit W42 is an index indicating the model that constitutes the specific part mixed model, and is different from the index [i_mix] of the model that constitutes the common mixed model that is recorded in the common parameter recording unit W41.
  • the selection flag "dist_flag[i_bin][i_mix]" is flag information that indicates whether the distribution function used as the model constituting the mixture model of the eigenpart is a Kent distribution or a vMF distribution.
  • a value of "1" for the selection flag "dist_flag[i_bin][i_mix]” indicates that the model is a Kent distribution
  • a value of "0" for the selection flag "dist_flag[i_bin][i_mix]” indicates that the model is a vMF distribution.
  • the major axis vector ⁇ 2 and the minor axis vector ⁇ 3 are expressed by azimuth angle and elevation angle.
  • Figure 12 shows an example of syntax when recording or transmitting data to be recorded using the individual specification method.
  • the portion of the entire data shown at the top, W51 is the same portion as the common parameter recording section W41 shown in Figure 11 (hereinafter also referred to as the common parameter recording section W51).
  • the portion of the overall data indicated by W52 in the approximate center of the figure is the portion where candidate parameters are stored (hereinafter also referred to as the candidate parameter recording section W52).
  • the portion of the overall data indicated by W53 in the lower part of the figure is the portion corresponding to the specific parameter recording section W42 shown in Figure 11 (hereinafter also referred to as the specific parameter recording section W53).
  • the common parameter recording unit W51 is the same as the common parameter recording unit W41 in Figure 11, and stores model parameters of the common parts, etc.
  • the candidate parameter recording section W52 stores the sub-mix number "mix_count[i_band]," which indicates the number of candidate parameters prepared in advance.
  • the sub-mix number "mix_count[i_band]" corresponds to the number of candidate parameters K(A) in the example described with reference to Figure 8.
  • the candidate parameter recording section W52 stores model parameters (candidate parameters) of candidate models (hereinafter also referred to as candidate models) that constitute the mixture model of the specific part, for the number of sub-mixtures "mix_count[i_band]".
  • the candidate parameters stored include the model weight "weight[i_band][i_mix]", the concentration "kappa[i_band][i_mix]", the azimuth angle of vector ⁇ (mean vector) "gamma1[i_band][i_mix][ ⁇ ]", the elevation angle of vector ⁇ "gamma1[i_band][i_mix][ ⁇ ]", and the selection flag "dist_flag[i_band][i_mix]".
  • the selection flag "dist_flag[i_band][i_mix]" is flag information that indicates whether the distribution function used as a candidate model is a Kent distribution or a vMF distribution.
  • a value of "1" for the selection flag "dist_flag[i_band][i_mix]” indicates that the candidate model is a Kent distribution
  • a value of "0" for the selection flag "dist_flag[i_band][i_mix]” indicates that the candidate model is a vMF distribution.
  • distal_flag[i_band][i_mix] When the value of the selection flag for the candidate model, "dist_flag[i_band][i_mix],” is "1,” the following candidate parameters are stored for obtaining the candidate model: the ellipticity, "beta[i_band][i_mix],” the azimuth angle, “gamma2[i_band][i_mix][ ⁇ ],” and elevation angle, “gamma2[i_band][i_mix][ ⁇ ],” of the major axis vector ⁇ 2 ; and the azimuth angle, “gamma3[i_band][i_mix][ ⁇ ],” and elevation angle, “gamma3[i_band][i_mix][ ⁇ ],” of the minor axis vector ⁇ 3.
  • a set of parameters such as the weight "weight[i_band][i_mix]” and concentration "kappa[i_band][i_mix]" of the candidate model corresponds to the candidate parameters ⁇ j and w j in the example described with reference to FIG.
  • the unique parameter recording section W53 stores the frequency point count "bin_count,” which indicates the total number of data to be recorded.
  • the scale factor "scale_factor[i_bin]", offset value “offset[i_bin]”, and sub-mixing number "mix_count_bin[i_bin]" which is the number of models (distribution functions) that make up the mixture model of the characteristic part, are stored for the number of frequency points "bin_count”.
  • the sub-mixing number "mix_count_bin[i_bin]" corresponds to K(1), etc., described with reference to FIG. 8.
  • the specific parameter recording unit W53 stores indexes "index_mix_sub[i_bin][i_mix]" equal to the number of sub-mixes of the data to be recorded "mix_count_bin[i_bin]" for each of the data to be recorded (frequency bins) whose number is indicated by the frequency point number "bin_count”.
  • index “index_mix_sub[i_bin][i_mix]” corresponds to the index indicating the candidate parameters such as index i11 , which was described with reference to Fig. 8.
  • the index [i_mix] in the index "index_mix_sub[i_bin][i_mix]" is an index indicating a model that constitutes a mixture model of the inherent part of the data to be recorded.
  • index “index_mix_sub[i_bin][i_mix]” is index information that indicates one of the candidate parameters stored in the candidate parameter recording unit W52.
  • the index “index_mix_sub[i_bin][i_mix]” specifies, from among the candidate parameters stored in the candidate parameter recording unit W52, the parameter to be used as the model parameter for the model that constitutes the mixture model of the unique portion of the data to be recorded.
  • FIG. 13 is a diagram showing an example of the configuration of an embodiment of a server to which the present technology is applied.
  • the server 11 shown in Figure 13 is an information processing device, such as a computer, that functions as an encoding device for distributing content.
  • data for playing content may consist of audio data for one or more objects (audio objects) and directional data that indicates the directionality, or directional characteristics, of the sound source (object), prepared for each object, or more specifically, for each sound source type.
  • data for playing content may also include video data or haptic data corresponding to the audio data.
  • the server 11 has a parameter generation unit 21, a parameter encoding unit 22, an audio data encoding unit 23, and an output unit 24.
  • Directivity data is supplied to the parameter generation unit 21 as data to be recorded for each object (sound source type).
  • the directional data is assumed to be data prepared for each frequency (frequency band), i.e., for each frequency bin, consisting of directional gain at each position on a sphere centered on the object.
  • the directional data is discrete data distributed on the spherical surface, having coordinates indicating the position on the spherical surface and the directional gain value at that position.
  • the positions on the sphere where the directional data has a directional gain value will also be referred to as data points.
  • the parameter generation unit 21 groups the multiple pieces of directional data provided, and generates model parameters for the common parts (common part data) and model parameters for the unique parts (unique part data) based on the grouping results, and provides these to the parameter encoding unit 22.
  • the parameter generation unit 21 has a group determination unit 31, a modeling unit 32, and a judgment unit 33.
  • the group determination unit 31 groups all directional data to be transmitted (recorded) so that each piece of directional data belongs to one or more groups.
  • the determination unit 33 determines whether each part (each area) of the directional data is a common part or a unique part based on the directional data belonging to the group.
  • the parameter encoding unit 22 encodes the model parameters, etc. supplied from the parameter generation unit 21, and supplies the resulting encoded directivity data to the output unit 24.
  • the audio data encoding unit 23 encodes the audio data of each object provided and supplies the resulting encoded audio data to the output unit 24.
  • the output unit 24 multiplexes the encoded directivity data supplied from the parameter encoding unit 22 and the encoded audio data supplied from the audio data encoding unit 23 to generate and output a bitstream.
  • the encoded directional data and encoded audio data are output simultaneously, but the encoded directional data and encoded audio data may be generated separately and output at different times. Furthermore, the encoded directional data and encoded audio data may be generated by different devices.
  • step S11 the group determination unit 31 of the parameter generation unit 21 performs grouping (grouping) based on the degree of similarity of the directional data of the multiple objects supplied.
  • the group determination unit 31 calculates, as an evaluation index, a correlation value such as SAD or SSD between the two directional data for each combination of two directional data out of the omnidirectional data.
  • the calculation of the evaluation index may be performed for all combinations of two directional data, or may be performed only for necessary combinations.
  • the group determination unit 31 performs grouping so that each piece of directional data belongs to one or more groups based on the calculation results of the evaluation index for each combination. At this time, directional data of combinations whose evaluation index is below a predetermined threshold are made to belong to the same group.
  • step S12 the parameter generation unit 21 generates model parameters for the common and unique parts of each directional data for each group.
  • the determination unit 33 determines representative data that represents a group based on all the directional data belonging to that group, and calculates errors such as absolute error and squared error at each position (grid) between the representative data and the directional data for each directional data belonging to the group.
  • the determination unit 33 determines whether those positions should be treated as common parts or unique parts. In this case, for example, if the average or sum of the errors at the same position for the omnidirectional data is below a predetermined threshold, that position is treated as a common part, and positions that are not treated as common parts are treated as unique parts.
  • errors such as absolute error or squared error at each position (grid) may be calculated between the directional data belonging to the group, and the common and unique parts may be determined based on the calculation results.
  • the modeling unit 32 performs modeling for each piece of directional data belonging to a group based on the results of determining the common and unique parts and the directional data itself.
  • the modeling unit 32 extracts data from the common area of the representative data of the group, and models the representative data by expressing (representing) the common area of the representative data with a mixed model consisting of one or more models (distribution functions), such as the vMF distribution or the Kent distribution.
  • a mixed model consisting of one or more models (distribution functions), such as the vMF distribution or the Kent distribution.
  • the modeling unit 32 extracts data of the unique portion of the directional data for each piece of directional data belonging to a group, and models the unique portion by representing the unique portion of the directional data as a mixed model consisting of one or more models (distribution functions), such as a vMF distribution or a Kent distribution.
  • model parameters of the mixture model that represent the eigenpart of the directional data For example, the parameters ⁇ j1 to ⁇ jK(j) and weights w j1 to w jK(j) in the above equation (3) are obtained as the model parameters of the mixture model of the eigenpart.
  • the modeling unit 32 calculates (generates) a scale factor and an offset value for each piece of directivity data belonging to a group based on the directivity data, the model parameters of the common part, and the model parameters of the unique part.
  • the directivity data itself is used as Fj (x) in the above equation (3) to determine the scale factor Sj and the offset value Cj .
  • model parameters for the common and unique parts may be specified by the content creator, etc.
  • the common and unique parts may be determined after modeling.
  • the modeling unit 32 models the directional data by representing the omnidirectional data belonging to the group as a mixture model consisting of one or more models (distribution functions), such as a vMF distribution or a Kent distribution.
  • the model parameters of the mixture model of the directional data i.e., the weights and model parameters of each model, may be specified by the content creator, etc.
  • the determination unit 33 calculates the distance between the models constituting the mixed model of different directional data as the similarity for each model, based on the models (distribution functions) constituting the mixed model obtained for each directional data. In other words, the similarity between one model constituting the mixed model of specified directional data and one model constituting the mixed model of other directional data is calculated.
  • the determination unit 33 determines (determines) for each model that constitutes the mixed model for each piece of directional data whether that model represents the common part or the unique part.
  • model of interest As an example, of the models that make up a mixture model of specified directional data, one model of interest will be referred to as the model of interest, and of the models that make up the mixture model of other directional data, models whose similarity to the model of interest is equal to or greater than a threshold will be referred to as similar models.
  • the attention model is considered to be a model that represents the common part.
  • the attention model is considered to be a model that represents the unique part.
  • the modeling unit 32 generates (calculates) model parameters of a common mixed model that represents the common part based on the model that is the common part of all the directional data belonging to the group, or more specifically, the model parameters related to the model. For example, one model parameter that represents the model parameters of the model of the common part of each directional data, or the average value of the model parameters of the model of the common part of each directional data, is used as the model parameter of the common part of the group.
  • the representative model parameter may be, for example, the median value or one specified by a specifying operation, etc.
  • modeling unit 32 treats the model parameters of the model that are considered to be the inherent part of each piece of directivity data as the model parameters of the inherent part.
  • the modeling unit 32 calculates (generates) a scale factor and offset value for each piece of directional data belonging to the group based on the directional data, the model parameters of the common parts, and the model parameters of the unique parts.
  • multiple pieces of directional data belonging to a group may be further grouped to form subgroups.
  • the group determination unit 31 performs the same processing as when determining the groups described above, and groups the directional data belonging to a group so that it belongs to one or more subgroups as appropriate. Note that there may be directional data that does not belong to any subgroup.
  • the parameter generation unit 21 further groups the data of the unique parts of the directional data belonging to a group, and the groups formed as a result are treated as subgroups.
  • the results of modeling the directional data are obtained (generated) as model parameters of the common parts of the groups, model parameters of the common parts of the subgroups, model parameters of the unique parts of each directional data, and scale factors and offset values for each directional data.
  • the parameter generation unit 21 supplies the parameter encoding unit 22 with model parameters for the common parts of the group, model parameters for the unique parts of each directional data, and scale factors and offset values for each directional data as the modeling results of the directional data.
  • the parameter generation unit 21 prepares model parameters (candidate parameters) of candidate models of the mixture model of the specific parts.
  • each candidate parameter is assigned an index that allows the candidate parameter to be uniquely identified.
  • the candidate parameters can be prepared in advance.
  • the parameter generation unit 21 selects, for each model that constitutes the mixture model of the inherent part of the directional data, one candidate model that is most similar to that model from among the candidate models.
  • one candidate parameter that is most similar to the model parameter of the model of the inherent part is selected.
  • the degree of similarity to the candidate model is determined by the distance between the models, for example, the proximity of the distribution center positions.
  • the parameter generation unit 21 uses an index (hereinafter also referred to as a model index) indicating the candidate parameters of the candidate models selected for each model that constitutes the mixture model of the eigenpart as information (eigenpart data) for obtaining a model of the eigenpart by restoration.
  • an index hereinafter also referred to as a model index
  • the parameter generation unit 21 supplies the parameter encoding unit 22 with the model parameters of the common parts of the group, the model index of each model of the unique parts of each directional data, and the scale factor and offset value of each directional data as the modeling results of the directional data.
  • candidate parameters are also supplied to the parameter encoding unit 22 as needed, and the candidate parameters are stored in the bitstream (encoded directivity data).
  • the scale factor and offset value may be calculated using the candidate parameters, model parameters of the common part, directivity data, etc.
  • the parameter generation unit 21 prepares one or more combinations of candidate parameters (candidate models) for obtaining a mixture model, and the value of flag information indicating each of these combinations is determined in advance.
  • a combination of candidate parameters (candidate models) will also be referred to specifically as a candidate combination
  • a mixture model obtained from each candidate parameter constituting a candidate combination will also be referred to as a candidate mixture model.
  • the parameter generation unit 21 selects, from among the candidate mixture models, one candidate mixture model that is most similar to the mixture model for the specific part of the directional data. In other words, a candidate combination of one candidate mixture model that is most similar to the model parameters of the mixture model for the specific part is selected.
  • the parameter generation unit 21 uses flag information having a value indicating the candidate combination selected for the mixture model of the eigenpart as information (eigenpart data) for obtaining the mixture model of the eigenpart by restoration.
  • the parameter generation unit 21 supplies the parameter encoding unit 22 with the model parameters of the common parts of the group, flag information of the unique parts of each piece of directional data, and the scale factor and offset value of each piece of directional data as the modeling results of the directional data.
  • candidate parameters are also supplied to the parameter encoding unit 22 as needed, and the candidate parameters are stored in the bitstream. Note that even in the combination specification method, after a candidate mixture model (candidate combination) is selected, the scale factor and offset value may be calculated using the candidate combination, model parameters of the common part, directivity data, etc.
  • Which of the individual recording method, individual designation method, or combination designation method is used when transmitting directional data may be specified, for example, by the content creator, or may be determined in advance.
  • step S13 the parameter encoding unit 22 encodes the model parameters etc. (the modeling results of the directional data) supplied from the parameter generation unit 21 using a predetermined encoding method, and supplies the resulting encoded directional data to the output unit 24.
  • the data shown in Figures 11 and 12, for example, is obtained as encoded directional data.
  • the encoding method may be any encoding method, such as arithmetic coding or Huffman coding. Similarly, even when encoding is described below as being performed using a specific encoding method, any encoding method may be used.
  • step S14 the audio data encoding unit 23 encodes the audio data of each supplied object and supplies the resulting encoded audio data to the output unit 24.
  • the audio data encoding unit 23 or parameter encoding unit 22 also encodes the metadata for each object (audio data) and supplies the resulting encoded metadata to the output unit 24.
  • Metadata may include object position information (which may be expressed in x-y-z format or polar coordinate format, for example) indicating the absolute or relative position of the object in three-dimensional space, object direction information indicating the orientation of the object in three-dimensional space, sound source type information indicating the type of object (sound source), priority information indicating the priority of the object, and spread information indicating the extent of the object's spread.
  • object position information which may be expressed in x-y-z format or polar coordinate format, for example
  • object direction information indicating the orientation of the object in three-dimensional space
  • sound source type information indicating the type of object (sound source)
  • priority information indicating the priority of the object
  • spread information indicating the extent of the object's spread.
  • the priority indicated by the priority information may be a value between 0 and 7, with 7 being set for the object with the highest priority, or a predetermined number of spread vectors may be used as spread information indicating the extent of the object's spread.
  • data other than those described above may also be included in
  • step S15 the output unit 24 multiplexes the encoding directivity data supplied from the parameter encoding unit 22 and the encoded audio data supplied from the audio data encoding unit 23 to generate and output a bitstream. Note that if there is encoding metadata, that encoding metadata is also stored in the bitstream.
  • the server 11 groups multiple pieces of directional data as data to be recorded, and outputs a bitstream including model parameters for the common parts and model parameters for the unique parts.
  • the amount of data required for recording can be reduced and recording efficiency (transmission efficiency) can be improved.
  • recording (transmitting) model parameters, etc. for each directional data for the unique part it is possible to obtain data that is close to the original directional data when restoring, i.e., directional data with higher accuracy.
  • An information processing device that functions as a client that acquires the bitstream output from the server 11 and generates output audio data for reproducing the sound of the content may be configured, for example, as shown in Fig. 15.
  • the information processing device 61 shown in Fig. 15 may be, for example, a personal computer, a smartphone, a tablet, a head-mounted display, or a game device.
  • the information processing device 61 has an acquisition unit 71, a directional data decoding unit 72, an audio data decoding unit 73, and a rendering processing unit 74.
  • the acquisition unit 71 acquires (receives) the bitstream output from the server 11 and extracts encoded directional data and encoded audio data from the bitstream.
  • the acquisition unit 71 supplies the encoded directional data to the directional data decoding unit 72 and supplies the encoded audio data to the audio data decoding unit 73.
  • the directional data decoding unit 72 decodes the encoded directional data supplied from the acquisition unit 71 and restores (calculates) the directional data.
  • the directional data decoding unit 72 has an unpacking unit 81, a directional data restoration unit 82, and a frequency interpolation processing unit 83.
  • the unpacking unit 81 unpacks and decodes the encoded directional data supplied from the acquisition unit 71 to extract data such as model parameters contained in the encoded directional data, and supplies this data to the directional data restoration unit 82.
  • the directivity data restoration unit 82 restores (calculates) directivity data based on the data supplied from the unpacking unit 81 and supplies it to the frequency interpolation processing unit 83.
  • the directivity data restoration unit 82 restores the directivity data based on the model parameters of the common parts (common part data), the model parameters of the unique parts (unique part data), the scale factor, the offset value, etc.
  • the frequency interpolation processing unit 83 performs interpolation processing in the frequency direction on the directivity data supplied from the directivity data restoration unit 82, and supplies the resulting directivity data to the rendering processing unit 74.
  • the interpolation processing in the frequency direction may be, for example, linear interpolation using a straight line, or nonlinear interpolation using a spline curve or a cubic function.
  • the interpolation processing in the frequency direction may also be a combination of linear interpolation and nonlinear interpolation.
  • interpolation may be performed using a line or function other than those described above.
  • the audio data decoding unit 73 decodes the encoded audio data supplied from the acquisition unit 71, and supplies the resulting audio data for each object to the rendering processing unit 74.
  • the audio data decoding unit 73 or the unpacking unit 81 decodes the encoded metadata supplied from the acquisition unit 71 and supplies the resulting metadata to the rendering processing unit 74.
  • the rendering processing unit 74 generates output audio data based on the directivity data supplied from the frequency interpolation processing unit 83 and the audio data supplied from the audio data decoding unit 73. In other words, the rendering processing unit 74 performs rendering processing using at least the directivity data and the audio data to generate output audio data.
  • the rendering processing unit 74 has a directivity data storage unit 84, an HRTF data storage unit 85, a time interpolation processing unit 86, a directivity convolution unit 87, and an HRTF convolution unit 88.
  • the directivity data storage unit 84 and the HRTF data storage unit 85 are supplied with viewpoint position information, listener direction information, object position information, and object direction information in accordance with user specifications, measurements by sensors, etc.
  • viewpoint position information is information that indicates the viewpoint position (listening position) in three-dimensional space of the user (listener) viewing the content
  • listener direction information is information that indicates the direction of the user's face in three-dimensional space viewing the content.
  • bitstream contains encoded metadata
  • object position information and object direction information are extracted from the metadata obtained by decoding the encoded metadata and supplied to the directionality data storage unit 84 and the HRTF data storage unit 85.
  • the directivity data storage unit 84 is also supplied with sound source type information obtained by extracting it from metadata, and the HRTF data storage unit 85 is supplied with a user ID indicating the user viewing the content as appropriate.
  • the directivity data storage unit 84 stores the directivity data supplied from the frequency interpolation processing unit 83. Furthermore, the directivity data storage unit 84 reads out, from the stored directivity data, directivity data corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and sound source type information, and supplies this to the time interpolation processing unit 86.
  • the HRTF data storage unit 85 stores HRTFs for each user identified by a user ID, for each of multiple directions as seen from the user (listener).
  • the HRTF data storage unit 85 reads out the HRTFs stored therein that correspond to the provided viewpoint position information, listener direction information, object position information, object direction information, and user ID, and supplies them to the HRTF convolution unit 88.
  • the time interpolation processing unit 86 performs time-direction interpolation processing on the directivity data supplied from the directivity data storage unit 84, and supplies the resulting directivity data to the directivity convolution unit 87.
  • the time-direction interpolation processing may be, for example, linear interpolation using a straight line, or nonlinear interpolation using a spline curve or a cubic function.
  • the time-direction interpolation processing may also be a combination of linear and nonlinear interpolation.
  • interpolation may be performed using a function other than the straight line or function described above.
  • the directivity convolution unit 87 convolves the audio data supplied from the audio data decoding unit 73 with the directivity data supplied from the time interpolation processing unit 86, and supplies the resulting audio data to the HRTF convolution unit 88. By convolving the directivity data, the directional characteristics of the object (sound source) are added to the audio data.
  • the HRTF convolution unit 88 convolves the audio data supplied from the directivity convolution unit 87, i.e., the audio data convolved with the directivity data, with the HRTF supplied from the HRTF data storage unit 85, and outputs the resulting audio data as output audio data.
  • HRTF convolution makes it possible to obtain output audio data in which the sound of an object is localized to the object's position as seen by the user (listener).
  • HRTF convolution may or may not be performed depending on the type and layout of the output audio data destination device.
  • HRTF convolution is performed if the output audio data destination device is a two-channel device such as earphones, headphones, hearing aids, or sound amplifiers, but HRTF convolution may not be performed if the output device is a group of speakers with M channels (M > 2).
  • M M channels
  • HRTF convolution may be performed when the output device is an HMD (Head Mounted Display) used for AR/VR, or may be performed depending on the positional relationship between a user walking around in a virtual space and a virtual sound source (audio object).
  • HMD Head Mounted Display
  • HRTF convolution processing is performed as the rendering process for audio data. More specifically, the convolution of directional data can also be considered part of the rendering process. However, this is not limited to this, and rendering processing may also use VBAP (Vector Based Amplitude Panning), BRIR (Binaural Room Impulse Response), HOA (Higher Order Ambisonics), etc.
  • VBAP processing may be either 2D VBAP or 3D VBAP, or a combination of both. Note that if the output destination of the audio data is not a two-channel device such as headphones, earphones, hearing aids, or sound amplifiers, but rather an M-channel (M>2) speaker, for example, HRTF convolution processing does not need to be performed.
  • the audio data of the object is convolved with directional data, and then VBAP or the like is performed to generate output audio data.
  • the HRTF convolution unit 88 may convert, for example, M-channel (M>2) audio data into two-channel audio data and output it by convolving, for example, HRTF or BRIR.
  • M-channel M>2
  • HRTF BRIR
  • the metadata of the object (audio data) is used during rendering processing.
  • the directional data decoding unit 72, the audio data decoding unit 73, and the rendering processing unit 74 may be provided in different devices.
  • This directional data generation process begins when the acquisition unit 71 receives (acquires) the bitstream transmitted from the server 11 and supplies the encoded directional data extracted from the bitstream to the unpacking unit 81.
  • step S81 the unpacking unit 81 unpacks and decodes the encoding directional data supplied from the acquisition unit 71.
  • the unpacking unit 81 decodes the encoded directional data using a decoding method that corresponds to the encoding method used by the parameter encoding unit 22, and supplies the resulting common part model parameters and the like to the directional data restoration unit 82.
  • step S82 the directivity data restoration unit 82 restores (generates) directivity data based on the data (information) supplied from the unpacking unit 81 and supplies it to the frequency interpolation processing unit 83.
  • the directional data restoration unit 82 restores the directional data by calculating the above-mentioned equation (3) based on the model parameters of the common parts of the group, the model parameters of the unique parts of the directional data, and the scale factor and offset value of the directional data.
  • the directivity data restoration unit 82 acquires, for each directivity data, candidate parameters indicated by the model index of each model in the unique part based on those model indexes.
  • the candidate parameters may be included in the encoded directivity data, or may be acquired in advance from the server 11 or another device and stored in the directivity data restoration unit 82.
  • the directional data restoration unit 82 restores the directional data by performing a calculation similar to equation (3) above based on the model parameters of the common parts of the groups, the candidate parameters of the unique parts of the directional data, and the scale factor and offset value of the directional data.
  • the directional data restoration unit 82 acquires candidate parameters for obtaining a mixture model of the unique part for each directional data based on the value of the flag information for that unique part. In other words, the directional data restoration unit 82 identifies a candidate combination from the value of the flag information, and acquires the candidate parameters that make up that candidate combination.
  • the candidate parameters that make up the candidate combinations may be included in the encoded directivity data, as in the individual specification method, or may be obtained in advance from the server 11 or another device and stored in the directivity data restoration unit 82.
  • the directional data restoration unit 82 restores the directional data by performing a calculation similar to equation (3) above based on the model parameters of the common parts of the groups, the candidate parameters of the unique parts of the directional data, and the scale factor and offset value of the directional data.
  • the directivity data restoration unit 82 restores the directivity data based on the model parameters for the common parts of the groups, the model parameters for the common parts of the subgroups, the model parameters for the unique parts, the scale factor, and the offset value.
  • model parameters of the common and unique parts may not be used, some model parameters may be replaced with other model parameters, or model parameters used for restoration may be added. Details of such deletion (non-use), addition, and replacement of model parameters will be described later.
  • step S83 the frequency interpolation processing unit 83 performs interpolation processing in the frequency direction on the directivity data supplied from the directivity data restoration unit 82, and supplies the directivity data obtained by the interpolation processing to the directivity data storage unit 84 for storage.
  • the audio data of an object is frequency domain data
  • the audio data has frequency component values for each of multiple frequency bins.
  • directional data for the required frequency bins is generated (calculated) by interpolation processing so that directional data is generated for all frequency bins in which the audio data has frequency component values.
  • the directivity data generation process ends.
  • the information processing device 61 generates directional data from the encoded directional data. By doing this, on the decoding side, more accurate directional data can be obtained from a small amount of encoded directional data. In other words, it is possible to improve recording efficiency while obtaining more accurate data (directional data) during restoration.
  • step S141 the audio data decoding unit 73 decodes the encoded audio data supplied from the acquisition unit 71 and supplies the resulting audio data to the directional convolution unit 87. For example, frequency domain audio data is obtained by the decoding.
  • the audio data decoding unit 73 decodes the encoded metadata and supplies the object position information, object direction information, and sound source type information contained in the resulting metadata to the directivity data storage unit 84 and HRTF data storage unit 85 as appropriate.
  • the directivity data storage unit 84 supplies directivity data corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and sound source type information to the time interpolation processing unit 86.
  • the directivity data storage unit 84 identifies the relationship between the object and the user's viewpoint position (listening position) in three-dimensional space from viewpoint position information, listener direction information, object position information, and object direction information, and identifies a data point according to the identification result.
  • a data point here is a position on a sphere where the directivity data has a directional gain value.
  • the viewpoint direction the position on the surface of the sphere in the direction of the viewpoint as viewed from the center of the sphere on which the data points of the directional data are located is identified as the target data point position. Note that there may be no actual data point at the target data point position.
  • the directivity data storage unit 84 extracts, for each frequency bin, the directivity gain at multiple data points near the identified target data point position from the directivity data of the sound source type (object) indicated by the sound source type information.
  • the directivity data storage unit 84 then supplies data consisting of the directivity gain for each frequency bin at the extracted multiple data points to the time interpolation processing unit 86 as directivity data according to the relationship between the position and direction of the object and the user (listener).
  • the HRTF data storage unit 85 supplies the HRTF corresponding to the supplied viewpoint position information, listener direction information, object position information, object direction information, and user ID to the HRTF convolution unit 88.
  • the HRTF data storage unit 85 identifies the relative direction of the object as seen by the listener (user) as the object direction based on the viewpoint position information, listener direction information, object position information, and object direction information. The HRTF data storage unit 85 then supplies the HRTF for the direction corresponding to the object direction, out of the HRTFs for each direction corresponding to the user ID, to the HRTF convolution unit 88.
  • the HRTF data storage unit 85 may supply parameters other than HRTFs, such as RIR (Room Impulse Response), BRIR, ITD (Interaural Time Difference), and IID (Interaural Intensity Difference), to the HRTF convolution unit 88.
  • RIR Room Impulse Response
  • BRIR Baseband Radio
  • ITD Interaural Time Difference
  • IID Interaural Intensity Difference
  • step S142 the time interpolation processing unit 86 performs time-direction interpolation processing on the directivity data supplied from the directivity data holding unit 84, and supplies the resulting directivity data to the directivity convolution unit 87.
  • the time interpolation processing unit 86 calculates the directional gain of each frequency bin at the target data point position described above by interpolation processing based on the directional gain of each frequency bin at multiple data points included in the directional data.
  • the directional gain at a new data point (target data point position) different from the original data point is calculated by interpolation processing.
  • the time interpolation processing unit 86 supplies data consisting of the directional gain of each frequency bin at the target data point position to the directional convolution unit 87 as directional data obtained by interpolation processing in the time direction.
  • step S143 the directivity convolution unit 87 convolves the audio data supplied from the audio data decoding unit 73 with the directivity data supplied from the time interpolation processing unit 86, and supplies the resulting audio data to the HRTF convolution unit 88.
  • step S144 the HRTF convolution unit 88 convolves the audio data supplied from the directivity convolution unit 87 with the HRTF supplied from the HRTF data storage unit 85, and outputs the resulting output audio data.
  • the HRTF convolution unit 88 may also convolve RIR, BRIR, ITD, IID, etc. in addition to HRTF.
  • step S145 the information processing device 61 determines whether to end the processing.
  • step S145 For example, if encoded audio data for a new frame is supplied from the acquisition unit 71 to the audio data decoding unit 73, it is determined in step S145 that processing should not end. On the other hand, if encoded audio data for a new frame is not supplied from the acquisition unit 71 to the audio data decoding unit 73 and output audio data for all frames of the content has been generated, it is determined in step S145 that processing should end.
  • step S145 If it is determined in step S145 that the processing is not yet to end, the process returns to step S141, and the above-described processing is repeated.
  • step S145 if it is determined in step S145 that the processing should be terminated, the information processing device 61 terminates the operation of each unit, and the output audio data generation processing ends.
  • the information processing device 61 selects appropriate directivity data and HRTFs, and convolves the directivity data and HRTFs into the audio data to produce output audio data. In this way, it is possible to achieve high-quality audio playback with a more realistic feel, taking into account the directional characteristics of the object (sound source) and the relationship between the object and the listener's position and orientation.
  • step S82 of the directionality data generation process described with reference to FIG. 16 the model parameters of the common part and the unique part are used to restore (generate) directionality data.
  • some model parameters of the model may not be used, some model parameters may be replaced with other model parameters, or other model parameters may be added to be used in the restoration.
  • the directivity data restoration unit 82 does not use a specific model parameter among the model parameters obtained from the encoded directivity data, but instead restores the directivity data using all model parameters other than that specific model parameter.
  • the directivity data restoration unit 82 restores the directivity data using model parameters obtained from the encoded directivity data and specified additional model parameters.
  • model parameter deletion non-use
  • addition, replacement, etc. may be performed based on, for example, the relationship between the position and orientation of the object and the user (listener) in three-dimensional space, the relationship between the speed and acceleration of the object and the user in three-dimensional space, and metadata such as object priority information and sound source type information.
  • model parameters may be deleted (not used), added, replaced, etc. based on, for example, the environment surrounding the object, the user's specification of model parameters (models), the computing power (computing resources) of the information processing device 61, the device type, the remaining battery power of the device, etc.
  • the environment surrounding the object here refers to, for example, the type and size of the three-dimensional space in which the object is placed, the object's ability to reflect and absorb sound, the object's placement position in three-dimensional space, etc.
  • the directivity data restoration unit 82 determines the model parameters to delete, replace, or add based on at least one of the viewpoint position information, listener direction information, object position information, object direction information, metadata, the environment surrounding the object, a designation operation by the user, etc., the computing power of the information processing device 61, and the device type of the information processing device 61.
  • model parameters of that model are used to restore the directional data.
  • the directional data may be restored without using the model parameters of a predetermined specific model of a mixed model of common parts or unique parts.
  • the accuracy of the directional data restoration can be appropriately adjusted to match the computational capacity of the information processing device 61.
  • directional data may be restored without using the model parameters of a predetermined specific model of the mixed model of the common or unique parts of the objects. By doing this, it becomes possible to minimize the restoration accuracy of directional data for low-priority objects, and to increase the restoration accuracy of directional data for high-priority objects.
  • model parameters of additional models constituting a mixed model of common or unique parts may be selected depending on, for example, whether the three-dimensional space in which the object is placed is a space with a ceiling or a space without a ceiling, as the environment surrounding the object.
  • model parameters for a space with a ceiling are added to the model parameters obtained from the encoded directional data, and the directional data is restored.
  • the directional data is restored based on multiple model parameters consisting of the model parameters obtained from the encoded directional data and the added model parameters.
  • the range of movement of the user may be limited to a certain range, for example, the user may always be positioned in front of an object and may not be able to position behind the object.
  • the range used in the directional data may be limited depending on the range of movement of the user or object OS11 (sound source), as shown in Figure 18, for example.
  • a directional vector that is the center of the distribution is defined, and in this example, vector AR11, vector AR12, and vector AR13 are defined for each model (distribution function).
  • These vectors AR11 to AR13 are, for example, the vector ⁇ (mean vector) of the vMF distribution or Kent distribution model.
  • the user's range of movement is limited to the range indicated by arrow MR11 relative to a specific object OS11 that is the sound source.
  • the user can only move within the range in front of object OS11. In other words, the user cannot move behind object OS11.
  • the effective range AC11 to be recorded or played back is determined based on, for example, the position of object OS11 and the user's range of movement indicated by arrow MR11.
  • the effective range AC11 is the surface of a sphere centered on the central position of object OS11, that is, the area of the sphere surface for which the directional data is defined, in the direction in which the user may be located as viewed from the center of the sphere.
  • vectors AR11 and AR12 indicate positions within the effective range AC11.
  • models that have these vectors AR11 and AR12 represent a highly directional distribution in the direction in which the user may be present, and are therefore highly important models when reproducing the directionality of object OS11.
  • vector AR13 indicates a position outside the effective range AC11.
  • a model with vector AR13 represents a highly directional distribution in a direction where the user does not exist, and is a model of low importance when reproducing the directionality of object OS11.
  • model parameters of models having vector ⁇ indicating a position outside the effective range AC11 i.e., models whose distribution center is located outside the effective range AC11, may not be used to restore the directional data. This allows the directional data to be restored using only models of high importance, reducing the amount of calculations required during restoration and the processing time required for restoration while maintaining sufficient restoration accuracy.
  • the directivity data restoration unit 82 restores the directivity data using the model parameters of the model having vector AR11 and the model parameters of the model having vector AR12, without using the model having vector AR13.
  • deletion (non-use), addition, replacement, etc. of model parameters of common and unique parts may be performed not only when restoring directional data, but also when modeling (encoding) the directional data.
  • the parameter generation unit 21 of the server 11 deletes model parameters of models that are not used, replaces certain model parameters with other model parameters, or adds new model parameters.
  • the deletion (non-use), addition, replacement, etc. of model parameters is performed based on the relationship between the position and orientation of the object and the user (listener) in three-dimensional space, the relationship between the speed and acceleration of the object and the user in three-dimensional space, metadata such as object priority information and sound source type information, the environment surrounding the object, specified operations by the content creator, etc., the computing power and device type of the information processing device 61, remaining battery power, etc.
  • the parameter generation unit 21 determines the model parameters to delete, replace, or add based on at least one of the viewpoint position information, listener direction information, object position information, object direction information, metadata, the environment surrounding the object, a designation operation by the content creator or the like, the computing power of the information processing device 61, the remaining battery power of the information processing device 61, and the device type of the information processing device 61.
  • necessary information such as the viewpoint position information, listener direction information, the computing power and device type of the information processing device 61 is appropriately acquired from the information processing device 61.
  • the parameter generation unit 21 determines the effective range AC11 based on the position of the object OS11 and the user's movable range, and deletes the model parameters of the model having the vector AR13 based on the determination result.
  • modeling may be performed using a combination of multiple different methods.
  • the parameter generation unit 21 generates, as common part data, data consisting of model parameters of multiple different common mixture models for restoring the common part, for example.
  • the parameter generation unit 21 generates data consisting of model parameters of multiple different mixture models for restoring the unique part, data consisting of model indices for each of the multiple mixture models, or flag information for each of the multiple mixture models as unique part data.
  • the modeling unit 32 may model specific components, such as directional gain, for the common or unique parts using a model expressed by a vMF distribution, and model other components, such as phase, using a model expressed by an HOA, etc.
  • the directional data restoration unit 82 restores data for a specified component based on the model parameters of a model such as the vMF distribution, and restores data for other components based on the model parameters of a model such as the HOA, and then combines (adds) these data to obtain the final data to be recorded.
  • the modeling unit 32 may model the data to be recorded using a predetermined method, i.e., a predetermined model, and further model the difference (residual) between the original data to be recorded before modeling and the data to be recorded after modeling (mixed model).
  • a predetermined method i.e., a predetermined model
  • the data to be recorded after modeling is obtained from the mixed model of the common part and the mixed model of the unique part.
  • the method (model) for modeling the data to be recorded and the method for modeling the residual may be the same or different.
  • the residual restored based on the residual model parameters is added to the data to be recorded restored using the model parameters, resulting in the final data to be recorded.
  • the directional data restoration unit 82 may add data restored using other model parameters supplied from an external source to the data to be recorded obtained from the encoded directional data, thereby generating the final data to be recorded.
  • Figure 19 is a block diagram showing an example of the hardware configuration of a computer that executes the above-mentioned series of processes using a program.
  • the CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an input/output interface 505 Connected to the input/output interface 505 are an input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510.
  • the input unit 506 consists of a keyboard, mouse, microphone, imaging element, etc.
  • the output unit 507 consists of a display, speaker, etc.
  • the recording unit 508 consists of a hard disk, non-volatile memory, etc.
  • the communication unit 509 consists of a network interface, etc.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, optical disk, magneto-optical disk, or semiconductor memory.
  • the CPU 501 loads a program recorded in the recording unit 508, for example, into the RAM 503 via the input/output interface 505 and bus 504, and executes it, thereby performing the series of processes described above.
  • the program executed by the computer (CPU 501) can be provided by being recorded on a removable recording medium 511, such as a packaged medium.
  • the program can also be provided via a wired or wireless transmission medium, such as a local area network, the Internet, or digital satellite broadcasting.
  • a program can be installed in the recording unit 508 via the input/output interface 505 by inserting a removable recording medium 511 into the drive 510.
  • the program can also be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508.
  • the program can be pre-installed in the ROM 502 or recording unit 508.
  • this technology can be configured as a cloud computing system in which a single function is shared and processed collaboratively by multiple devices over a network.
  • each step described in the above flowchart can be performed by a single device, or can be shared and executed by multiple devices.
  • one step includes multiple processes
  • the multiple processes included in that one step can be executed by one device, or they can be shared and executed by multiple devices.
  • this technology can also be configured as follows:
  • an acquisition unit that acquires common part data for restoring a common part of a plurality of target data, and unique part data of each of the plurality of target data for restoring a unique part different from the common part of the target data; and a data restoration unit that restores the target data based on the common portion data and the unique portion data.
  • the common part data is composed of first model parameters of one or more first models constituting a first mixture model representing the common part, obtained by modeling the target data or the common part.
  • the characteristic part data is data for obtaining second model parameters of one or more second models constituting a second mixture model representing the characteristic part, obtained by modeling the target data or the characteristic part.
  • the data restoration unit determines some model parameters not to be used in restoring the target data, some model parameters to be replaced when the target data is restored, or the other model parameters to be added based on at least one of the spatial position of an object corresponding to the target data, the spatial position of a user who listens to the sound of content including the sound of the object, at least one of a relationship between the object and the speed or acceleration of the user, metadata of the object, the environment around the object, a specified operation by the user, the computing power of the information processing device, the remaining battery power of the information processing device, and a device type of the information processing device.
  • the information processing device according to any one of (3) to (10), wherein at least one of the first model and the second model is a distribution function.
  • the common part data is composed of the first model parameters of one or more of the first models constituting each of the plurality of first mixture models different from each other for obtaining the common part.
  • the characteristic part data is data for obtaining each of the second model parameters of one or more of the second models constituting each of the plurality of second mixed models different from each other for obtaining the characteristic part.
  • the acquiring unit further acquires a scale factor related to a dynamic range of the target data and an offset value related to a shift amount of the target data;
  • the information processing device according to any one of (1) to (13), wherein the data restoration unit restores the target data based on the common part data, the unique part data, the scale factor, and the offset value.
  • the target data is data indicating a distribution on a surface.
  • the acquiring unit acquires the common part data of a group consisting of a plurality of the target data, the common part data of a subgroup consisting of one or a plurality of the target data belonging to the group, and the unique part data;
  • the information processing device according to any one of (1) to (15), wherein the data restoration unit restores the target data based on the common part data of the group, the common part data of the subgroups, and the unique part data.
  • the target data is directional data of an object;
  • the information processing device according to any one of (1) to (16), further comprising: a rendering processing unit that performs rendering processing based on the directivity data and audio data of the object.
  • An information processing device comprising: a generation unit that generates, based on a plurality of target data, common part data for restoring a common part of the plurality of target data, and unique part data of each of the plurality of target data for restoring a unique part different from the common part of the target data.
  • the generation unit determines the unique partial data or model parameters to be deleted, replaced, or added when generating the unique partial data based on at least one of the spatial position of an object corresponding to the target data, the spatial position of a user who listens to the sound of content including the sound of the object, the relationship between the object and at least one of the speed or acceleration of the user, metadata of the object, the environment around the object, a predetermined designation operation, the computing power of a device that plays the content, the remaining battery power of the device, and the device type of the device.
  • the generation unit determines the unique partial data or model parameters to be deleted, replaced, or added when generating the unique partial data based on at least one of the spatial position of an object corresponding to the target data, the spatial position of a user who listens to the sound of content including the sound of the object, the relationship between the object and at least one of the speed or acceleration of the user, metadata of the object, the environment around the object, a predetermined designation operation, the computing power of a device that plays the content, the remaining
  • the common part data is composed of the first model parameters of one or more of the first models constituting each of the plurality of first mixture models different from each other for obtaining the common part.
  • the characteristic part data is data for obtaining each of the second model parameters of one or more of the second models constituting each of the plurality of second mixture models different from each other for obtaining the characteristic part.
  • the generating unit further generates, for each of the target data, a scale factor related to a dynamic range of the target data and an offset value related to a shift amount of the target data, based on the plurality of target data.
  • the information processing device according to any one of (21) to (35), wherein the target data is data indicating a distribution on a surface.
  • the generating unit groups the plurality of target data belonging to the group into one or more subgroups, and further generates the common portion data for each of the subgroups.
  • the information processing device An information processing method for generating, based on a plurality of target data, common part data for restoring a common part of the plurality of target data, and unique part data for each of the plurality of target data for restoring a unique part different from the common part of the target data.
  • a program that causes a computer to execute a process including a step of generating, based on a plurality of target data, common part data for restoring a common part of the plurality of target data, and unique part data of each of the plurality of target data for restoring a unique part of the target data that is different from the common part.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Generation (AREA)

Abstract

本技術は、記録効率を向上させつつ、復元時により精度の高いデータを得ることができるようにする情報処理装置および方法、並びにプログラムに関する。 情報処理装置は、複数の対象データの共通部分を復元するための共通部分データと、対象データの共通部分とは異なる固有部分を復元するための、複数の各対象データの固有部分データとを取得する取得部と、共通部分データおよび固有部分データに基づいて、対象データを復元するデータ復元部とを備える。本技術は情報処理装置に適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は、情報処理装置および方法、並びにプログラムに関し、特に、記録効率を向上させつつ、復元時により精度の高いデータを得ることができるようにした情報処理装置および方法、並びにプログラムに関する。
 指向性に関するデータなど、各種のデータを記録したり伝送したりする場合に、データ量を低減させることが望まれることがある。
 例えば、球面上の分布関数であるvMF(von Mises Fisher)分布やKent分布を用いて指向性データを記録することで、データの記録効率を向上させる技術が提案されている(例えば、特許文献1参照)。
 この技術では、複数の周波数ビンがバンドとしてまとめられて、バンドごとに指向性を代表する混合モデルが与えられ、その混合モデルのパラメータが記録される。そして、指向性データの利用時には、バンドの混合モデルのパラメータから、そのバンドに属す複数の各周波数ビンの指向性データが復元される。
国際公開第2023/074800号
 しかしながら、上述した技術では、指向性の形状が類似する複数の周波数ビンの指向性データを1つのバンドのパラメータでまとめて記録することで、記録効率を向上させることはできるが、指向性データの劣化が生じてしまうことがあった。すなわち、バンドのパラメータだけを記録したときには、復元により得られる周波数ビンごとの指向性データでは、周波数ビンごとに固有の形状が表現しきれないことがあった。
 本技術は、このような状況に鑑みてなされたものであり、記録効率を向上させつつ、復元時により精度の高いデータを得ることができるようにするものである。
 本技術の第1の側面の情報処理装置は、複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得する取得部と、前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元するデータ復元部とを備える。
 本技術の第1の側面の情報処理方法またはプログラムは、複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得し、前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元するステップを含む。
 本技術の第1の側面においては、複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとが取得され、前記共通部分データおよび前記固有部分データに基づいて、前記対象データが復元される。
 本技術の第2の側面の情報処理装置は、複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成する生成部を備える。
 本技術の第2の側面の情報処理方法は、複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成するステップを含む。
 本技術の第2の側面においては、複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとが生成される。
データのモデル化について説明する図である。 本技術について説明する図である。 グループ化について説明する図である。 指向性の形状の変化について説明する図である。 分布関数の例を示す図である。 記録対象データのモデル化について説明する図である。 個別記録方式について説明する図である。 個別指定方式について説明する図である。 組み合わせ指定方式について説明する図である。 記録対象データの例について説明する図である。 データのシンタックス例を示す図である。 データのシンタックス例を示す図である。 サーバの構成例を示す図である。 符号化処理を説明するフローチャートである。 情報処理装置の構成例を示す図である。 指向性データ生成処理を説明するフローチャートである。 出力オーディオデータ生成処理を説明するフローチャートである。 使用範囲の限定について説明する図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術では、球面や平面、曲面などの面上の各位置で値を有するデータが記録対象のデータ(以下、記録対象データとも称する)とされる。換言すれば、面上の分布を示すデータが記録対象データとされる。
 具体的な例として、球面上で表される形状データを複数の分布関数(モデル)からなる混合モデルによって表現および記録する例について考えることとする。
 この場合、記録対象データである形状データは、球面上の各位置で値を有するデータ、すなわち球表面における分布(形状)を表すデータとされる。
 例えば、図1に示すように、球表面上の各位置xの分布関数Forg(x)で表現される形状データD11をモデル化することとする。
 この場合、モデル化では、単峰性の分布関数(モデル)を複数重ね合わせることにより、所望の形状、つまり形状データD11が表現される。
 すなわち、分布関数f(x,Θ1)で表される形状データD12と、分布関数f(x,Θ2)で表される形状データD13と、分布関数f(x,Θ3)で表される形状データD14とによって、モデル化前のもとの形状データD11が表される。
 ここでは、分布関数f(x,Θ1)、分布関数f(x,Θ2)、および分布関数f(x,Θ3)に重みw1、重みw2、および重みw3がつけられて、各分布関数が重ね合わせられ、1つの混合モデル(混合分布)とされる。なお、各分布関数におけるΘ1~Θ3は、形状データを表現するパラメータである。
 モデル化時には、混合モデルによって、モデル化前のもとの形状データD11、すなわち分布関数Forg(x)により表される形状を最もよく表現できるパラメータΘ1~Θ3、および重みw1~w3が決定(推定)される。
 そして、決定されたパラメータΘ1~Θ3、および重みw1~w3が、形状データD11を表す混合モデルのパラメータとして記録されたり伝送されたりする。
 ここでは、複数のモデルからなる1つのモデルを混合モデルとも称し、混合モデルを構成するモデルを表すパラメータや、そのモデルの重みをモデルパラメータとも称することとする。特に、混合モデルを復元するための各モデルのモデルパラメータからなるパラメータ群のことも単に混合モデルのモデルパラメータとも称することとする。
 コンテンツの再生時など、形状データD11の利用時には、モデルパラメータから元の形状を表す形状データD11が復元される。より詳細には形状データD11に対応する、混合モデルにより表される形状データが生成(復元)される。
 以上のような混合モデルによるモデル化を、複数のデータ系列、すなわち複数の形状データ(記録対象データ)に対してまとめて行うことを考える。
 一般的に、記録や伝送の対象となる複数の各形状データは、少しずつ形状が異なるため、形状データにより示される形状(分布)を細部まで厳密に記録しようとすると、形状データごとにモデル化を行う必要がある。そのため、複数の形状データのモデルパラメータの合計量、つまり形状データの記録量が増大する。
 ところで、形状データの一部に着目すると、その一部分では形状データ同士の形状(概形)が類似していることも多い。
 例えば、周波数ごとや時間(フレーム)ごとに形状データがあり、周波数や時間を示すインデックスが付与されている場合などにおいては、インデックスが隣接する形状データ、すなわち近い周波数や時間の形状データ間では、概形の変化(変動)が少ないことも多い。
 このように、形状データは、複数の形状データ間で形状が類似している箇所と、形状データごとに固有の箇所とに分けることができる。
 そこで、本技術では、記録対象データ(形状データ)の他の記録対象データとの類似箇所と、固有の箇所とを別々にモデル化し、記録することで、記録効率を向上させつつ、復元時により精度の高いデータを得ることができるようにした。
 本技術では、複数の記録対象データからなるデータ系列が1つのグループにまとめられてモデル化される。
 このとき、記録対象データを表す混合モデルを構成する分布関数等のモデルについて、複数の記録対象データ間で形状が共通する部分(以下、共通部分とも称する)を表現するモデルと、記録対象データごとに固有の部分(以下、固有部分とも称する)を表現するモデルとに各モデルが分類される。そして、共通部分と固有部分とで別々にモデル化により得られるモデルパラメータの記録が行われる。
 換言すれば、記録対象データが他の記録対象データと類似する共通部分と、他の記録対象データとは類似しない固有部分とに分けられて、共通部分と固有部分とで別々にモデルパラメータの記録が行われる。
 具体的には、共通部分については、所定の領域における形状(概形)が互いに類似する記録対象データからなるグループが形成される。そして、記録対象データにおける互いに形状が類似する領域の部分が共通部分とされ、グループごとにまとめてモデルパラメータの記録が行われる。
 例えば、グループを代表する混合モデルが与えられ、その混合モデルのモデルパラメータが、そのグループに属す全記録対象データの共通部分についての1つの共通するモデルパラメータとして記録される。
 これに対して、固有部分については、記録対象データごとに個別にモデルパラメータが生成される。
 固有部分では、混合モデルを構成するモデル(分布関数)のモデルパラメータを、記録するか否かや、使用するか否かが記録対象データごとに個別に指定(定義)可能とされる。例えば固有部分の混合モデルを構成するモデルごとに、モデルパラメータを記録するかや使用するかが指定されるようにしてもよい。
 図2を参照して、記録対象データの記録例について説明する。
 図2に示す例では、インデックスが1である記録対象データD31-1、インデックスがjである記録対象データD31-j、およびインデックスがJである記録対象データD31-Jを含むJ個の記録対象データが1つのグループとされている。
 以下、記録対象データD31-1や記録対象データD31-jなど、グループに属す記録対象データを特に区別する必要のない場合、単に記録対象データD31とも称する。図2では、球表面上の分布が平面に展開されたものが記録対象データD31として示されている。
 この例では、グループに属す全ての記録対象データD31において類似する領域部分がグループの共通部分とされる。
 ここでは、記録対象データD31-1における領域R11の部分、記録対象データD31-jにおける領域R12の部分、記録対象データD31-Jにおける領域R13の部分など、各記録対象データD31における形状(値の分布)が互いに類似する部分が共通部分とされている。各記録対象データD31において共通部分とされる領域は、互いに同じ位置や大きさの領域となっている。
 記録対象データD31の記録時には、これらの共通部分を表す代表的な混合モデルが定められ、その混合モデルのモデルパラメータが生成される。
 一方、例えば記録対象データD31-1に注目すると、記録対象データD31-1における領域R21や領域R22、領域R23などの部分は、他の記録対象データD31における同じ部分とは類似していないため、固有部分とされる。
 記録対象データD31の記録時には、これらの固有部分からなるデータの混合モデルが定められ、その混合モデルのモデルパラメータが生成される。
 コンテンツの再生時など、記録対象データD31の利用時には、共通部分と固有部分のモデルパラメータに基づいて、各記録対象データD31が復元される。
 例えば記録対象データD31-1に注目すると、グループごとの共通部分のモデルパラメータに基づいて、記録対象データD31-1のうちの共通部分のデータを表す混合モデルが復元される。また、記録対象データD31-1の固有部分のモデルパラメータに基づいて、固有部分のデータを表す混合モデルも復元される。
 そして、共通部分の混合モデルと、固有部分の混合モデルとが統合されて1つの混合モデルが生成され、得られた混合モデルにより表されるデータが復元により得られた記録対象データD31-1とされる。
 なお、記録対象データD31における共通部分とは異なる部分のなかには、その記録対象データD31と同じグループに属す他の複数の記録対象データD31と類似する部分があることも考えられる。
 そのような場合、その類似する部分を有する記録対象データD31からなるグループをサブグループとし、そのサブグループに属す複数の記録対象データD31の共通部分を表す混合モデルのモデルパラメータが生成されるようにしてもよい。
 グループ内に1または複数のサブグループが形成される場合、サブグループに属す記録対象データD31は、グループの共通部分のモデルパラメータと、サブグループの共通部分のモデルパラメータと、固有部分のモデルパラメータとに基づき復元されることになる。
 本技術では、複数の記録対象データがグループにまとめられて、グループで共通する共通部分と、記録対象データごとの固有部分とに分けられてモデルパラメータが記録される。
 これにより、複数の記録対象データを記録する場合に、全体の記録量、すなわち全体のデータ量を低減させつつ、復元時にも記録対象データの高い表現力や精度(クオリティ)を維持することができる。換言すれば、記録効率を向上させつつ、復元時に、より精度の高いデータを得ることができる。
 特に、本技術では、共通部分をまとめてモデル化し、その結果としてグループに対して1つの共通部分のモデルパラメータを生成することで、記録効率を向上させることができる。これにより、記録対象データを伝送するときの伝送効率も向上させることができる。
 また、固有部分については、記録対象データごとにモデル化が行われ、モデルパラメータが生成されるため、記録対象データごとに異なる細部の形状を記録することができる。
 すなわち、複数の記録対象データを代表する混合モデルを与え、その混合モデルのモデルパラメータのみを記録する場合と比較して、各記録対象データにより示される形状(分布)をより詳細に記録することができ、モデル化によるデータの劣化を抑制することができる。
 さらに、共通部分と固有部分とを別のデータ系列として扱うことで、形状表現に自由度を与えることが可能となる。
 例えば、1つの記録対象データに対して、予め複数の固有部分を用意しておき、記録対象データの復元時に、利用シーンなどといった状況等に応じて、複数の固有部分のなかから復元に利用する固有部分を選択するようにしてもよい。
 具体的な例として、例えば固有部分について、室内用のモデルパラメータや屋外用のモデルパラメータなどを用意しておき、それらのモデルパラメータのなかから復元に利用するモデルパラメータを選択することなどが考えられる。
 このように、状況等に応じて固有部分のモデルパラメータを切り替えることで、もとの記録対象データにより示される形状に対して、復元時に変形を加えることができる。
 また、利用シーンや再生等の環境、通信状況、デバイスの計算能力、デバイスの残電池量などに応じて、記録対象データの復元時に、固有部分を表現する混合モデルを構成する各モデルのモデルパラメータを利用するか否かを切り替えることも考えられる。この場合、モデルパラメータを利用するか否かは、混合モデル単位で切り替えてもよいし、混合モデルを構成するモデル単位で切り替えてもよい。
 このようにすることで、利用シーン等を考慮した記録対象データの復元を実現することができる。例えば、デバイス側での処理負荷を低減させたい場合には、固有部分のモデルパラメータを用いず、共通部分のモデルパラメータのみを用いて記録対象データの復元を行うようにすることができる。
〈記録対象データの具体例〉
 記録対象データの具体的な例について説明する。
 記録対象データの具体的な例として、音源ごとの周波数領域の指向性データ(音響指向性データ)が考えられる。
 この場合、音源の指向性を示す指向性データは、例えば図3に示すように、音源から出力される音の周波数(周波数ビン)ごとに用意される。すなわち、1つの音源について用意された、周波数ビンごとの指向性データが記録対象データとされる。ここでは、指向性データD51や指向性データD52、指向性データD53などが周波数ビンごとの指向性データ(記録対象データ)とされている。
 このような例では、隣接する周波数ビン間では指向性の形状が類似していることが多いため、指向性の形状の類似度に応じて、全周波数帯域を複数の周波数バンドに分け、それらの周波数バンドを1つのグループとすることができる。この場合、例えば1つのグループに対応する周波数バンドには複数の周波数ビンが属しており、グループ(周波数バンド)ごとに、共通部分のモデルパラメータと、各周波数ビンの固有部分のモデルパラメータとが生成されて記録される。例えば図3では、指向性データD51から指向性データD53までが1つのグループとされている。
 記録対象データが音源の周波数ビンごとの指向性データ(音響指向性データ)である場合、共通部分や固有部分を表現する混合モデルを構成するモデルとして、以下のようなモデルを選択することが考えられる。
 すなわち、指向性データとして指向性の振幅特性のみを記録する場合には、指向性データは実数データとなるので、例えばvMF分布やKent分布などといった、実数で表現される分布関数(モデル)を用いればよい。
 指向性データとして指向性の振幅特性だけでなく位相特性も含めて記録する場合には、指向性データは複素数のデータとなる。
 そのため、例えば指向性データにより示される各位置における複素振幅を実部と虚部に分け、実部と虚部を個別にモデル化することが考えられる。そのような場合、実部と虚部のそれぞれのモデル化では、例えばvMF分布やKent分布などといった、実数で表現される分布関数(モデル)を用いればよい。
 また、指向性データにより示される各位置の複素振幅を実部と虚部に分けずに、実部と虚部をまとめてモデル化することもできる。そのような場合、指向性データのモデル化では、例えば複素Bingham分布や複素watson分布など、複素数で表現される分布関数(モデル)を用いればよい。
 記録対象データとされる音源の指向性を示す指向性データ(音響指向性データ)の具体的な例としては、例えばバイオリン等の所定の音源種別の音源についての音源の放射指向性を示す放射指向性データが考えられる。
 放射指向性データは、音源から放射される、音源から見た方向ごとの音波の音圧強度を表す周波数ごとのデータである。この場合、周波数ごとに用意された放射指向性データに対してグループ化が行われることになる。
 また、記録対象データとされる指向性に関するデータの他の例として、例えばマイクロフォンの周波数ごとの収音指向性を示す収音指向性データや、周波数ごとに値をもつ頭部伝達関数(HRTF(Head Related Transfer Function))などが考えられる。例えば収音指向性データは、音源から見た各方向についての周波数ごとの収音感度を示すデータである。
 記録対象データは、周波数領域(周波数ごと)のデータに限らず、時間領域(時間ごと)の音響データ等であってもよい。
 すなわち、記録対象データは、時間区間を示す時間インデックスが付与された、時間区間ごとの指向性を示す指向性データなどであってもよい。例えば、時間インデックスごとに異なる値をとり得る指向性データなどが記録対象データとされる。
 そのような場合、互いに隣接する時間インデックスの指向性データ間では、少なくとも一部の指向性形状が類似しているとみなせるため、グループ化が可能である。また、モデル化対象となる時間インデックスごとの指向性データは、例えば実数データとされる。
 時間インデックスごとの記録対象データの具体的な例として、例えば室内等の所定の空間内における所定のリスニングポイントでの時刻ごとの音波到来方向を示す音響データや、室内伝達関数(RIR(Room Impulse Response))などが考えられる。室内伝達関数は方向ごとの記録にも応用可能である。
 音波到来方向を示す音響データは、時間インデックスにより示される各時刻における、空間内のリスニングポイントへと到来する音波の方向と振幅を示すデータ、すなわちリスニングポイントから見た各方向からの音波の振幅を示すデータなどとされる。この場合、連続して並ぶいくつかの時間インデックスのデータが1つのグループとされる。
 記録対象データは、周波数方向や時間方向の系列のデータの他、複数の種別ごとや音源に関わるものの大きさごとや姿勢ごとなどのデータとすることも考えられる。
 例えば種別が異なる音源の音響指向性のデータをまとめて記録する場合に、ギターやバイオリン、ビオラなどの音響指向性が類似し得る複数の各音源(楽器)の音響指向性を示す指向性データを記録対象データとすることができる。
 楽器ごとの音響指向性(指向性)には、互いに共通する部分と楽器ごとに固有の部分とが存在すると考えられるため、それらの楽器ごとの指向性データを記録対象データとすれば、記録効率の向上を見込むことができる。
 同一楽器でも、楽器を演奏する空間など、演奏時の環境、つまり楽器による演奏が行われる環境が異なれば、指向性の形状も変化すると考えられる。
 具体的な例として、音源(オブジェクト)としての楽器の音の指向性を表現する場合、例えば図4の矢印Q11に示すように楽器が演奏される空間の天井から遠いまたは天井がない場合と、矢印Q12に示すように楽器が天井に近い場合とで指向性が異なる。
 特に、楽器(音源)が天井に近い位置にあるか否かで、指向性形状の共通部分には大きな差はないものの指向性形状の固有部分が変化すると考えられる。
 また、音源としての楽器の指向性形状、特に指向性の固有部分は、楽器の演者の体格や演奏時の姿勢などの演者ごとの癖などによっても変化すると考えられる。
 したがって、楽器等の音源種別だけでなく、音源が配置される空間ごとや音源としての楽器の演者ごとなど、音源の周囲の環境ごとに記録対象データを用意し、適宜、グループ化することで記録効率を向上させることも可能である。
〈混合モデルについて〉
 混合モデルは、1または複数のモデルを混合(合成)することにより得られるものである。
 例えばモデルとして分布関数を用いたときには、1または複数の分布関数を重ね合わせて(混合して)得られる1つの混合分布が混合モデルとされる。
 以下では、単峰性の分布関数を複数重ね合わせて得られる混合分布が混合モデルとして用いられるものとして説明を続ける。
 この場合、単峰性の分布関数を複数重ね合わせることで、所望の形状、すなわち記録対象データの共通部分や固有部分の形状が表現されることになる。
 混合モデルの構成要素となる分布関数は、どのようなものであってもよいが、例えば記録対象データが球面上の分布(形状)を示すデータである場合には、分布関数としてvMF分布やKent分布、球面ラプラス分布などを用いることが考えられる。また、混合モデルを構成する各分布関数(モデル)は、vMF分布とKent分布など、互いに異なる種類のものであってもよい。
 混合モデルを構成する各分布関数は、それぞれパラメータを有している。換言すれば、各分布関数は、パラメータによって表現される。
 例えば分布関数であるvMF分布は、図5に示すように球表面上の分布を表す関数となっている。vMF分布では、図中の矢印で表されるベクトルγ(mean vector)により示される位置を中心とした等方的な分布を表現可能である。
 このようなvMF分布は、次式(1)で表される。
 式(1)は、球表面上の位置x、すなわちベクトルxにより示される位置でのvMF分布f(x,Θ)の値を示している。式(1)においてc(κ)は正規化定数であり、κは集中度(パラメータ集中度)を示しており、γはmean direction分布の中心を規定するベクトル(mean vector)を示している。
 また、ΘはvMF分布f(x,Θ)を表すパラメータの集合である。具体的には、パラメータの集合Θ、すなわちパラメータΘは、集中度κおよびベクトルγからなる。特に、ベクトルγは、球中心を原点とする極座標系の方位角と仰角によって表すことができる。
 したがって、パラメータの集合Θ、すなわち集中度κと、ベクトルγの方位角および仰角とをモデルパラメータとして記録すれば、モデルパラメータから分布関数(モデル)であるvMF分布f(x,Θ)を復元することができる。
 以下では、記録対象データが主に球面上の分布を表す形状データである場合について説明するが、記録対象データは、例えば二次元平面上の分布(形状)を表すデータや、任意の曲面上の分布を表すデータなどであってもよい。
 例えば記録対象データが二次元平面上の分布を表すデータである場合には、複数の二次元ガウス分布からなる混合ガウス分布を混合モデルとして用いることが考えられる。
 以上のような分布関数(モデル)を複数重ね合わせることで混合モデルが得られるが、記録対象データの共通部分の記録時には、上述のようにグループを代表する混合モデルが与えられる。
 例えば、図1に示した分布関数Forg(x)(形状データD11)を表現する混合モデル、すなわち分布関数f(x,Θ1)、分布関数f(x,Θ2)、および分布関数f(x,Θ3)を重ね合わせて得られる混合モデルが、グループに属す記録対象データの共通部分を代表する混合モデル(以下、共通混合モデルとも称する)であるとする。
 共通混合モデルは、グループに属す各記録対象データの共通部分のそれぞれを表す混合モデルのそれぞれのうちの1つであってもよいし、それらの混合モデルの平均値など、各記録対象データの共通部分の混合モデルから算出される1つの混合モデルであってもよい。
 その他、グループに属す各記録対象データの共通部分の平均値など、各記録対象データの共通部分から得られる1つのデータを表す混合モデルが共通混合モデルとされてもよいし、共通混合モデルは予め定められたものや指定されたものであってもよい。
 共通混合モデルは、各モデル(分布関数)のパラメータΘ1~Θ3と、各モデルがもつ重みw1~w3とによって復元することができ、これらのパラメータや重みが共通混合モデルのモデルパラメータ、すなわちグループの共通部分のモデルパラメータとされる。
 共通混合モデルのモデルパラメータを用いて、もとの各記録対象データをより高い精度で復元するには、共通混合モデルと記録対象データの共通部分との違いを調整するためのパラメータも必要である。
 本技術では、共通混合モデルと記録対象データの共通部分との違いを調整するためのパラメータとして、スケールファクタおよびオフセット値が用いられる。
 スケールファクタは、記録対象データのダイナミックレンジに関するパラメータ、すなわち混合モデル全体の倍率を決定するパラメータであり、スケールファクタによって記録対象データごとのダイナミックレンジの違いが調整される。例えばスケールファクタは、共通混合モデルと、記録対象データの共通部分または記録対象データ全体との比に基づくパラメータである。
 オフセット値は、記録対象データのシフト量に関するパラメータ、すなわち混合モデル全体のシフト量を決定するパラメータであり、オフセット値によって記録対象データごとの下限値の違いが調整される。例えばオフセット値は、共通混合モデルと、記録対象データの共通部分または記録対象データ全体との下限値の差に基づくパラメータである。
 例えば共通混合モデルがK個の分布関数f(x,ΘK)からなる場合について考える。この場合、共通混合モデルのモデルパラメータは、各モデルのパラメータΘ1~ΘKおよび重みw1~wKとされる。また、1つの記録対象データに対して、スケールファクタSおよびオフセット値Cが与えられているとする。
 そのような場合、記録対象データの共通部分の混合分布Frep(x)は、パラメータΘ1~ΘKおよび重みw1~wKと、スケールファクタSおよびオフセット値Cとに基づき以下の式(2)により得ることができる。
 このような式(2)により得られる混合分布Frep(x)が、復元により得られた記録対象データの共通部分(共通部分の混合モデル)となる。
 以上のように、グループに属す各記録対象データについて、共通部分のモデルパラメータと、各記録対象データのスケールファクタおよびオフセット値と、各記録対象データの固有部分のモデルパラメータとがモデル化の結果として得られることになる。
 例えば図6に示すように、インデックスが1である記録対象データからインデックスがJである記録対象データまでの合計J個の記録対象データが1つのグループとされているとする。
 この例では、矢印Q31に示すように、J個の記録対象データの共通部分についての共通混合モデルがK個のモデル(分布関数)で表され、共通混合モデルのモデルパラメータとして、パラメータΘ1~ΘKおよび重みw1~wKが得られている。これらの共通部分のモデルパラメータは、グループに属す全記録対象データの共通部分を復元するための共通部分データである。
 また、J個の各記録対象データについて、スケールファクタおよびオフセット値と、固有部分のモデルパラメータとが得られている。
 例えば矢印Q32に示す部分には、インデックスが1である記録対象データについて、固有部分のモデルパラメータであるパラメータΘ11~Θ1K(1)および重みw11~w1K(1)と、スケールファクタS1およびオフセット値C1とが示されている。
 特に、この記録対象データでは、固有部分の混合モデルがK(1)個のモデル(分布関数)によって構成されていることが分かる。固有部分のモデルパラメータは、記録対象データの共通部分とは異なる固有部分を復元するための固有部分データである。
 同様に、例えば矢印Q33に示す部分には、インデックスがJである記録対象データについて、固有部分のモデルパラメータであるパラメータΘJ1~ΘJK(J)および重みwJ1~wJK(J)と、スケールファクタSJおよびオフセット値CJとが示されている。特に、この記録対象データでは、固有部分の混合モデルがK(J)個のモデル(分布関数)によって構成されている。
 ここで、任意のj番目の記録対象データについて、固有部分のモデルパラメータをパラメータΘj1~ΘjK(j)および重みwj1~wjK(j)と記し、スケールファクタおよびオフセット値をSjおよびCjと記すこととする。
 図6の例では、共通部分に対してK個の分布関数があり、各記録対象データでは、固有部分に関してK(j)個の分布関数があり、それらの分布関数の混合によって各記録対象データの形状が表現される。
 例えばj番目の記録対象データは、共通部分のパラメータΘ1~ΘKおよび重みw1~wKと、固有部分のパラメータΘj1~ΘjK(j)および重みwj1~wjK(j)と、スケールファクタSjおよびオフセット値Cjとから以下の式(3)により得ることができる。
 このような式(3)により得られる混合分布Fj(x)が、復元により得られたj番目の記録対象データとなる。混合分布Fj(x)は、共通部分の混合モデル(共通混合モデル)と、固有部分の混合モデルとを重ね合わせて(加算して)1つの混合モデルを生成し、その混合モデルのスケールと下限値をスケールファクタおよびオフセット値により調整することで得られるものであるといえる。
 なお、記録時には、記録対象データごとに、固有部分のモデルパラメータの一部のみを記録したり、固有部分のモデルパラメータは記録しないようにしたりすることも可能である。同様に、復元時には、記録対象データごとに、その記録対象データの復元に固有部分のモデルパラメータの一部のみを用いたり、固有部分のモデルパラメータは用いないようにしたりすることも可能である。
 ところで、モデルパラメータ等を記録したり伝送したりする場合に、記録対象データごとに定義(または指定)される固有部分のモデルパラメータの扱い方として、例えば以下に示す個別記録方式や指定方式などが考えられる。
 個別記録方式は、グループに属す記録対象データごとに固有部分のモデルパラメータを定義し、それらの固有部分のモデルパラメータを全て記録する方式である。
 これに対して指定方式は、グループ全体において固有部分として利用する可能性のある分布関数(モデル)をまとめて定義し、それらの分布関数のなかから、記録対象データごとに、固有部分の復元に利用する1または複数の分布関数を指定する方式である。
 以下、図7~図9を参照して、個別記録方式と指定方式について、より具体的に説明する。なお、図7~図9では、1つのグループがJ個の記録対象データにより形成(構成)されている。また、図7~図9では、図6における場合と同じパラメータは、同じ文字(記号)等により記されており、その説明は適宜省略する。
 図7は、個別記録方式の例を示している。
 個別記録方式では、グループに属す記録対象データごとに固有部分のモデルパラメータがサブパラメータとして定義され、それらの固有部分のモデルパラメータが記録される。
 具体的には、例えばインデックスが1である、1番目の記録対象データに対しては、矢印Q41に示すように固有部分のモデルパラメータとして、パラメータΘ11~Θ1K(1)および重みw11~w1K(1)が生成されて記録される。
 同様に、インデックスがjである記録対象データに対しては、矢印Q42に示すように固有部分のモデルパラメータとして、パラメータΘj1~ΘjK(j)および重みwj1~wjK(j)が生成されて記録される。インデックスがJである記録対象データに対しては、矢印Q43に示すようにパラメータΘJ1~ΘJK(J)および重みwJ1~wJK(J)が生成されて記録される。
 一方、指定方式として、固有部分の混合モデルを構成する分布関数を個別に指定する方式(以下、個別指定方式とも称する)と、固有部分の混合モデルを構成する分布関数の組み合わせを指定する方式(以下、組み合わせ指定方式とも称する)とが考えられる。
 図8は、指定方式の一例である個別指定方式の例を示している。
 個別指定方式では、グループに属すJ個の全記録対象データに対して、例えば矢印Q51に示すように、所定のK(A)個の分布関数と重みのセットが固有部分のモデル(分布関数)の候補(以下、候補パラメータとも称する)として予め用意(定義)される。
 ここでは固有部分の混合モデルを構成する分布関数(モデル)のモデルパラメータの候補として、候補パラメータであるパラメータΘ1~ΘK(A)および重みw1~wK(A)が用意されている。これらの候補パラメータは、グループに属す各記録対象データから生成されるようにすることも可能である。
 なお、以下では、K(A)個の候補パラメータのうちの任意のj番目の候補パラメータを、特に候補パラメータΘj,wjとも記すこととする。候補パラメータΘj,wjは、パラメータΘjと重みwjのセットである。
 記録時には、各記録対象データについて、記録対象データの固有部分の混合モデルを構成する1または複数の分布関数(モデル)ごとに、分布関数を表す候補パラメータがK(A)個の候補パラメータのなかから選択(指定)され、選択された候補パラメータを示すインデックスが記録される。
 図8では、例えば矢印Q52に示す部分には、インデックスが1である記録対象データについて選択された、固有部分の混合モデルを構成するK(1)個の各分布関数の候補パラメータを示すインデックスi11~i1K(1)が示されている。
 したがって、インデックスが1である記録対象データでは、固有部分の混合モデルは、K(1)個の分布関数(モデル)から構成されていることが分かる。
 例えばインデックスi11は、候補パラメータΘ3,w3など、K(A)個の候補パラメータのうちの何れか1つの候補パラメータを示している。
 同様に、例えば矢印Q53に示す部分には、インデックスがJである記録対象データについて選択された、固有部分についてのK(J)個の各候補パラメータを示すインデックスiJ1~iJK(J)が示されている。
 個別指定方式では、記録対象データの固有部分の混合モデルを復元により得るための情報として、混合モデルを構成する分布関数(モデル)、より詳細には分布関数のモデルパラメータ(候補パラメータ)を示すインデックス情報が記録される。
 このように、固有部分を得るための情報として、モデルパラメータそのものではなくインデックスを記録することで、個別記録方式における場合と比較して、さらに記録効率を向上させることができる。
 候補パラメータを示す1つのインデックスあたりの記録ビット数は、全体の候補パラメータ(分布関数)の数K(A)に依存することになる。例えば全体の候補パラメータの数K(A)が16個であれば、1つのインデックスは4bitで表すことが可能である。
 同様に、固有部分を表す1つの混合モデルあたりの全インデックスの記録に必要なビット数は、混合モデルを構成する分布関数(モデル)の個数に依存する。例えば1つの固有部分の混合モデルについて、16個の候補パラメータのなかから4個の候補パラメータを選択し、それらの4個の各候補パラメータを示すインデックスを記録する場合には、それらの4つのインデックスの記録には、4×4=16bitが必要となる。
 図9は、指定方式の一例である組み合わせ指定方式の例を示している。
 組み合わせ指定方式では、個別指定方式の場合と同様に、候補パラメータが用意される。図9の例では、矢印Q61に示すように、グループに属すJ個の全記録対象データに対して、K(A)個の分布関数と重みのセットが候補パラメータΘj,wjとして用意されている。
 上述の個別指定方式では、記録対象データごとに、固有部分の混合モデルを構成する分布関数(モデル)がインデックスにより指定される。
 これに対して、組み合わせ指定方式では、固有部分の混合モデルを構成する分布関数(モデル)の集合、すなわち1または複数の候補パラメータの組み合わせが予め複数用意される。換言すれば、1または複数の候補パラメータの組み合わせからなる混合モデルが予め複数用意される。
 そして、記録時には、記録対象データごとに、それらの組み合わせのなかから固有部分の混合モデルを構成する分布関数の集合を示す組み合わせが選択(指定)され、選択された組み合わせを示すフラグ情報(インデックス情報)が記録される。
 図9の例では、矢印Q62に示すように、パターン1からパターン5までの5個の組み合わせ(パターン)が予め用意されている。
 例えば図中、右上側に示すパターン1では、インデックス「1」により示される候補パラメータ(分布関数)、インデックス「2」により示される候補パラメータ、およびインデックス「3」により示される候補パラメータの組み合わせとなっている。
 記録時には、記録対象データごとに、その記録対象データの固有部分の混合モデルを得るための候補パラメータの組み合わせとして、パターン1~パターン5のうちの何れかが選択される。
 例えば矢印Q63に示す部分には、インデックスが1である記録対象データについて選択された、固有部分の混合モデルを得るための候補パラメータの組み合わせ(集合)である「パターン1」が示されている。より詳細には、記録時には「パターン1」を示すフラグ情報が記録される。
 同様に、例えば矢印Q64に示す部分には、インデックスがJである記録対象データについて選択された、固有部分の混合モデルを得るための候補パラメータの組み合わせである「パターン3」が示されている。
 組み合わせ指定方式では、固有部分の混合モデルを得るための候補パラメータの組み合わせが予め有限個定義され、組み合わせごとにフラグ情報が設定される。
 フラグ情報のビット数は、予め用意された組み合わせの数によって定まる。例えば、候補パラメータの組み合わせの総数が4個(4パターン)であるときには、フラグ情報を2bitとすることができる。
 なお、固有部分だけでなく、共通部分のモデルパラメータも個別指定方式や組み合わせ指定方式で記録されるようにしてもよい。
 そのような場合、例えば共通混合モデルを構成する各モデルのモデルパラメータが複数の候補となるモデルパラメータのなかから選択されたり、共通混合モデルを構成する各モデルのモデルパラメータの組み合わせが複数の候補となるモデルパラメータの組み合わせのなかから選択されたりする。例えば記録時のグループ数が多い場合などに、共通部分についても個別指定方式や組み合わせ指定方式を用いることが考えられる。
 記録対象データのグループ化、および共通部分と固有部分の判定について説明する。
 グループ化では、複数の記録対象データからなるデータ系列が、所定の評価指標に基づいて、1または複数のグループに分割される。このとき、形状が類似するとみなせる記録対象データ同士が同じグループに振り分けられる。
 グループ化時の評価指標としては、例えばもとの記録対象データの各位置(グリッド)の値から求まる、記録対象データ同士の相関値などを用いることができる。
 具体的な例として、例えば平均絶対誤差(SAD(Sum of Absolute Difference))や、平均二乗誤差(SSD(Sum of Squared Difference))などが考えられる。この場合、2つの記録対象データについて計算により得られた評価指標が所定の閾値以下となるときには、それらの2つの記録対象データが同じグループに属すとされる。
 例えば平均絶対誤差(SAD)を評価指標として用いる場合、所定の記録対象データForg_i(x)と、他の記録対象データForg_j(x)とのSADは次式(4)により得ることができる。
 式(4)により得られたSADが閾値以下である場合には、記録対象データForg_i(x)と記録対象データForg_j(x)とは同じグループであるとされる。すなわち、記録対象データForg_i(x)と記録対象データForg_j(x)とは互いに形状(球面等の面上における値の分布)が類似するデータであるとされる。
 同様にして、記録対象データForg_i(x)または記録対象データForg_j(x)と、他の記録対象データとでSADの計算と閾値処理を行っていけば、例えば記録対象データForg_i(x)など、ある記録対象データとの間のSADが閾値以下となる記録対象データからなるグループが形成されることになる。
 平均二乗誤差(SSD)を評価指標として用いる場合、所定の記録対象データForg_i(x)と、他の記録対象データForg_j(x)とのSSDは次式(5)により得ることができる。
 平均二乗誤差(SSD)の場合も、平均絶対誤差(SAD)の場合と同様に、SSDが閾値以下であるときに記録対象データが同じグループに属すとされる。
 グループに属す各記録対象データの共通部分と固有部分は、グループを代表する記録対象データ(以下、代表データとも称する)に対する、記録対象データの球面上における各位置(グリッド)での値の絶対誤差や二乗誤差などの局所的な分布により決定される。
 例えばグループに属す全記録対象データに基づいて、そのグループを代表する代表データが決定される。代表データは、例えば中央値を選択する方法など、全記録対象データのうちの任意の方法により選択された1つの記録対象データであってもよいし、全記録対象データの平均値など、いくつかの記録対象データから算出されるものであってもよいし、予め定められたものであってもよい。
 代表データが定められると、グループに属す各記録対象データについて、代表データと記録対象データとの間で、各位置(グリッド)での絶対誤差や二乗誤差などといった誤差が計算される。そして、グループに属す全記録対象データについて得られた各位置での絶対誤差や二乗誤差等の誤差に基づいて、それらの位置を共通部分とするか、または固有部分とするかが定められる。
 一例として、例えば全記録対象データの同じ位置での誤差の平均値や総和が所定の閾値以下となる場合、その位置はグループに属す全記録対象データ間で形状が類似している部分であるといえるので共通部分とされる。これに対して、同じ位置での誤差の平均値や総和が所定の閾値よりも大きい場合、その位置では各記録対象データの形状が異なるので、固有部分とされる。
 なお、球表面等の面上の位置(グリッド)が共通部分に属すか、または固有部分に属すかの判定にあたっては、その位置での誤差の閾値処理の結果だけでなく、その位置に隣接する位置での閾値処理の結果も考慮されるようにしてもよい。そうすることで、例えば共通部分の領域に囲まれる一部のごく小さい領域が固有部分の領域とされてしまうことを防止するなどして、より適切に共通部分と固有部分を定めることができる。
 このようにして各位置(グリッド)について、共通部分とするか、または固有部分とするかが定められると、記録対象データが共通部分のデータと固有部分のデータとに分離され、それらのデータごとにモデル化が行われる。この場合、例えば共通部分のモデル化を行うときには、球面等の面上における共通部分とされなかった領域、つまり固有部分とされた領域における各位置(グリッド)での値は0などとされる。同様に、固有部分のモデル化時には、共通部分とされた位置での値は0などとされる。
 また、例えばグループに属す全記録対象データについて、記録対象データ同士で、各位置(グリッド)での絶対誤差や二乗誤差などといった誤差が計算され、その計算結果に基づいて共通部分と固有部分とが決定されるようにしてもよい。
 そのような場合、例えば、2つの記録対象データの全組み合わせについて計算された位置(グリッド)ごとの誤差の平均値や総和に対する閾値処理を行うことで、共通部分と固有部分が決定される。
 さらに、例えばグループに属す全記録対象データについて、先に記録対象データのモデル化が行われ、そのモデル化結果に基づいて共通部分と固有部分が決定されるようにしてもよい。
 そのような場合、例えば各記録対象データがvMF分布やKent分布などによってモデル化され、各記録対象データの混合モデルが生成される。そして、それらの混合モデルを構成するモデル(分布関数)ごとに、所定の混合モデルのモデルと、他の混合モデルのモデルとの間の距離が求められ、モデルごとの距離に応じてモデル間の類似度が判定され、その判定結果に基づき共通部分と固有部分が決定されるようにしてもよい。
 例えば、分布の中心が近いモデルは形状が類似しているということができるので、全記録対象データの混合モデルの間で、互いに分布中心が近いモデルがあるときには、それらの各モデルが共通部分を表現するモデルであるとされる。
 この例では、グループに属す記録対象データの混合モデルを構成するモデル(分布関数)ごとに、そのモデルが共通部分のモデル(共通部分を表現するモデル)であるか、または固有部分のモデルであるかの決定が行われることになる。この場合、共通部分のものとされたモデルは、他の記録対象データの混合モデルを構成するモデルとの間の距離が近い、すなわち、例えば分布中心の位置が近いモデルである。
 なお、グループ化の対象となる記録対象データは、例えば周波数方向や時間方向など、1次元の方向に並ぶ記録対象データだけでなく、多次元で並ぶ記録対象データであってもよい。
 例えば図10に示すように、「ギター」、「バイオリン」、「ビオラ」といった音源種別ごとに、各周波数の指向性データがあるとする。
 そのような場合、音源種別ごとに用意された各周波数の指向性データが記録対象データとされてグループ化が行われるようにしてもよい。ここでは、記録対象データは、音源種別という次元と、周波数という次元との2次元の各方向に配列された指向性データである。
 このような2次元に配列された指向性データを記録対象データとしてグループ化した結果、例えば枠W11で囲まれる領域内にある記録対象データからなるグループが1つのグループとされる。この例では、1つのグループには、全音源種別の互いに隣接する周波数の指向性データが属している。
 その他、例えば図10に示した音源種別と周波数に加えて、周囲の環境や演者などの要素を次元として、3次元に配列された指向性データ等を記録対象データとしてグループ化が行われるようにしてもよい。
〈シンタックス例〉
 複数の記録対象データをグループ化して記録したり伝送したりする場合のデータのフォーマットの例、すなわちシンタックスの例を図11および図12に示す。
 なお、図11および図12では、周波数ビンごとの指向性データ(音響指向性データ)が記録対象データとされており、各記録対象データの共通部分や固有部分は、vMF分布とKent分布の少なくとも何れか一方がモデルとして用いられてモデル化されている。
 特に、図11および図12では、連続して並ぶ1または複数の周波数ビンが1つのバンドとされ、1つのバンドが1つのグループとされている。
 図11は、個別記録方式で記録対象データを記録または伝送する場合のシンタックス例を示している。
 特に、図11の例では、データ全体のうちの図中、上側のW41に示す部分には、どのグループ(バンド)にどの周波数ビンが属しているかを特定するための情報や、各グループの共通部分の混合モデル(共通混合モデル)を得るための情報(データ)が格納される。以下、W41に示す部分を、特に共通パラメータ記録部W41とも称する。
 また、図11に示すデータ全体のうちの図中、下側のW42に示す部分には、各記録対象データの固有部分の混合モデルを得るための情報(データ)が格納される。以下、W42に示す部分を、特に固有パラメータ記録部W42とも称する。
 共通パラメータ記録部W41には、全ての記録対象データを対象としてグループ化を行った結果得られた、グループの数、すなわちグループに対応するバンドの数を示す情報であるバンド数「band_count」が含まれている。
 共通パラメータ記録部W41には、バンドごとに、バンドに含まれる周波数ビンを示す周波数ビン情報「bin_range_per_band[i_band]」と、バンド(グループ)の共通部分の共通混合モデルを構成するモデル(分布関数)の数を示す混合数「mix_count[i_band]」が含まれている。
 例えば周波数ビン情報「bin_range_per_band[i_band]」は、バンドに含まれる周波数ビンのうちの最も高い周波数の周波数ビンを示す情報となっており、この周波数ビン情報からバンドにどの周波数ビンが含まれているかを特定可能である。
 さらに共通パラメータ記録部W41には、各バンドについて、混合数「mix_count[i_band]」の分だけ、共通混合モデルを構成する各モデルのモデルパラメータ等が格納されている。
 具体的には、共通混合モデルの各モデルについて、モデルの重み「weight[i_band][i_mix]」、集中度「kappa[i_band][i_mix]」、ベクトルγ(mean vector)の方位角「gamma1[i_band][i_mix][φ]」、ベクトルγの仰角「gamma1[i_band][i_mix][θ]」、および選択フラグ「dist_flag」が格納されている。
 ここで、重み「weight[i_band][i_mix]」は、上述した式(3)における重みwkに対応する。また、集中度「kappa[i_band][i_mix]」、方位角「gamma1[i_band][i_mix][φ]」、および仰角「gamma1[i_band][i_mix][θ]」は、上述の式(1)における集中度κと、ベクトルγの方位角および仰角に対応する。
 モデルがvMF分布である場合には、集中度「kappa[i_band][i_mix]」、方位角「gamma1[i_band][i_mix][φ]」、および仰角「gamma1[i_band][i_mix][θ]」からなるパラメータの集合が式(3)におけるパラメータΘkとなる。
 選択フラグ「dist_flag」は、モデルとしての分布関数がKent分布とvMF分布の何れの分布であるかを示すフラグ情報である。
 選択フラグ「dist_flag」の値「1」はモデルがKent分布であることを示しており、選択フラグ「dist_flag」の値「0」はモデルがvMF分布であることを示している。
 vMF分布は、上述の式(1)を参照して説明したように、集中度κと、ベクトルγの方位角および仰角で表すことができる。
 これに対して、Kent分布は、vMF分布における場合と同様の集中度κ、ベクトルγの方位角および仰角と、楕円率β、major軸ベクトルγ、およびminor軸ベクトルγとにより表すことができる。
 そのため、共通パラメータ記録部W41では、モデルの選択フラグ「dist_flag」の値が「1」である場合、さらにそのモデル(Kent分布)の楕円率β、major軸ベクトルγ、およびminor軸ベクトルγを得るための情報が格納されている。
 すなわち、楕円率「beta[i_band][i_mix]」と、major軸ベクトルγの方位角「gamma2[i_band][i_mix][φ]」および仰角「gamma2[i_band][i_mix][θ]」と、minor軸ベクトルγの方位角「gamma3[i_band][i_mix][φ]」および仰角「gamma3[i_band][i_mix][θ]」とが格納されている。特に、ここではmajor軸ベクトルγおよびminor軸ベクトルγが方位角と仰角で表現されている。
 固有パラメータ記録部W42には、全周波数ビンの数、すなわち全記録対象データの数を示す周波数ポイント数「bin_count」が格納されている。
 また、固有パラメータ記録部W42には、周波数ポイント数「bin_count」の分だけ、すなわち記録対象データ(周波数ビン)の数だけ、それらの記録対象データについてのスケールファクタ「scale_factor[i_bin]」、オフセット値「offset[i_bin]」、および固有部分の混合モデルを構成するモデル(分布関数)の数であるサブ混合数「mix_count_bin[i_bin]」が格納されている。
 スケールファクタ「scale_factor[i_bin]」およびオフセット値「offset[i_bin]」は、上述した式(3)におけるスケールファクタSjおよびオフセット値Cjに対応し、サブ混合数「mix_count_bin[i_bin]」は式(3)におけるK(j)に対応する。
 さらに固有パラメータ記録部W42には、全記録対象データについて、サブ混合数「mix_count_bin[i_bin]」の分(数)だけ、固有部分の混合モデルを構成する各モデルのモデルパラメータ等が格納されている。
 具体的には、固有部分の混合モデルの各モデルについて、モデルの重み「weight[i_bin][i_mix]」、集中度「kappa[i_bin][i_mix]」、ベクトルγ(mean vector)の方位角「gamma1[i_bin][i_mix][φ]」、ベクトルγの仰角「gamma1[i_bin][i_mix][θ]」、および選択フラグ「dist_flag[i_bin][i_mix]」が格納されている。
 ここで、重み「weight[i_bin][i_mix]」は、上述した式(3)における重みwjkに対応する。また、集中度「kappa[i_bin][i_mix]」は、vMF分布またはKent分布の集中度κを示しており、方位角「gamma1[i_bin][i_mix][φ]」および仰角「gamma1[i_bin][i_mix][θ]」からなるベクトルは、vMF分布またはKent分布のベクトルγ(mean vector)となる。
 例えばモデルがvMF分布である場合には、集中度「kappa[i_bin][i_mix]」、方位角「gamma1[i_bin][i_mix][φ]」、および仰角「gamma1[i_bin][i_mix][θ]」からなるパラメータの集合が、上述の式(3)におけるパラメータΘjkとなる。
 なお、固有パラメータ記録部W42で記されるインデックス[i_mix]は、固有部分の混合モデルを構成するモデルを示すインデックスであり、共通パラメータ記録部W41で記される共通混合モデルを構成するモデルのインデックス[i_mix]とは異なるものである。
 選択フラグ「dist_flag[i_bin][i_mix]」は、固有部分の混合モデルを構成するモデルとしての分布関数がKent分布とvMF分布の何れの分布であるかを示すフラグ情報である。
 選択フラグ「dist_flag[i_bin][i_mix]」の値「1」は、モデルがKent分布であることを示しており、選択フラグ「dist_flag[i_bin][i_mix]」の値「0」は、モデルがvMF分布であることを示している。
 モデルの選択フラグ「dist_flag[i_bin][i_mix]」の値が「1」である場合、さらにそのモデルとしてのKent分布の楕円率β、major軸ベクトルγ、およびminor軸ベクトルγを得るための情報が固有パラメータ記録部W42に格納されている。
 すなわち、楕円率「beta[i_bin][i_mix]」と、major軸ベクトルγの方位角「gamma2[i_bin][i_mix][φ]」および仰角「gamma2[i_bin][i_mix][θ]」と、minor軸ベクトルγの方位角「gamma3[i_bin][i_mix][φ]」および仰角「gamma3[i_bin][i_mix][θ]」とが格納されている。共通パラメータ記録部W41における場合と同様に、major軸ベクトルγおよびminor軸ベクトルγが方位角と仰角で表現されている。
 図12は、個別指定方式で記録対象データを記録または伝送する場合のシンタックス例を示している。
 図12の例では、データ全体のうちの図中、上側のW51に示す部分は、図11に示した共通パラメータ記録部W41と同様の部分(以下、共通パラメータ記録部W51とも称する)となっている。
 また、データ全体のうちの図中、ほぼ中央のW52に示す部分は、候補パラメータが格納された部分(以下、候補パラメータ記録部W52とも称する)となっている。データ全体のうちの図中、下側のW53に示す部分は、図11に示した固有パラメータ記録部W42に対応する部分(以下、固有パラメータ記録部W53とも称する)となっている。
 共通パラメータ記録部W51は、図11の共通パラメータ記録部W41と同じとなっており、共通パラメータ記録部W51には共通部分のモデルパラメータ等が格納されている。
 候補パラメータ記録部W52には、予め用意された候補パラメータの数を示すサブ混合数「mix_count[i_band]」が格納されている。ここでのサブ混合数「mix_count[i_band]」は、図8を参照して説明した例における候補パラメータの個数K(A)に対応する。
 候補パラメータ記録部W52には、サブ混合数「mix_count[i_band]」の分だけ、固有部分の混合モデルを構成するモデルの候補(以下、候補モデルとも称する)のモデルパラメータ(候補パラメータ)等が格納されている。
 すなわち、候補パラメータ等として、モデルの重み「weight[i_band][i_mix]」、集中度「kappa[i_band][i_mix]」、ベクトルγ(mean vector)の方位角「gamma1[i_band][i_mix][φ]」、ベクトルγの仰角「gamma1[i_band][i_mix][θ]」、および選択フラグ「dist_flag[i_band][i_mix]」が格納されている。
 選択フラグ「dist_flag[i_band][i_mix]」は、候補モデルとしての分布関数がKent分布とvMF分布の何れの分布であるかを示すフラグ情報である。
 選択フラグ「dist_flag[i_band][i_mix]」の値「1」は、候補モデルがKent分布であることを示しており、選択フラグ「dist_flag[i_band][i_mix]」の値「0」は、候補モデルがvMF分布であることを示している。
 候補モデルの選択フラグ「dist_flag[i_band][i_mix]」の値が「1」である場合、さらにその候補モデルを得るための候補パラメータとして、楕円率「beta[i_band][i_mix]」と、major軸ベクトルγの方位角「gamma2[i_band][i_mix][φ]」および仰角「gamma2[i_band][i_mix][θ]」と、minor軸ベクトルγの方位角「gamma3[i_band][i_mix][φ]」および仰角「gamma3[i_band][i_mix][θ]」とが格納されている。
 例えば、候補モデルの重み「weight[i_band][i_mix]」や集中度「kappa[i_band][i_mix]」などのパラメータの集合は、図8を参照して説明した例における候補パラメータΘj,wjに対応する。
 固有パラメータ記録部W53には、全記録対象データの数を示す周波数ポイント数「bin_count」が格納されている。
 また、固有パラメータ記録部W53には、図11の固有パラメータ記録部W42における場合と同様に、周波数ポイント数「bin_count」の分だけ、スケールファクタ「scale_factor[i_bin]」、オフセット値「offset[i_bin]」、および固有部分の混合モデルを構成するモデル(分布関数)の数であるサブ混合数「mix_count_bin[i_bin]」が格納されている。サブ混合数「mix_count_bin[i_bin]」は、図8を参照して説明したK(1)等に対応する。
 固有パラメータ記録部W53には、周波数ポイント数「bin_count」により示される数の各記録対象データ(周波数ビン)について、記録対象データのサブ混合数「mix_count_bin[i_bin]」の数だけインデックス「index_mix_sub[i_bin][i_mix]」が格納されている。
 インデックス「index_mix_sub[i_bin][i_mix]」は、図8を参照して説明した、インデックスi11等の候補パラメータを示すインデックスに対応する。特に、インデックス「index_mix_sub[i_bin][i_mix]」におけるインデックス[i_mix]は、記録対象データの固有部分の混合モデルを構成するモデルを示すインデックスとなっている。
 インデックス「index_mix_sub[i_bin][i_mix]」は、候補パラメータ記録部W52に格納されている候補パラメータのうちの何れか1つを示すインデックス情報である。すなわち、インデックス「index_mix_sub[i_bin][i_mix]」によって、候補パラメータ記録部W52に格納されている候補パラメータのなかから、記録対象データの固有部分の混合モデルを構成するモデルのモデルパラメータとして用いるものが指定される。
〈サーバの構成例〉
 図13は、本技術を適用したサーバの一実施の形態の構成例を示す図である。
 図13に示すサーバ11は、例えばコンピュータなどからなる情報処理装置であり、コンテンツの配信を行う符号化装置として機能する。
 例えばコンテンツを再生するためのデータは、1または複数の各オブジェクト(オーディオオブジェクト)のオーディオデータと、オブジェクトごと、より詳細には音源種別ごとに用意された、音源(オブジェクト)の指向性、すなわち指向特性を表す指向性データとから構成される。なお、コンテンツを再生するためのデータには、オーディオデータに対応する映像データや触覚データなどが含まれていてもよい。
 サーバ11は、パラメータ生成部21、パラメータ符号化部22、オーディオデータ符号化部23、および出力部24を有している。
 パラメータ生成部21には、各オブジェクト(音源種別)について、記録対象データとしての指向性データが供給される。
 ここでは、指向性データとして、周波数(周波数帯域)ごと、すなわち周波数ビンごとに用意された、オブジェクトを中心とする球面上の各位置における指向性ゲインからなるデータが供給されるとする。この場合、指向性データは、球表面上の位置を示す座標と、その位置における指向性ゲインの値とを有する、球表面上で分布する離散データとなる。以下では、指向性データが指向性ゲインの値を有する球面上の位置をデータポイントとも称することとする。
 パラメータ生成部21は、供給された複数の指向性データのグループ化を行い、グループ化の結果に応じて共通部分のモデルパラメータ(共通部分データ)と、固有部分のモデルパラメータ(固有部分データ)を生成してパラメータ符号化部22に供給する。
 パラメータ生成部21は、グループ決定部31、モデル化部32、および判定部33を有している。
 グループ決定部31は、伝送対象(記録対象)となる全指向性データを対象として、それらの各指向性データが1または複数のグループの何れかに属すように、指向性データのグループ化を行う。
 モデル化部32は、指向性データをモデル化し、共通部分や固有部分のモデルパラメータを生成する。例えばモデル化部32では、指向性データそのものがモデル化されてもよいし、指向性データの共通部分と固有部分とが個別にモデル化されてもよい。共通部分と固有部分とが個別にモデル化される場合、共通部分と固有部分とで互いに異なるモデルが用いられてモデル化されるようにしてもよい。
 判定部33は、グループに属す指向性データ等に基づいて、指向性データの各部(各領域)を共通部分とするか、または固有部分とするかを判定する。
 パラメータ符号化部22は、パラメータ生成部21から供給されたモデルパラメータ等を符号化し、その結果得られた符号化指向性データを出力部24に供給する。
 オーディオデータ符号化部23は、供給された各オブジェクトのオーディオデータを符号化し、その結果得られた符号化オーディオデータを出力部24に供給する。
 出力部24は、パラメータ符号化部22から供給された符号化指向性データと、オーディオデータ符号化部23から供給された符号化オーディオデータとを多重化することでビットストリームを生成し、出力する。
 なお、ここでは説明を簡単にするため、符号化指向性データと符号化オーディオデータとが同時に出力される例について説明するが、これらの符号化指向性データと符号化オーディオデータは個別に生成され、互いに異なるタイミングで出力されるようにしてもよい。また、符号化指向性データと符号化オーディオデータは、互いに異なる装置により生成されてもよい。
〈符号化処理の説明〉
 次に、サーバ11の動作について説明する。すなわち、以下、図14のフローチャートを参照して、サーバ11による符号化処理について説明する。
 ステップS11においてパラメータ生成部21のグループ決定部31は、供給された複数のオブジェクトの指向性データに基づいて、それらの複数の指向性データの類似度合いに基づくグループ分け(グループ化)を行う。
 例えばグループ決定部31は、指向性データに基づいて、全指向性データのうちの2つの指向性データの組み合わせごとに、それらの2つの指向性データ間のSADやSSDなどといった相関値を評価指標として計算する。評価指標の計算は、2つの指向性データの全ての組み合わせについて行われてもよいし、必要な組み合わせについてのみ行われてもよい。
 グループ決定部31は、各組み合わせの評価指標の計算結果に基づいて、各指向性データが1または複数のグループのうちの何れかのグループに属すようにグループ化を行う。このとき、評価指標が所定の閾値以下となる組み合わせの指向性データは、同じグループに属すようにされる。
 ステップS12においてパラメータ生成部21は、グループごとに、各指向性データの共通部分と固有部分のモデルパラメータを生成する。
 例えば判定部33は、グループに属す全指向性データに基づいて、そのグループを代表する代表データを決定し、グループに属す各指向性データについて、代表データと指向性データとの間の各位置(グリッド)での絶対誤差や二乗誤差等の誤差を計算する。
 そして、判定部33は、グループに属す全指向性データについて得られた各位置での誤差に基づいて、それらの位置を共通部分とするか、または固有部分とするかを決定する。この場合、例えば全指向性データの同じ位置での誤差の平均値や総和が所定の閾値以下となるときには、その位置が共通部分とされ、共通部分とされなかった位置は固有部分とされる。
 なお、グループに属す指向性データ同士で、各位置(グリッド)での絶対誤差や二乗誤差などといった誤差が計算され、その計算結果に基づいて共通部分と固有部分とが決定されるようにしてもよい。
 モデル化部32は、グループに属す各指向性データについて、共通部分と固有部分の決定結果、および指向性データに基づいてモデル化を行う。
 一例として、例えばモデル化部32は、グループの代表データにおける共通部分の領域のデータを抽出し、代表データの共通部分をvMF分布やKent分布などといった1または複数のモデル(分布関数)からなる混合モデルで表す(表現する)ことで、代表データをモデル化する。
 これにより、グループの共通部分を表す混合モデル、すなわち共通混合モデルのモデルパラメータが得られる。例えば、上述した式(3)におけるパラメータΘ1~ΘKおよび重みw1~wKが共通混合モデルのモデルパラメータとして得られる。
 また、モデル化部32は、グループに属す指向性データごとに、指向性データにおける固有部分のデータを抽出し、指向性データの固有部分をvMF分布やKent分布などといった1または複数のモデル(分布関数)からなる混合モデルで表すことで、固有部分をモデル化する。
 これにより、指向性データの固有部分を表す混合モデルのモデルパラメータが得られる。例えば、上述した式(3)におけるパラメータΘj1~ΘjK(j)および重みwj1~wjK(j)が固有部分の混合モデルのモデルパラメータとして得られる。
 さらにモデル化部32は、グループに属す指向性データごとに、指向性データと、共通部分のモデルパラメータと、固有部分のモデルパラメータとに基づいて、スケールファクタおよびオフセット値を算出(生成)する。一例として、例えば指向性データそのものが上述の式(3)におけるFj(x)とされてスケールファクタSjおよびオフセット値Cjが求められる。
 なお、共通部分や固有部分のモデルパラメータ等は、コンテンツの制作者等によって指定されるようにしてもよい。
 また、共通部分と固有部分が決定されてからモデル化が行われるのではなく、モデル化後に共通部分と固有部分が決定されるようにしてもよい。
 そのような場合、例えばモデル化部32は、グループに属す全指向性データをvMF分布やKent分布などといった1または複数のモデル(分布関数)からなる混合モデルで表すことで、指向性データをモデル化する。なお、指向性データの混合モデルのモデルパラメータ、すなわち各モデルの重みとモデルパラメータは、コンテンツの制作者等によって指定されるようにしてもよい。
 判定部33は、各指向性データについて得られた混合モデルを構成するモデル(分布関数)に基づいて、互いに異なる指向性データの混合モデルを構成するモデル間の距離等を類似度としてモデルごとに算出する。すなわち、所定の指向性データの混合モデルを構成する1つのモデルと、他の指向性データの混合モデルを構成する1つのモデルとの類似度が計算される。
 判定部33は、モデルごとに得られた、他のモデルとの類似度に基づいて、各指向性データについて、混合モデルを構成するモデルごとに、そのモデルを、共通部分を表すモデルとするか、または固有部分を表すモデルとするかを決定(判定)する。
 一例として、所定の指向性データの混合モデルを構成するモデルのうち、1つの注目するモデルを注目モデルと称し、他の指向性データの混合モデルを構成するモデルのうち、注目モデルとの類似度が閾値以上となるモデルを類似モデルと称することとする。
 この場合、例えば所定の指向性データの注目モデルについて、その所定の指向性データとは異なる他の全ての指向性データに、注目モデルと類似する類似モデルがあるときには、その注目モデルは共通部分を表すモデルであるとされる。逆に、他の全ての指向性データに、注目モデルと類似する類似モデルがないときには、その注目モデルは固有部分を表すモデルとされる。
 モデル化部32は、グループに属す全指向性データの共通部分とされたモデル、より詳細にはモデルに関するモデルパラメータに基づいて、共通部分を表す共通混合モデルのモデルパラメータを生成(算出)する。例えば各指向性データの共通部分のモデルのモデルパラメータを代表する1つのモデルパラメータや、各指向性データの共通部分のモデルのモデルパラメータの平均値などが、グループの共通部分のモデルパラメータとされる。代表となるモデルパラメータは、例えば中央値となるものや、指定操作等により指定されたものなどとされる。
 また、モデル化部32は、各指向性データの固有部分とされたモデルのモデルパラメータを、そのまま固有部分のモデルパラメータとする。
 さらに、モデル化部32は、グループに属す指向性データごとに、指向性データと、共通部分のモデルパラメータと、固有部分のモデルパラメータとに基づいて、スケールファクタおよびオフセット値を算出(生成)する。
 なお、上述のように、グループに属す複数の指向性データを対象として、さらにグループ化を行い、サブグループを形成するようにしてもよい。
 そのような場合、グループ決定部31は、上述のグループの決定時と同様の処理を行って、グループに属す指向性データが、適宜、1または複数のサブグループのうちの何れかに属すようにグループ化を行う。なお、何れのサブグループにも属さない指向性データがあってもよい。
 パラメータ生成部21では、グループに属す指向性データの固有部分のデータが対象とされてさらにグループ化が行われ、その結果形成されたグループがサブグループとされる。サブグループを形成する場合、指向性データのモデル化の結果として、グループの共通部分のモデルパラメータ、サブグループの共通部分のモデルパラメータ、各指向性データの固有部分のモデルパラメータ、および各指向性データのスケールファクタとオフセット値が得られる(生成される)ことになる。
 指向性データの伝送(記録)時に個別記録方式が採用される場合、パラメータ生成部21は、指向性データのモデル化結果として、グループの共通部分のモデルパラメータ、各指向性データの固有部分のモデルパラメータ、および各指向性データのスケールファクタとオフセット値をパラメータ符号化部22に供給する。
 個別指定方式が採用される場合、パラメータ生成部21では、固有部分の混合モデルの候補モデルのモデルパラメータ(候補パラメータ)が用意されている。例えば、各候補パラメータには、それらの候補パラメータを一意に識別可能なインデックスが付与されている。例えば、候補パラメータは予め用意されているようにすることができる。
 個別指定方式が採用される場合、パラメータ生成部21は、各指向性データについて、指向性データの固有部分の混合モデルを構成するモデルごとに、候補モデルのなかから、そのモデルと最も類似する候補モデルを1つ選択する。換言すれば、固有部分のモデルのモデルパラメータに最も類似する1つの候補パラメータが選択される。候補モデルとの類似度合いは、例えば分布中心の位置の近さなど、モデル間の距離等により求められる。
 パラメータ生成部21は、固有部分の混合モデルを構成する各モデルに対して選択された候補モデルの候補パラメータを示すインデックス(以下、モデルインデックスとも称する)を、復元により固有部分のモデルを得るための情報(固有部分データ)とする。
 パラメータ生成部21は、指向性データのモデル化結果として、グループの共通部分のモデルパラメータ、各指向性データの固有部分の各モデルのモデルインデックス、および各指向性データのスケールファクタとオフセット値をパラメータ符号化部22に供給する。
 また、個別指定方式では、必要に応じて候補パラメータもパラメータ符号化部22へと供給され、候補パラメータがビットストリーム(符号化指向性データ)に格納される。なお、個別指定方式では、候補パラメータ(候補モデル)が選択されてから、候補パラメータや共通部分のモデルパラメータ、指向性データなどが用いられてスケールファクタとオフセット値が求められるようにしてもよい。
 組み合わせ指定方式が採用される場合、パラメータ生成部21では、混合モデルを得るための1または複数の候補パラメータ(候補モデル)の組み合わせが用意されており、それらの各組み合わせを示すフラグ情報の値が予め定められている。以下、候補パラメータ(候補モデル)の組み合わせを、特に候補組み合わせとも称し、候補組み合わせを構成する各候補パラメータにより得られる混合モデルを候補混合モデルとも称することとする。
 パラメータ生成部21は、各指向性データについて、指向性データの固有部分の混合モデルごとに、候補混合モデルのなかから、その混合モデルと最も類似する候補混合モデルを1つ選択する。換言すれば、固有部分の混合モデルのモデルパラメータに最も類似する1つの候補混合モデルの候補組み合わせが選択される。
 パラメータ生成部21は、固有部分の混合モデルに対して選択された候補組み合わせを示す値を有するフラグ情報を、復元により固有部分の混合モデルを得るための情報(固有部分データ)とする。
 パラメータ生成部21は、指向性データのモデル化結果として、グループの共通部分のモデルパラメータ、各指向性データの固有部分のフラグ情報、および各指向性データのスケールファクタとオフセット値をパラメータ符号化部22に供給する。
 また、組み合わせ指定方式では、必要に応じて候補パラメータもパラメータ符号化部22へと供給され、候補パラメータがビットストリームに格納される。なお、組み合わせ指定方式においても、候補混合モデル(候補組み合わせ)が選択されてから、候補組み合わせや共通部分のモデルパラメータ、指向性データなどが用いられてスケールファクタとオフセット値が求められるようにしてもよい。
 指向性データの伝送時に個別記録方式、個別指定方式、組み合わせ指定方式のうちの何れの方式が採用されるかは、例えばコンテンツ製作者等により指定されるようにしてもよいし、予め定められているようにしてもよい。
 ステップS13においてパラメータ符号化部22は、パラメータ生成部21から供給されたモデルパラメータ等(指向性データのモデル化結果)を所定の符号化方式で符号化し、その結果得られた符号化指向性データを出力部24に供給する。これにより、例えば図11や図12に示したデータが符号化指向性データとして得られる。
 なお、符号化方式は、算術符号化やハフマン符号化など、どのような符号化方式であってもよい。同様に、以下において所定の符号化方式で符号化すると説明する場合においても、符号化方式はどのような方式であってもよい。
 ステップS14においてオーディオデータ符号化部23は、供給された各オブジェクトのオーディオデータを符号化し、その結果得られた符号化オーディオデータを出力部24に供給する。
 なお、各オブジェクトのオーディオデータに対してメタデータがあるときには、オーディオデータ符号化部23またはパラメータ符号化部22は、各オブジェクト(オーディオデータ)のメタデータも符号化し、その結果得られた符号化メタデータを出力部24に供給する。
 例えばメタデータには、そのオブジェクトの3次元空間における絶対的な位置または相対的な位置を示すオブジェクト位置情報(例えば、x-y-z形式や極座標形式で表されてもよい)や、3次元空間におけるオブジェクトの向きを示すオブジェクト方向情報、オブジェクト(音源)の種別を示す音源種別情報、オブジェクトの優先度を示す優先度情報、オブジェクトの広がり具合を示すスプレッド情報などが含まれている。例えば優先度情報により示される優先度は、0から7までの値とされ、最も優先度の高いオブジェクトには7が設定されるようにしてもよいし、オブジェクトの広がり具合を示すスプレッド情報として、予め定められた個数のスプレッドベクトルが用いられてもよい。また、前述したもの以外のデータがメタデータに含まれていてもよい。
 ステップS15において出力部24は、パラメータ符号化部22から供給された符号化指向性データと、オーディオデータ符号化部23から供給された符号化オーディオデータとを多重化してビットストリームを生成し、出力する。なお、符号化メタデータがある場合には、その符号化メタデータもビットストリームに格納される。
 出力部24は、クライアントとして機能する情報処理装置にビットストリームを送信する。このようにして送信されたビットストリームには、各グループの共通部分を得るための共通部分データとしてのモデルパラメータと、各指向性データの固有部分を得るための固有部分データとしてのモデルパラメータなどのデータとが含まれていることになる。
 ビットストリームが送信されると、符号化処理は終了する。
 以上のようにしてサーバ11は、記録対象データとしての複数の指向性データをグループ化し、共通部分のモデルパラメータと、固有部分のモデルパラメータ等とを含むビットストリームを出力する。
 このようにすることで、記録効率を向上させつつ、復元時により精度の高いデータ(指向性データ)を得ることができる。
 すなわち、グループに属す指向性データを共通部分と固有部分とに分け、共通部分については、グループで1つのモデルパラメータとすることで、記録に必要となるデータ量を削減し、記録効率(伝送効率)を向上させることができる。また、固有部分については、指向性データごとにモデルパラメータ等を記録(伝送)することで、復元時に、もとの指向性データに近いデータ、すなわちより精度の高い指向性データを得ることができる。
〈情報処理装置の構成例〉
 サーバ11から出力されたビットストリームを取得し、コンテンツの音を再生するための出力オーディオデータを生成するクライアントとして機能する情報処理装置は、例えば図15に示すように構成される。図15に示す情報処理装置61は、例えばパーソナルコンピュータやスマートフォン、タブレット、ヘッドマウントディスプレイ、ゲーム機器などからなる。
 情報処理装置61は、取得部71、指向性データ復号部72、オーディオデータ復号部73、およびレンダリング処理部74を有している。
 取得部71は、サーバ11から出力されたビットストリームを取得(受信)するとともに、ビットストリームから符号化指向性データや符号化オーディオデータを抽出する。取得部71は、符号化指向性データを指向性データ復号部72に供給するとともに、符号化オーディオデータをオーディオデータ復号部73に供給する。
 指向性データ復号部72は、取得部71から供給された符号化指向性データに対する復号を行い、指向性データを復元(算出)する。
 指向性データ復号部72は、アンパッキング部81、指向性データ復元部82、および周波数補間処理部83を有している。
 アンパッキング部81は、取得部71から供給された符号化指向性データに対するアンパッキングや復号を行うことで、符号化指向性データに含まれているモデルパラメータ等のデータを抽出し、指向性データ復元部82に供給する。
 指向性データ復元部82は、アンパッキング部81から供給されたデータに基づいて、指向性データを復元(算出)し、周波数補間処理部83に供給する。
 例えば指向性データ復元部82は、共通部分のモデルパラメータ(共通部分データ)や固有部分のモデルパラメータ(固有部分データ)、スケールファクタ、オフセット値などに基づき指向性データを復元する。
 周波数補間処理部83は、指向性データ復元部82から供給された指向性データに対して周波数方向の補間処理を行い、その結果得られた指向性データをレンダリング処理部74に供給する。ここで、周波数方向の補間処理は、例えば直線を用いた線形補間であってもよいし、スプライン曲線や三次関数等を用いた非線形補間であってもよい。また、周波数方向の補間処理は、線形補間と非線形補間の組み合わせであってもよい。さらに、上述した直線や関数以外が用いられて補間が行われてもよい。
 オーディオデータ復号部73は、取得部71から供給された符号化オーディオデータに対する復号を行い、その結果得られた各オブジェクトのオーディオデータをレンダリング処理部74に供給する。
 また、ビットストリームに符号化メタデータが含まれている場合、オーディオデータ復号部73またはアンパッキング部81は、取得部71から供給された符号化メタデータを復号し、その結果得られたメタデータをレンダリング処理部74に供給する。
 レンダリング処理部74は、周波数補間処理部83から供給された指向性データと、オーディオデータ復号部73から供給されたオーディオデータとに基づいて出力オーディオデータを生成する。すなわち、レンダリング処理部74は、少なくとも指向性データとオーディオデータとを用いたレンダリング処理を行い、出力オーディオデータを生成する。
 レンダリング処理部74は、指向性データ保持部84、HRTFデータ保持部85、時間補間処理部86、指向性畳み込み部87、およびHRTF畳み込み部88を有している。
 指向性データ保持部84およびHRTFデータ保持部85には、ユーザ等の指定やセンサ等による測定などに応じて、視点位置情報、受聴者方向情報、オブジェクト位置情報、およびオブジェクト方向情報が供給される。
 例えば視点位置情報は、コンテンツを視聴するユーザ(受聴者)の3次元空間における視点位置(受聴位置)を示す情報であり、受聴者方向情報は、3次元空間における、コンテンツを視聴するユーザの顔の向きを示す情報である。
 また、ビットストリームに符号化メタデータが含まれている場合、オブジェクト位置情報およびオブジェクト方向情報は、符号化メタデータの復号により得られたメタデータから抽出され、指向性データ保持部84とHRTFデータ保持部85に供給される。
 その他、指向性データ保持部84には、メタデータから抽出されるなどして得られた音源種別情報も供給され、HRTFデータ保持部85には、適宜、コンテンツを視聴するユーザを示すユーザIDが供給される。
 指向性データ保持部84は、周波数補間処理部83から供給された指向性データを保持する。また、指向性データ保持部84は、保持している指向性データのなかから、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、および音源種別情報に応じた指向性データを読み出して時間補間処理部86に供給する。
 HRTFデータ保持部85は、ユーザIDにより示される各ユーザについて、ユーザ(受聴者)から見た複数の方向ごとにHRTFを保持している。
 HRTFデータ保持部85は、保持しているHRTFのなかから、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、およびユーザIDに応じたHRTFを読み出してHRTF畳み込み部88に供給する。
 時間補間処理部86は、指向性データ保持部84から供給された指向性データに対して、時間方向の補間処理を行い、その結果得られた指向性データを指向性畳み込み部87に供給する。ここで、時間方向の補間処理は、例えば直線を用いた線形補間であってもよいし、スプライン曲線や三次関数等を用いた非線形補間であってもよい。また、時間方向の補間処理は、線形補間と非線形補間の組み合わせであってもよい。さらに、上述した直線や関数以外が用いられて補間が行われてもよい。
 指向性畳み込み部87は、オーディオデータ復号部73から供給されたオーディオデータと、時間補間処理部86から供給された指向性データとを畳み込み、その結果得られたオーディオデータをHRTF畳み込み部88に供給する。指向性データの畳み込みにより、オーディオデータに対して、オブジェクト(音源)が有する指向特性が付加される。
 HRTF畳み込み部88は、指向性畳み込み部87から供給されたオーディオデータ、すなわち指向性データが畳み込まれたオーディオデータと、HRTFデータ保持部85から供給されたHRTFとを畳み込み、その結果得られたオーディオデータを出力オーディオデータとして出力する。HRTFの畳み込みにより、ユーザ(受聴者)から見たオブジェクトの位置に、そのオブジェクトの音が定位する出力オーディオデータを得ることができる。なお、HRTFの畳み込みは、出力オーディオデータの出力先デバイスの種別やレイアウトによって実行されてもよいし、実行されなくてもよい。例えば、出力オーディオデータの出力先デバイスが、イヤホンやヘッドホン、補聴器、集音器などのような2チャンネルで構成されるデバイスの場合はHRTFの畳み込みが実行され、出力先デバイスがMチャンネル(M>2)で構成されるスピーカ群などである場合には、HRTFの畳み込みが実行されないようにしてもよい。なお、上述した例に限らず、例えば出力先デバイスがAR/VR等に用いられるHMD(Head Mounted Display)である場合にHRTFの畳み込みが実行されるようにしてもよいし、仮想空間内を歩き回るユーザと仮想音源(オーディオオブジェクト)との位置関係等に応じてHRTFの畳み込みが実行されてもよい。
 なお、ここでは、オーディオデータのレンダリング処理として、HRTFの畳み込み処理が行われる例について説明する。また、より詳細には指向性データの畳み込みもレンダリング処理の一部ということができる。しかし、これに限らず、レンダリング処理として、VBAP(Vector Based Amplitude Panning)やBRIR(Binaural Room Impulse Response)、HOA(Higher Order Ambisonics)などが用いられた処理が行われるようにしてもよい。VBAPの処理は2次元VBAPまたは3次元VBAPのいずれであってもよいし、両方を組み合わせた処理であってもよい。なお、オーディオデータの出力先がヘッドホンやイヤホン、補聴器、集音器等の左右2チャンネルのデバイスではなく、例えばMチャンネル(M>2)のスピーカである場合は、HRTFの畳み込み処理が行われなくてもよい。
 この場合、例えばレンダリング処理では、オブジェクトのオーディオデータに指向性データが畳み込まれた後、VBAP等が行われて出力オーディオデータが生成される。また、HRTF畳み込み部88にて、例えばHRTFやBRIRを畳み込むことで、例えばMチャンネル(M>2)のオーディオデータを2チャンネルのオーディオデータに変換して出力してもよい。このようにすることで、例えばヘッドホンやイヤホン、補聴器、集音器等の左右2チャンネルのデバイスで視聴をする際に、ユーザ(受聴者)から見たオブジェクトの位置に、そのオブジェクトの音が定位する出力オーディオデータを得ることができ、より臨場感のある立体音響体験を提供することができる。なお、レンダリング処理においては、オブジェクト(オーディオデータ)のメタデータも用いられるということができる。
 なお、指向性データ復号部72と、オーディオデータ復号部73およびレンダリング処理部74とは、異なる装置に設けられるようにしてもよい。
〈指向性データ生成処理の説明〉
 次に、情報処理装置61の動作について説明する。
 まず、情報処理装置61が各音源種別(オブジェクト)の指向性データを生成するときに行われる指向性データ生成処理について説明する。すなわち、以下、図16のフローチャートを参照して、情報処理装置61による指向性データ生成処理について説明する。
 この指向性データ生成処理は、サーバ11から送信されてきたビットストリームを取得部71が受信(取得)し、取得部71がビットストリームから抽出した符号化指向性データをアンパッキング部81に供給すると開始される。
 ステップS81においてアンパッキング部81は、取得部71から供給された符号化指向性データに対するアンパッキングや復号を行う。
 例えばアンパッキング部81は、符号化指向性データをパラメータ符号化部22での符号化方式に対応する復号方式で復号し、その結果得られた共通部分のモデルパラメータなどを指向性データ復元部82に供給する。
 ステップS82において指向性データ復元部82は、アンパッキング部81から供給されたデータ(情報)に基づいて、指向性データを復元(生成)し、周波数補間処理部83に供給する。
 個別記録方式が採用されている場合、指向性データ復元部82は、グループの共通部分のモデルパラメータと、指向性データの固有部分のモデルパラメータと、指向性データのスケールファクタおよびオフセット値とに基づいて上述した式(3)を計算することで、指向性データを復元する。
 また、個別指定方式が採用されている場合、指向性データ復元部82は、各指向性データについて、固有部分の各モデルのモデルインデックスに基づいて、それらのモデルインデックスにより示される候補パラメータを取得する。候補パラメータは、符号化指向性データに含まれているようにしてもよいし、予めサーバ11や他の装置等から取得されて指向性データ復元部82で保持されているようにしてもよい。
 指向性データ復元部82は、グループの共通部分のモデルパラメータと、指向性データの固有部分の候補パラメータと、指向性データのスケールファクタおよびオフセット値とに基づいて上述した式(3)と同様の計算を行うことで、指向性データを復元する。
 さらに、組み合わせ指定方式が採用されている場合、指向性データ復元部82は、各指向性データについて、固有部分のフラグ情報の値に基づいて、その固有部分の混合モデルを得るための候補パラメータを取得する。すなわち、指向性データ復元部82は、フラグ情報の値から候補組み合わせを特定し、その候補組み合わせを構成する候補パラメータを取得する。
 候補組み合わせを構成する候補パラメータは、個別指定方式における場合と同様に、符号化指向性データに含まれているようにしてもよいし、予めサーバ11や他の装置等から取得されて指向性データ復元部82で保持されているようにしてもよい。
 指向性データ復元部82は、グループの共通部分のモデルパラメータと、指向性データの固有部分の候補パラメータと、指向性データのスケールファクタおよびオフセット値とに基づいて上述した式(3)と同様の計算を行うことで、指向性データを復元する。
 なお、符号化指向性データにサブグループの共通部分のモデルパラメータが含まれている場合には、指向性データ復元部82は、グループの共通部分のモデルパラメータと、サブグループの共通部分のモデルパラメータと、固有部分のモデルパラメータと、スケールファクタおよびオフセット値とに基づいて指向性データを復元する。
 また、指向性データの復元にあたっては、共通部分や固有部分の一部のモデルのモデルパラメータが用いられないようにしたり、一部のモデルパラメータが他のモデルパラメータに置き換えられたり、復元に用いるモデルパラメータが追加されたりしてもよい。このようなモデルパラメータの削除(不使用)や追加、置き換え等の詳細については後述する。
 ステップS83において周波数補間処理部83は、指向性データ復元部82から供給された指向性データに対して周波数方向の補間処理を行い、補間処理により得られた指向性データを指向性データ保持部84に供給して保持させる。
 例えばオブジェクトのオーディオデータが周波数領域のデータであり、オーディオデータが複数の周波数ビンごとに周波数成分値を有しているとする。そのような場合、周波数方向の補間処理では、例えばオーディオデータが周波数成分値を有する全周波数ビンについて、指向性データが生成されるように、必要な周波数ビンの指向性データが補間処理により生成(算出)される。
 周波数方向の補間処理が行われ、指向性データ保持部84に指向性データが保持されると、指向性データ生成処理は終了する。
 以上のようにして情報処理装置61は、符号化指向性データから指向性データを生成する。このようにすることで、復号側では、少ないデータ量の符号化指向性データから、より精度の高い指向性データを得ることができる。すなわち、記録効率を向上させつつ、復元時により精度の高いデータ(指向性データ)を得ることができる。
〈出力オーディオデータ生成処理の説明〉
 図17のフローチャートを参照して、情報処理装置61により行われる出力オーディオデータ生成処理について説明する。この出力オーディオデータ生成処理は、図16を参照して説明した指向性データ生成処理が行われた後の任意のタイミングで行われる。
 ステップS141においてオーディオデータ復号部73は、取得部71から供給された符号化オーディオデータの復号を行い、その結果得られたオーディオデータを指向性畳み込み部87に供給する。例えば復号により、周波数領域のオーディオデータが得られる。
 なお、取得部71から符号化メタデータが供給された場合、オーディオデータ復号部73は、符号化メタデータを復号し、その結果得られたメタデータに含まれているオブジェクト位置情報、オブジェクト方向情報、音源種別情報を、適宜、指向性データ保持部84やHRTFデータ保持部85に供給する。
 また、指向性データ保持部84は、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、および音源種別情報に応じた指向性データを時間補間処理部86に供給する。
 例えば指向性データ保持部84は、視点位置情報、受聴者方向情報、オブジェクト位置情報、およびオブジェクト方向情報から、3次元空間におけるオブジェクトとユーザの視点位置(受聴位置)の関係を特定し、その特定結果に応じたデータポイントを特定する。ここでいうデータポイントとは、指向性データが指向性ゲインの値を有する球面上の位置である。
 一例として、例えばオブジェクトから視点位置へと向かう方向を視点位置方向とすると、指向性データのデータポイントが配置される球の中心から見て視点位置方向にある、球表面上の位置が対象データポイント位置として特定される。なお、対象データポイント位置に実際のデータポイントがない場合もある。
 指向性データ保持部84は、周波数ビンごとに、音源種別情報により示される音源種別(オブジェクト)の指向性データから、特定された対象データポイント位置近傍にある複数のデータポイントにおける指向性ゲインを抽出する。
 そして指向性データ保持部84は、抽出した複数のデータポイントにおける周波数ビンごとの指向性ゲインからなるデータを、オブジェクトとユーザ(受聴者)の位置や方向の関係に応じた指向性データとして時間補間処理部86に供給する。
 さらに、HRTFデータ保持部85は、供給された視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、およびユーザIDに応じたHRTFをHRTF畳み込み部88に供給する。
 具体的には、例えばHRTFデータ保持部85は、視点位置情報、受聴者方向情報、オブジェクト位置情報、およびオブジェクト方向情報に基づき、受聴者(ユーザ)から見たオブジェクトの相対的な方向をオブジェクト方向として特定する。そしてHRTFデータ保持部85は、ユーザIDに対応する各方向のHRTFのうち、オブジェクト方向に対応する方向のHRTFをHRTF畳み込み部88に供給する。
 なお、HRTFデータ保持部85はHRTF以外にRIR(Room Impulse Response)やBRIR、ITD(Interaural Time Difference, 両耳間時間差)、IID(Interaural Intensity Difference, 両耳間強度差)といったパラメータをHRTF畳み込み部88に供給してもよい。
 ステップS142において時間補間処理部86は、指向性データ保持部84から供給された指向性データに対して時間方向の補間処理を行い、その結果得られた指向性データを指向性畳み込み部87に供給する。
 例えば時間補間処理部86は、指向性データに含まれる複数のデータポイントにおける各周波数ビンの指向性ゲインに基づいて、上述の対象データポイント位置における各周波数ビンの指向性ゲインを補間処理により算出する。すなわち、もとのデータポイントとは異なる新たなデータポイント(対象データポイント位置)における指向性ゲインが補間処理により算出される。
 時間補間処理部86は、対象データポイント位置における各周波数ビンの指向性ゲインからなるデータを、時間方向の補間処理により得られた指向性データとして指向性畳み込み部87に供給する。
 ステップS143において指向性畳み込み部87は、オーディオデータ復号部73から供給されたオーディオデータと、時間補間処理部86から供給された指向性データとを畳み込み、その結果得られたオーディオデータをHRTF畳み込み部88に供給する。
 ステップS144においてHRTF畳み込み部88は、指向性畳み込み部87から供給されたオーディオデータと、HRTFデータ保持部85から供給されたHRTFとを畳み込み、その結果得られた出力オーディオデータを出力する。HRTF畳み込み部88では、HRTF以外に、RIRやBRIR、ITDやIIDなどが畳み込まれるようにしてもよい。
 ステップS145において情報処理装置61は、処理を終了するか否かを判定する。
 例えば取得部71からオーディオデータ復号部73に新たなフレームの符号化オーディオデータが供給された場合、ステップS145において処理を終了しないと判定される。これに対して、例えば取得部71からオーディオデータ復号部73に新たなフレームの符号化オーディオデータが供給されず、コンテンツの全フレームの出力オーディオデータが生成された場合、ステップS145において処理を終了すると判定される。
 ステップS145において、まだ処理を終了しないと判定された場合、その後、処理はステップS141に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS145において処理を終了すると判定された場合、情報処理装置61は各部の動作を終了させ、出力オーディオデータ生成処理は終了する。
 以上のようにして情報処理装置61は、適切な指向性データとHRTFを選択し、それらの指向性データとHRTFをオーディオデータに畳み込んで出力オーディオデータとする。このようにすることで、オブジェクト(音源)の指向特性や、オブジェクトと受聴者の位置や向きの関係を考慮して、より臨場感のある高品質なオーディオ再生を実現することができる。
〈モデルパラメータの不使用や追加について〉
 図16を参照して説明した指向性データ生成処理のステップS82では、共通部分や固有部分のモデルパラメータが用いられて指向性データが復元(生成)される。
 このとき、指向性データの復元にあたり、共通部分と固有部分の少なくとも何れか一方について、一部のモデルのモデルパラメータが用いられないようにしたり、一部のモデルパラメータが他のモデルパラメータに置き換えられたり、復元に用いる他のモデルパラメータが追加されたりしてもよい。
 すなわち、例えば指向性データ復元部82は、符号化指向性データから得られたモデルパラメータのうちの特定のモデルパラメータは用いずに、その特定のモデルパラメータ以外の全てのモデルパラメータを用いて指向性データを復元する。
 また、例えば指向性データ復元部82は、符号化指向性データから得られたモデルパラメータと、指定された追加のモデルパラメータとを用いて指向性データを復元する。
 このようなモデルパラメータの削除(不使用)や追加、置き換え等は、例えば3次元空間におけるオブジェクトとユーザ(受聴者)の位置や向きの関係、3次元空間におけるオブジェクトとユーザの速度や加速度などの関係、オブジェクトの優先度情報や音源種別情報などのメタデータ等に基づき行われるようにしてもよい。
 その他、例えばオブジェクトの周囲の環境、ユーザによるモデルパラメータ(モデル)等の指定操作、情報処理装置61の計算能力(計算リソース)やデバイス種別、デバイス残電池量などに基づき、モデルパラメータの削除(不使用)や追加、置き換え等が行われてもよい。ここでいうオブジェクトの周囲の環境とは、例えばオブジェクトが配置される3次元空間の種別や大きさ、オブジェクトの音の反射や吸音のしやすさ、3次元空間におけるオブジェクトの配置位置などである。
 すなわち、指向性データ復元部82は、視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、メタデータ、オブジェクトの周囲の環境、ユーザ等による指定操作、情報処理装置61の計算能力、および情報処理装置61のデバイス種別の少なくとも何れか1つに基づいて、削除するか、置き換えるか、または追加するモデルパラメータを決定する。
 具体的な例として、例えば所定の指向性データについて、固有部分の混合モデルを構成するモデルのうち、ユーザが指定操作等により復元時に使用しないと指定したモデルがある場合、その指定されたモデルのモデルパラメータが用いられずに指向性データの復元が行われる。
 逆に、例えばユーザが指定操作等により復元時に追加で使用すると指定した、共通部分または固有部分の混合モデルに追加するモデルがある場合には、そのモデルのモデルパラメータが用いられて指向性データの復元が行われる。
 また、例えば情報処理装置61の計算能力が所定の閾値以下である場合、共通部分または固有部分の混合モデルの予め定められた特定のモデルのモデルパラメータが用いられずに指向性データの復元が行われるようにしてもよい。この場合、情報処理装置61の計算能力に合わせて指向性データの復元精度を適切に調整することができる。
 同様に、例えばオブジェクトの優先度情報により示される優先度が閾値以下である場合や、オブジェクトの音源種別情報により示される音源種別がリバーブ等の特定の種別である場合などに、そのオブジェクトの共通部分または固有部分の混合モデルの予め定められた特定のモデルのモデルパラメータが用いられずに指向性データの復元が行われてもよい。このようにすることで、例えば優先度が低いオブジェクトについては指向性データの復元精度を最低限とし、優先度の高いオブジェクトについては指向性データの復元精度を高くすることができるようになる。
 さらに、例えばオブジェクトの周囲の環境として、オブジェクトが配置される3次元空間が天井ありの空間であるか、天井なしの空間であるかに応じて、共通部分または固有部分の混合モデルを構成する追加のモデルのモデルパラメータが選択されてもよい。
 この場合、例えば天井ありの空間であれば、符号化指向性データから得られたモデルパラメータに対して、天井ありの空間用のモデルパラメータが追加されて、指向性データの復元が行われることになる。つまり、符号化指向性データから得られたモデルパラメータと、追加されたモデルパラメータとからなる複数のモデルパラメータに基づいて、指向性データが復元される。
 また、例えば音源指向性の再現等のユースケースでは、コンテンツによっては3次元空間でユーザ(受聴者)とオブジェクト(音源)が相互に移動することが考えられる。
 さらに、3次元空間においてユーザが移動可能であるが、例えばユーザがオブジェクトに対して常に正面方向にのみ位置し、オブジェクトの背面側には位置できないなど、ユーザの移動可能な範囲が所定の範囲内に限定されていることも考えられる。
 そのような場合、例えば図18に示すように、ユーザやオブジェクトOS11(音源)の移動可能範囲に応じて、指向性データにおける使用する範囲を限定してもよい。
 例えば矢印Q101に示すような、所定のオブジェクトOS11の指向性データがあり、この指向性データが3つのモデルからなる混合モデルによって表されるとする。
 混合モデルを構成する各モデルでは、分布の中心となる方向ベクトルが定義されており、この例では各モデル(分布関数)に対して、ベクトルAR11、ベクトルAR12、およびベクトルAR13のそれぞれが定義されている。これらのベクトルAR11~ベクトルAR13は、例えばモデルとしてのvMF分布やKent分布のベクトルγ(mean vector)である。
 このような指向性データがあるときに、例えば矢印Q102に示すように、音源となる所定のオブジェクトOS11に対して、ユーザの移動可能範囲が矢印MR11により示される範囲に限定されているとする。この例では、ユーザは、オブジェクトOS11から見て正面にある範囲内でのみ移動可能となっている。つまり、ユーザはオブジェクトOS11の背面側には移動することができない。
 このような場合に、例えばオブジェクトOS11の位置と、矢印MR11により示されるユーザの移動可能範囲とに基づいて、記録または再生の対象となる有効範囲AC11が定められる。この例では、有効範囲AC11は、オブジェクトOS11の中心位置を中心とする球表面、つまり指向性データが定義される球表面の領域のうち、球の中心から見てユーザが存在し得る方向にある領域となっている。
 矢印Q101に示すように、各モデルのベクトルAR11~ベクトルAR13のうち、ベクトルAR11とベクトルAR12は、有効範囲AC11内の位置を示すベクトルとなっている。つまり、これらのベクトルAR11やベクトルAR12を有するモデルは、ユーザの存在し得る方向に対する指向性の高い分布を表しており、オブジェクトOS11の指向性の再現時における重要度の高いモデルである。
 一方、ベクトルAR13は有効範囲AC11外の位置を示すベクトルとなっている。つまり、ベクトルAR13を有するモデルは、ユーザの存在しない方向に対する指向性の高い分布を表しており、オブジェクトOS11の指向性の再現時における重要度の低いモデルである。
 そこで、有効範囲AC11外の位置を示すベクトルγを有するモデル、すなわち分布の中心が有効範囲AC11外の位置となるモデルのモデルパラメータは、指向性データの復元に用いられないようにしてもよい。そうすることで、重要度の高いモデルのみを用いて指向性データを復元することになり、十分な復元精度を維持しつつ復元時の計算量や復元に要する処理時間を削減することができる。
 例えば図18の例では、指向性データ復元部82は、ベクトルAR13を有するモデルを用いずに、ベクトルAR11を有するモデルのモデルパラメータと、ベクトルAR12を有するモデルのモデルパラメータとを用いて指向性データを復元する。
 なお、共通部分や固有部分のモデルパラメータの削除(不使用)、追加、置き換え等は、指向性データの復元時に限らず、指向性データのモデル化時(符号化時)に行われるようにしてもよい。
 そのような場合、サーバ11のパラメータ生成部21は、共通部分や固有部分のモデルパラメータの生成時に、不使用とするモデルのモデルパラメータを削除したり、所定のモデルパラメータを他のモデルパラメータに置き換えたり、新たなモデルパラメータを追加したりする。
 この場合においても、モデルパラメータの削除(不使用)や追加、置き換え等は、3次元空間におけるオブジェクトとユーザ(受聴者)の位置や向きの関係、3次元空間におけるオブジェクトとユーザの速度や加速度などの関係、オブジェクトの優先度情報や音源種別情報といったメタデータ、オブジェクトの周囲の環境、コンテンツ製作者等の指定操作、情報処理装置61の計算能力やデバイス種別、残電池量などに基づき行われる。
 すなわち、パラメータ生成部21は、視点位置情報、受聴者方向情報、オブジェクト位置情報、オブジェクト方向情報、メタデータ、オブジェクトの周囲の環境、コンテンツ製作者等による指定操作、情報処理装置61の計算能力、情報処理装置61の残電池量、および情報処理装置61のデバイス種別の少なくとも何れか1つに基づいて、削除するか、置き換えるか、または追加するモデルパラメータを決定する。この場合、視点位置情報、受聴者方向情報、情報処理装置61の計算能力やデバイス種別等の必要な情報が適宜、情報処理装置61から取得される。
 例えば図18に示した例では、パラメータ生成部21は、オブジェクトOS11の位置と、ユーザの移動可能範囲に基づいて有効範囲AC11を決定し、その決定結果に応じてベクトルAR13を有するモデルのモデルパラメータを削除する。
 その他、指向性データの共通部分や固有部分のモデル化時においては、複数の異なる方式を組み合わせてモデル化が行われるようにしてもよい。
 そのような場合、パラメータ生成部21では、例えば共通部分を復元するための互いに異なる複数の共通混合モデルのモデルパラメータからなるデータが共通部分データとして生成される。
 同様に、例えばパラメータ生成部21では、固有部分を復元するための互いに異なる複数の混合モデルのモデルパラメータからなるデータ、複数の混合モデルの各モデルのモデルインデックスからなるデータ、または複数の各混合モデルのフラグ情報が固有部分データとして生成される。
 一例として、例えば指向性ゲインと位相を有する指向性データなど、複数の成分を有する記録対象データがあるとする。この場合、モデル化部32が、共通部分または固有部分について、指向性ゲインなどの所定の成分を、vMF分布等で表現されるモデルを用いてモデル化し、位相等の他の成分を、HOA等で表現されるモデルでモデル化することが考えられる。
 復元時には、指向性データ復元部82は、vMF分布等のモデルのモデルパラメータに基づき所定の成分のデータを復元するとともに、HOA等のモデルのモデルパラメータに基づき他の成分のデータを復元し、それらのデータを合成(加算)して最終的な記録対象データを得る。
 他の例として、例えばモデル化部32が、記録対象データを所定の方式、つまり所定のモデルによりモデル化するとともに、モデル化前のもとの記録対象データとモデル化後の記録対象データ(混合モデル)との差分(残差)をさらにモデル化することが考えられる。ここで、モデル化後の記録対象データとは、共通部分の混合モデルと固有部分の混合モデルから得られるものである。
 この場合、記録対象データのモデル化の方式(モデル)と、残差のモデル化の方式とは同じであってもよいし、異なっていてもよい。指向性データ復元部82では、モデルパラメータにより復元された記録対象データに対して、残差のモデルパラメータに基づき復元された残差が加算され、最終的な記録対象データとされる。
 その他、指向性データ復元部82において、符号化指向性データから得られた記録対象データに、外部等から供給された他のモデルパラメータにより復元されたデータが加算されることで、最終的な記録対象データとされるようにしてもよい。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図19は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得する取得部と、
 前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元するデータ復元部と
 を備える情報処理装置。
(2)
 前記共通部分データは、前記対象データまたは前記共通部分のモデル化により得られた、前記共通部分を表す第1の混合モデルを構成する1または複数の各第1のモデルの第1のモデルパラメータからなる
 (1)に記載の情報処理装置。
(3)
 前記固有部分データは、前記対象データまたは前記固有部分のモデル化により得られた、前記固有部分を表す第2の混合モデルを構成する1または複数の各第2のモデルの第2のモデルパラメータを得るためのデータである
 (2)に記載の情報処理装置。
(4)
 前記固有部分データは、1または複数の各前記第2のモデルの前記第2のモデルパラメータからなる
 (3)に記載の情報処理装置。
(5)
 前記固有部分データは、1または複数の各前記第2のモデルの前記第2のモデルパラメータを示す情報からなる
 (3)に記載の情報処理装置。
(6)
 前記情報は、予め用意された前記第2のモデルパラメータの候補となる複数の候補パラメータのうちの何れか1つを示す情報である
 (5)に記載の情報処理装置。
(7)
 前記固有部分データは、前記第2の混合モデルを構成する1または複数の前記第2のモデルの前記第2のモデルパラメータの組み合わせを示す情報からなる
 (3)に記載の情報処理装置。
(8)
 前記情報は、予め用意された前記第2のモデルパラメータの候補となる複数の候補パラメータのうちの1または複数の前記候補パラメータの組み合わせを示す情報である
 (7)に記載の情報処理装置。
(9)
 前記データ復元部は、1または複数の前記第1のモデルパラメータと、1または複数の前記第2のモデルパラメータとの少なくとも一方について、一部のモデルパラメータを用いないか、一部のモデルパラメータを置き換えるか、他のモデルパラメータを追加するかの少なくとも何れかを行って前記対象データを復元する
 (3)から(8)の何れか一項に記載の情報処理装置。
(10)
 前記データ復元部は、前記対象データに対応するオブジェクトの空間上の位置、前記オブジェクトの音を含むコンテンツの音を受聴するユーザの前記空間上の位置、前記オブジェクトと前記ユーザの速度または加速度の少なくとも何れかの関係、前記オブジェクトのメタデータ、前記オブジェクトの周囲の環境、前記ユーザによる指定操作、前記情報処理装置の計算能力、前記情報処理装置の残電池量、および前記情報処理装置のデバイス種別の少なくとも何れか1つに基づいて、前記対象データの復元に用いない一部のモデルパラメータ、前記対象データの復元時に置き換えられる一部のモデルパラメータ、または追加される前記他のモデルパラメータを決定する
 (9)に記載の情報処理装置。
(11)
 前記第1のモデルと前記第2のモデルの少なくとも何れか一方は分布関数である
 (3)から(10)の何れか一項に記載の情報処理装置。
(12)
 前記共通部分データは、前記共通部分を得るための互いに異なる複数の前記第1の混合モデルのそれぞれを構成する、1または複数の各前記第1のモデルの前記第1のモデルパラメータのそれぞれからなる
 (2)に記載の情報処理装置。
(13)
 前記固有部分データは、前記固有部分を得るための互いに異なる複数の前記第2の混合モデルのそれぞれを構成する、1または複数の各前記第2のモデルの前記第2のモデルパラメータのそれぞれを得るためのデータである
 (3)に記載の情報処理装置。
(14)
 前記取得部は、前記対象データのダイナミックレンジに関するスケールファクタと、前記対象データのシフト量に関するオフセット値とをさらに取得し、
 前記データ復元部は、前記共通部分データおよび前記固有部分データと、前記スケールファクタおよび前記オフセット値とに基づいて、前記対象データを復元する
 (1)から(13)の何れか一項に記載の情報処理装置。
(15)
 前記対象データは、面上の分布を示すデータである
 (1)から(14)の何れか一項に記載の情報処理装置。
(16)
 前記取得部は、複数の前記対象データからなるグループの前記共通部分データと、前記グループに属す1または複数の前記対象データからなるサブグループの前記共通部分データと、前記固有部分データとを取得し、
 前記データ復元部は、前記グループの前記共通部分データと、前記サブグループの前記共通部分データと、前記固有部分データとに基づいて前記対象データを復元する
 (1)から(15)の何れか一項に記載の情報処理装置。
(17)
 前記対象データは、オブジェクトの指向性データであり、
 前記指向性データと、前記オブジェクトのオーディオデータとに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
 (1)から(16)の何れか一項に記載の情報処理装置。
(18)
 前記レンダリング処理は、前記指向性データの畳み込みと、HRTF、VBAP、BRIR、HOA、RIR、ITD、およびIIDのうちの少なくとも何れか1つを用いた処理とを含む
 (17)に記載の情報処理装置。
(19)
 情報処理装置が、
 複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得し、
 前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元する
 情報処理方法。
(20)
 複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得し、
 前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元する
 ステップを含む処理をコンピュータに実行させるプログラム。
(21)
 複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成する生成部を備える
 情報処理装置。
(22)
 前記生成部は、複数の各前記対象データが1または複数のグループのうちの何れかに属すようにグループ化を行い、前記グループごとに前記共通部分データを生成する
 (21)に記載の情報処理装置。
(23)
 前記生成部は、前記対象データまたは前記共通部分のモデル化を行うことで、前記共通部分を表す第1の混合モデルを構成する1または複数の各第1のモデルの第1のモデルパラメータからなる前記共通部分データを生成する
 (21)または(22)に記載の情報処理装置。
(24)
 前記生成部は、前記対象データまたは前記固有部分のモデル化を行うことで、前記固有部分を表す第2の混合モデルを構成する1または複数の各第2のモデルの第2のモデルパラメータを得るための前記固有部分データを生成する
 (23)に記載の情報処理装置。
(25)
 前記固有部分データは、1または複数の各前記第2のモデルの前記第2のモデルパラメータからなる
 (24)に記載の情報処理装置。
(26)
 前記固有部分データは、1または複数の各前記第2のモデルの前記第2のモデルパラメータを示す情報からなる
 (24)に記載の情報処理装置。
(27)
 前記情報は、予め用意された前記第2のモデルパラメータの候補となる複数の候補パラメータのうちの何れか1つを示す情報である
 (26)に記載の情報処理装置。
(28)
 前記固有部分データは、前記第2の混合モデルを構成する1または複数の前記第2のモデルの前記第2のモデルパラメータの組み合わせを示す情報からなる
 (24)に記載の情報処理装置。
(29)
 前記情報は、予め用意された前記第2のモデルパラメータの候補となる複数の候補パラメータのうちの1または複数の前記候補パラメータの組み合わせを示す情報である
 (28)に記載の情報処理装置。
(30)
 前記生成部は、1または複数の前記第1のモデルパラメータと、1または複数の前記第2のモデルパラメータとの少なくとも一方について、一部のモデルパラメータを削除するか、一部のモデルパラメータを置き換えるか、他のモデルパラメータを追加するかの少なくとも何れかを行って、前記固有部分データまたは前記固有部分データを生成する
 (24)から(29)の何れか一項に記載の情報処理装置。
(31)
 前記生成部は、前記対象データに対応するオブジェクトの空間上の位置、前記オブジェクトの音を含むコンテンツの音を受聴するユーザの前記空間上の位置、前記オブジェクトと前記ユーザの速度または加速度の少なくとも何れかの関係、前記オブジェクトのメタデータ、前記オブジェクトの周囲の環境、所定の指定操作、前記コンテンツを再生する装置の計算能力、前記装置の残電池量、および前記装置のデバイス種別の少なくとも何れか1つに基づいて、前記固有部分データまたは前記固有部分データの生成時に、削除されるか、置き換えられるか、または追加されるモデルパラメータを決定する
 (30)に記載の情報処理装置。
(32)
 前記第1のモデルと前記第2のモデルの少なくとも何れか一方は分布関数である
 (24)から(31)の何れか一項に記載の情報処理装置。
(33)
 前記共通部分データは、前記共通部分を得るための互いに異なる複数の前記第1の混合モデルのそれぞれを構成する、1または複数の各前記第1のモデルの前記第1のモデルパラメータのそれぞれからなる
 (23)に記載の情報処理装置。
(34)
 前記固有部分データは、前記固有部分を得るための互いに異なる複数の前記第2の混合モデルのそれぞれを構成する、1または複数の各前記第2のモデルの前記第2のモデルパラメータのそれぞれを得るためのデータである
 (24)に記載の情報処理装置。
(35)
 前記生成部は、前記複数の前記対象データに基づいて、前記対象データごとに、前記対象データのダイナミックレンジに関するスケールファクタと、前記対象データのシフト量に関するオフセット値とをさらに生成する
 (21)から(34)の何れか一項に記載の情報処理装置。
(36)
 前記対象データは、面上の分布を示すデータである
 (21)から(35)の何れか一項に記載の情報処理装置。
(37)
 前記生成部は、前記グループに属す複数の前記対象データを対象として、1または複数のサブグループへのグループ化を行い、前記サブグループごとの前記共通部分データをさらに生成する
 (22)に記載の情報処理装置。
(38)
 情報処理装置が、
 複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成する
 情報処理方法。
(39)
 複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 サーバ, 21 パラメータ生成部, 22 パラメータ符号化部, 23 オーディオデータ符号化部, 24 出力部, 61 情報処理装置, 71 取得部, 72 指向性データ復号部, 73 オーディオデータ復号部, 74 レンダリング処理部, 82 指向性データ復元部

Claims (22)

  1.  複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得する取得部と、
     前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元するデータ復元部と
     を備える情報処理装置。
  2.  前記共通部分データは、前記対象データまたは前記共通部分のモデル化により得られた、前記共通部分を表す第1の混合モデルを構成する1または複数の各第1のモデルの第1のモデルパラメータからなる
     請求項1に記載の情報処理装置。
  3.  前記固有部分データは、前記対象データまたは前記固有部分のモデル化により得られた、前記固有部分を表す第2の混合モデルを構成する1または複数の各第2のモデルの第2のモデルパラメータを得るためのデータである
     請求項2に記載の情報処理装置。
  4.  前記固有部分データは、1または複数の各前記第2のモデルの前記第2のモデルパラメータからなる
     請求項3に記載の情報処理装置。
  5.  前記固有部分データは、1または複数の各前記第2のモデルの前記第2のモデルパラメータを示す情報からなる
     請求項3に記載の情報処理装置。
  6.  前記情報は、予め用意された前記第2のモデルパラメータの候補となる複数の候補パラメータのうちの何れか1つを示す情報である
     請求項5に記載の情報処理装置。
  7.  前記固有部分データは、前記第2の混合モデルを構成する1または複数の前記第2のモデルの前記第2のモデルパラメータの組み合わせを示す情報からなる
     請求項3に記載の情報処理装置。
  8.  前記情報は、予め用意された前記第2のモデルパラメータの候補となる複数の候補パラメータのうちの1または複数の前記候補パラメータの組み合わせを示す情報である
     請求項7に記載の情報処理装置。
  9.  前記データ復元部は、1または複数の前記第1のモデルパラメータと、1または複数の前記第2のモデルパラメータとの少なくとも一方について、一部のモデルパラメータを用いないか、一部のモデルパラメータを置き換えるか、他のモデルパラメータを追加するかの少なくとも何れかを行って前記対象データを復元する
     請求項3に記載の情報処理装置。
  10.  前記データ復元部は、前記対象データに対応するオブジェクトの空間上の位置、前記オブジェクトの音を含むコンテンツの音を受聴するユーザの前記空間上の位置、前記オブジェクトと前記ユーザの速度または加速度の少なくとも何れかの関係、前記オブジェクトのメタデータ、前記オブジェクトの周囲の環境、前記ユーザによる指定操作、前記情報処理装置の計算能力、前記情報処理装置の残電池量、および前記情報処理装置のデバイス種別の少なくとも何れか1つに基づいて、前記対象データの復元に用いない一部のモデルパラメータ、前記対象データの復元時に置き換えられる一部のモデルパラメータ、または追加される前記他のモデルパラメータを決定する
     請求項9に記載の情報処理装置。
  11.  前記第1のモデルと前記第2のモデルの少なくとも何れか一方は分布関数である
     請求項3に記載の情報処理装置。
  12.  前記共通部分データは、前記共通部分を得るための互いに異なる複数の前記第1の混合モデルのそれぞれを構成する、1または複数の各前記第1のモデルの前記第1のモデルパラメータのそれぞれからなる
     請求項2に記載の情報処理装置。
  13.  前記固有部分データは、前記固有部分を得るための互いに異なる複数の前記第2の混合モデルのそれぞれを構成する、1または複数の各前記第2のモデルの前記第2のモデルパラメータのそれぞれを得るためのデータである
     請求項3に記載の情報処理装置。
  14.  前記取得部は、前記対象データのダイナミックレンジに関するスケールファクタと、前記対象データのシフト量に関するオフセット値とをさらに取得し、
     前記データ復元部は、前記共通部分データおよび前記固有部分データと、前記スケールファクタおよび前記オフセット値とに基づいて、前記対象データを復元する
     請求項1に記載の情報処理装置。
  15.  前記対象データは、面上の分布を示すデータである
     請求項1に記載の情報処理装置。
  16.  前記取得部は、複数の前記対象データからなるグループの前記共通部分データと、前記グループに属す1または複数の前記対象データからなるサブグループの前記共通部分データと、前記固有部分データとを取得し、
     前記データ復元部は、前記グループの前記共通部分データと、前記サブグループの前記共通部分データと、前記固有部分データとに基づいて前記対象データを復元する
     請求項1に記載の情報処理装置。
  17.  前記対象データは、オブジェクトの指向性データであり、
     前記指向性データと、前記オブジェクトのオーディオデータとに基づいてレンダリング処理を行うレンダリング処理部をさらに備える
     請求項1に記載の情報処理装置。
  18.  前記レンダリング処理は、前記指向性データの畳み込みと、HRTF、VBAP、BRIR、HOA、RIR、ITD、およびIIDのうちの少なくとも何れか1つを用いた処理とを含む
     請求項17に記載の情報処理装置。
  19.  情報処理装置が、
     複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得し、
     前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元する
     情報処理方法。
  20.  複数の対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを取得し、
     前記共通部分データおよび前記固有部分データに基づいて、前記対象データを復元する
     ステップを含む処理をコンピュータに実行させるプログラム。
  21.  複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成する生成部を備える
     情報処理装置。
  22.  情報処理装置が、
     複数の対象データに基づいて、前記複数の前記対象データの共通部分を復元するための共通部分データと、前記対象データの前記共通部分とは異なる固有部分を復元するための、複数の各前記対象データの固有部分データとを生成する
     情報処理方法。
PCT/JP2025/004704 2024-02-29 2025-02-13 情報処理装置および方法、並びにプログラム Pending WO2025182579A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2024-029457 2024-02-29
JP2024029457 2024-02-29

Publications (1)

Publication Number Publication Date
WO2025182579A1 true WO2025182579A1 (ja) 2025-09-04

Family

ID=96921296

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2025/004704 Pending WO2025182579A1 (ja) 2024-02-29 2025-02-13 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2025182579A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509249A (ja) * 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
US20160275956A1 (en) * 2013-10-22 2016-09-22 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
WO2023074009A1 (ja) * 2021-10-29 2023-05-04 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023083753A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016509249A (ja) * 2012-12-21 2016-03-24 ドルビー ラボラトリーズ ライセンシング コーポレイション 知覚的基準に基づいてオブジェクト・ベースのオーディオ・コンテンツをレンダリングするためのオブジェクト・クラスタリング
US20160275956A1 (en) * 2013-10-22 2016-09-22 Electronics And Telecommunications Research Instit Ute Method for generating filter for audio signal and parameterizing device therefor
WO2023074009A1 (ja) * 2021-10-29 2023-05-04 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム
WO2023083753A1 (en) * 2021-11-09 2023-05-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object

Similar Documents

Publication Publication Date Title
JP7400910B2 (ja) 音声処理装置および方法、並びにプログラム
KR102654507B1 (ko) 다중-지점 음장 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
KR102540642B1 (ko) 다중-층 묘사를 이용하여 증강된 음장 묘사 또는 수정된 음장 묘사를 생성하기 위한 개념
JP7648787B2 (ja) 仮想スピーカセットを決定するための方法および装置
US20260004790A1 (en) Information processing device and method, and program
WO2025182579A1 (ja) 情報処理装置および方法、並びにプログラム
WO2023074009A1 (ja) 情報処理装置および方法、並びにプログラム
JP2022034267A (ja) バイノーラル再生装置およびプログラム
Günel Kılıç MAXIMUM-LIKELIHOOD BASED 3D ACOUSTICAL SIGNATURE ESTIMATION

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 25761493

Country of ref document: EP

Kind code of ref document: A1