JP2001282279A - Voice information processing method and apparatus, and storage medium - Google Patents
Voice information processing method and apparatus, and storage mediumInfo
- Publication number
- JP2001282279A JP2001282279A JP2000099535A JP2000099535A JP2001282279A JP 2001282279 A JP2001282279 A JP 2001282279A JP 2000099535 A JP2000099535 A JP 2000099535A JP 2000099535 A JP2000099535 A JP 2000099535A JP 2001282279 A JP2001282279 A JP 2001282279A
- Authority
- JP
- Japan
- Prior art keywords
- duration
- phoneme
- model
- segment
- global
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
(57)【要約】
【課題】 音韻系列の継続時間長を精度良く設定可能と
し、音韻・言語環境に応じた自然な音韻時間長を与え
る。
【解決手段】 大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める
(S302)。局所的セグメントの継続時間長モデルに
基づいて、その音韻系列を構成する各音韻の継続時間長
を求める(S303)。音韻系列の継続時間長と各音韻
の継続時間長とに基づいて、各音韻の継続時間長を設定
する(S304)。
(57) [Summary] [PROBLEMS] To enable a duration of a phoneme sequence to be set with high accuracy, and to give a natural phoneme time according to a phoneme / language environment. SOLUTION: Based on a duration model of a global segment, a duration of a phoneme sequence of a predetermined unit is obtained (S302). Based on the duration model of the local segment, the duration of each phoneme constituting the phoneme sequence is determined (S303). The duration of each phoneme is set based on the duration of the phoneme series and the duration of each phoneme (S304).
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声合成に際して
実施される音韻の継続時間長を設定する音声情報処理方
法及びその装置、及び、前記音声合成方法を実施するプ
ログラムを記憶した、コンピュータにより読取り可能な
記憶媒体に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech information processing method and apparatus for setting a duration of a phoneme performed in speech synthesis, and a computer-readable program storing a program for executing the speech synthesis method. It concerns a possible storage medium.
【0002】[0002]
【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。2. Description of the Related Art In recent years, a speech synthesizer has been developed which converts an arbitrary character sequence into a phoneme sequence and converts the phoneme sequence into a synthesized speech according to a predetermined speech rule synthesis method.
【0003】[0003]
【発明が解決しようとする課題】従来の音声合成装置か
ら出力される合成音声は、人間が発声する自然音声と比
較すると不自然で機械的なものであった。The synthesized speech output from the conventional speech synthesizer is unnatural and mechanical as compared to natural speech uttered by humans.
【0004】この原因の一つとして、例えば「おんせ
い」という文字系列を構成する音韻系列「o,X,s,
e,i」において、各音韻の継続時間長を生成する音韻
継続時間長の制御規則の精度が挙げられる。精度が悪い
場合、各音韻に対して適正に、継続時間長が付与されな
いため、合成される音声は不自然で機械的なものとな
る。As one of the causes, for example, a phoneme sequence “o, X, s,
In “e, i”, the accuracy of the control rule of the phoneme duration for generating the duration of each phoneme can be mentioned. If the accuracy is low, the duration is not properly given to each phoneme, so that the synthesized speech is unnatural and mechanical.
【0005】本発明は上記従来例に鑑みてなされたもの
で、音韻系列の継続時間長を精度良く設定することを可
能とし、音韻・言語環境に応じた自然な音韻時間長を与
える音声情報処理方法及びその装置を提供することを目
的とする。SUMMARY OF THE INVENTION The present invention has been made in view of the above conventional example, and is capable of accurately setting the duration of a phoneme sequence and providing a natural phoneme time length corresponding to a phoneme / language environment. It is an object to provide a method and an apparatus thereof.
【0006】[0006]
【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、大局的セグメントの継続時間長モデルに基づ
いて、所定単位の音韻系列の継続時間長を求める手段
と、局所的セグメントの継続時間長モデルに基づいて、
前記音韻系列を構成する各音韻の継続時間長を求める手
段と、前記音韻系列の継続時間長と前記各音韻の継続時
間長とに基づいて、前記各音韻の継続時間長を設定する
設定手段と、前記設定手段により設定された前記各音韻
の継続時間長に基づいて音声を合成する音声合成手段
と、を有することを特徴とする。In order to achieve the above object, a voice information processing apparatus according to the present invention has the following arrangement. In other words, based on the duration model of the global segment, means for determining the duration of the phoneme sequence in a predetermined unit, and based on the duration model of the local segment,
Means for determining the duration of each phoneme constituting the phoneme sequence, and setting means for setting the duration of each phoneme based on the duration of the phoneme sequence and the duration of each phoneme. Speech synthesis means for synthesizing speech based on the duration of each phoneme set by the setting means.
【0007】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、大局的
セグメントの継続時間長モデルに基づいて、所定単位の
音韻系列の継続時間長を求める工程と、局所的セグメン
トの継続時間長モデルに基づいて、前記音韻系列を構成
する各音韻の継続時間長を求める工程と、前記音韻系列
の継続時間長と前記各音韻の継続時間長とに基づいて、
前記各音韻の継続時間長を設定する設定工程と、前記設
定工程により設定された前記各音韻の継続時間長に基づ
いて音声を合成する音声合成工程と、を有することを特
徴とする。[0007] To achieve the above object, a voice information processing method of the present invention comprises the following steps. That is, based on the duration model of the global segment, a step of obtaining the duration of the phoneme sequence of a predetermined unit, and, based on the duration model of the local segment, the continuation of each phoneme constituting the phoneme sequence. Determining the time length, based on the duration of the phoneme sequence and the duration of each phoneme,
A setting step of setting a duration time of each of the phonemes; and a speech synthesis step of synthesizing speech based on the duration time of each of the phonemes set in the setting step.
【0008】[0008]
【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below in detail with reference to the accompanying drawings.
【0009】[実施の形態1]図1は、本発明の実施の
形態1に係る音声合成装置の構成を示すブロック図であ
る。[First Embodiment] FIG. 1 is a block diagram showing a configuration of a speech synthesizer according to a first embodiment of the present invention.
【0010】図1において、101はCPUで、ROM
102に記憶された制御プログラム、或いは外部記憶装
置104からRAM103にロードされた制御プログラ
ムに従って、本実施の形態の音声合成装置における各種
制御を行う。ROM102は、各種パラメータやCPU
101が実行する制御プログラムなどを格納している。
RAM103は、CPU101による各種制御の実行時
に作業領域を提供するとともに、CPU101により実
行される制御プログラムを記憶する。104はハードデ
ィスク、フロッピー(登録商標)ディスク、CD−RO
M等の外部記憶装置で、この外部記憶装置がハードディ
スクの場合には、CD−ROMやフロッピィディスク等
からインストールされた各種プログラムが記憶されてい
る。105は入力部で、キーボード、マウス等のポイン
ティングデバイスを有している。又、この入力部105
は、例えば通信回線等を介してインターネット等からの
データを入力しても良い。106は液晶やCRT等の表
示部で、CPU101の制御により各種データの表示を
行う。107はスピーカで、音声信号(電気信号)を可
聴音である音声に変換して出力する。108は上記各部
を接続するバスである。109は音声合成ユニットであ
る。In FIG. 1, reference numeral 101 denotes a CPU and a ROM
According to the control program stored in the RAM 102 or the control program loaded into the RAM 103 from the external storage device 104, various controls in the speech synthesizer of the present embodiment are performed. ROM 102 stores various parameters and CPU
The control program 101 executes a control program.
The RAM 103 provides a work area when the CPU 101 executes various controls, and stores a control program executed by the CPU 101. 104 is a hard disk, a floppy (registered trademark) disk, a CD-RO
When the external storage device is a hard disk, various programs installed from a CD-ROM, a floppy disk or the like are stored. An input unit 105 has a pointing device such as a keyboard and a mouse. Also, the input unit 105
May input data from the Internet or the like via a communication line or the like. A display unit 106 such as a liquid crystal display or a CRT displays various data under the control of the CPU 101. A speaker 107 converts an audio signal (electric signal) into an audible sound and outputs the sound. Reference numeral 108 denotes a bus that connects the above components. Reference numeral 109 denotes a speech synthesis unit.
【0011】図2は、本実施の形態1に係る音声合成ユ
ニット109の動作を示すフローチャートである。以下
に示される各ステップは、ROM102に格納された制
御プログラム、或いは外部記憶装置104からRAM1
03にロードされた制御プログラムをCPU101が実
行することによって実現される。FIG. 2 is a flowchart showing the operation of the speech synthesis unit 109 according to the first embodiment. Each step described below is performed by using a control program stored in the ROM 102 or the RAM 1 from the external storage device 104.
This is realized by the CPU 101 executing the control program loaded in the CPU 03.
【0012】まずステップS201で、漢字かな混じり
の日本語テキストデータが入力部105から入力される
とステップS202に進み、この入力されたテキストデ
ータを、言語解析辞書201を用いて解析し、入力テキ
ストデータに対する音韻系列(読み)やアクセントなど
の情報を抽出する。次にステップS203に進み、これ
らの情報を用いて、ステップS202で求めた音韻系列
を構成する各音韻の継続時間長、基本周波数(ピッチパ
ターン)、パワー等のプロソディ(韻律情報という)を
生成する。この際、音韻の継続時間長は継続時間長モデ
ル202を用いて、基本周波数、パワー等は韻律制御モ
デル203を用いて決定される。First, in step S201, when Japanese text data mixed with kanji and kana is input from the input unit 105, the process proceeds to step S202, where the input text data is analyzed using the linguistic analysis dictionary 201, and the input text is input. It extracts information such as phonemic sequences (reading) and accents for the data. Next, the process proceeds to step S203, and a prosody (referred to as prosodic information) such as a duration time, a fundamental frequency (pitch pattern), and power of each phoneme constituting the phoneme sequence obtained in step S202 is generated using the information. . At this time, the duration of the phoneme is determined using the duration model 202, and the fundamental frequency, power, and the like are determined using the prosody control model 203.
【0013】次にステップS204に進み、ステップS
202で解析して抽出された音韻系列、及びステップS
203で生成されたプロソディに基づいて、音声素片辞
書204から、その音韻系列に対応する合成音声を生成
するための音声素片(波形もしくは特徴パラメータ)を
複数個選択する。次にステップS205に進み、それら
選択された音声素片を用いて合成音声信号を生成し、ス
テップS206において、その生成された合成音声信号
に基づいて音声をスピーカ107から出力する。最後に
ステップS207において、入力されたテキストデータ
に対する処理が全て終了したか否かの判断を行い、終了
していない場合はステップS201に戻り、前述の処理
が続けられる。Next, proceeding to step S204,
Phonemic sequence analyzed and extracted in step 202, and step S
Based on the prosody generated in 203, a plurality of speech units (waveforms or characteristic parameters) for generating a synthesized speech corresponding to the phoneme sequence are selected from the speech unit dictionary 204. Next, the process proceeds to step S205, in which a synthesized voice signal is generated using the selected voice segments, and in step S206, a voice is output from the speaker 107 based on the generated synthesized voice signal. Finally, in step S207, it is determined whether or not all the processes for the input text data have been completed. If not, the process returns to step S201 to continue the above-described processes.
【0014】図3は、図2のステップS203のプロソ
ディ生成処理の一部を詳細に説明するフローチャートで
ある。図3では、継続的時間長モデル202を用いて、
所定単位の音韻系列(以下、大局的セグメントと称す
る)の継続時間長とこの音韻系列を構成する各音韻(以
下、局所的セグメントと称する)の継続時間長とを設定
する手順を示す。ここで、継続時間長モデル202は、
大局的セグメントに対する継続時間長モデル(大局的継
続時間長モデルともいう)301と局所的セグメントに
対する継続時間長モデル(局所的継続時間長モデルとも
いう)302とを含む。FIG. 3 is a flowchart for explaining in detail a part of the prosody generation processing in step S203 in FIG. In FIG. 3, using the continuous time length model 202,
A procedure for setting the duration of a phoneme sequence of a predetermined unit (hereinafter, referred to as a global segment) and the duration of each phoneme (hereinafter, referred to as a local segment) constituting the phoneme sequence will be described. Here, the duration model 202 is
A duration model for a global segment (also referred to as a global duration model) 301 and a duration model for a local segment (also referred to as a local duration model) 302 are included.
【0015】まずステップS301において、図2のス
テップS202のテキスト処理によって得られる入力テ
キストデータに対する解析結果を入力する。ここで、こ
の解析結果としては、音素などの音韻情報から得た音韻
環境、モーラ数、アクセント句数、品詞などの言語情報
から得た言語環境に関する情報などがある。次にステッ
プS302に進み、まず大局的なセグメントに対する継
続時間長を大局的セグメントに対する大局的継続時間長
モデル301に基づいて設定する。ここで、大局的なセ
グメントは、アクセント句、単語、フレーズ、文など
の、発話上ひとまとまりにして処理できる(発話単位と
いう)からなる。First, in step S301, an analysis result for input text data obtained by the text processing in step S202 of FIG. 2 is input. Here, as the analysis result, there is a phoneme environment obtained from phoneme information such as phonemes, information on a language environment obtained from language information such as the number of mora, the number of accent phrases, and the part of speech. Next, the process proceeds to step S302, where the duration of the global segment is set based on the global duration model 301 for the global segment. Here, the global segment is composed of utterances such as accent phrases, words, phrases, sentences, etc., which can be processed as a unit (called an utterance unit).
【0016】次にステップS303に進み、局所的なセ
グメントに対する継続時間長を、局所的セグメントに対
する局所的継続時間長モデル302に基づいて設定す
る。ここで、局所的なセグメントは、音素、音節、モー
ラなどの発話単位を構成する音韻単位からなる。Next, the process proceeds to step S303, where the duration of the local segment is set based on the local duration model 302 for the local segment. Here, the local segment is composed of phoneme units constituting speech units such as phonemes, syllables, and mora.
【0017】そして最後にステップS304に進み、ス
テップS303で得られる局所的なセグメントの継続時
間長の和によって得られる大局的なセグメントに対する
継続時間長と、ステップS302で設定される大局的な
セグメントに対する継続時間長との差分を、ステップS
302で設定される大局的継続時間長となるように、局
所的なセグメントの継続時間長を局所的継続時間伸縮モ
デル303を用いて伸縮することにより、各音韻の局所
的継続時間長を決定する。Finally, the process proceeds to step S304, where the duration of the global segment obtained by the sum of the durations of the local segments obtained in step S303 and the duration of the global segment set in step S302 are determined. The difference with the duration is determined by the step S
The local duration of each phoneme is determined by expanding and contracting the duration of a local segment using the local duration expansion / contraction model 303 so as to have the global duration set at 302. .
【0018】具体例として、いまテキストデータとして
「花が」が入力された場合、個の文字列から解析された
音韻系列を大局的セグメントとし、これをモーラを音韻
単位とする局所的セグメントに分割すると「ha」「na」
「ga」となる。ここで各モーラの平均継続時間長(durat
ion)を、例えば100ミリ秒とし、実際の測定されたこ
の大局的セグメントの時間長が600ミリ秒であったと
すると、大局的セグメントの時間長が600ミリ秒に対
して、局所的なセグメントの継続時間長の和によって得
られる大局的継続時間長は300ミリ秒となり、300
ミリ秒の差が生じることになる。As a specific example, when "flower" is input as text data, a phoneme sequence analyzed from individual character strings is set as a global segment, and this is divided into local segments using mora as a phoneme unit. Then "ha""na"
It becomes "ga". Where the average duration of each mora (durat
ion) is, for example, 100 milliseconds, and assuming that the actual measured time length of the global segment is 600 milliseconds, the time length of the global segment is 600 milliseconds, whereas the local segment has a time length of 600 milliseconds. The overall duration obtained from the sum of the durations is 300 milliseconds,
There will be a millisecond difference.
【0019】ここで次に、大局的なセグメントに対する
大局的継続時間長モデル301の作成方法と、ステップ
S302の大局的なセグメントに対する継続時間長の設
定処理を図4のフローチャートを参照して説明する。Next, the method of creating the global duration model 301 for the global segment and the process of setting the duration for the global segment in step S302 will be described with reference to the flowchart of FIG. .
【0020】図4は、大局的なセグメントに対する大局
的継続時間長モデル301の作成方法を示すフローチャ
ートである。FIG. 4 is a flowchart showing a method of creating a global duration model 301 for a global segment.
【0021】まずステップS401において、大局的な
セグメントに対する大局的継続時間長モデルを作成する
ための複数個の学習サンプルを有する音声ファイル40
1と、音素や音節などの開始、終了時間情報等の継続時
間長の抽出に必要な情報を有するサイド情報ファイル4
02とを用いて、大局的継続時間長を抽出する。次にス
テップS402に進み、音素などの音韻情報から得た音
韻環境、モーラ数、アクセント句数、品詞などの言語情
報から得た言語環境に関する情報を有する音韻・言語環
境ファイル403と、ステップS401で抽出した大局
的継続時間長の情報とを用いて、所定の言語環境を考慮
した大局的継続時間長モデル301を作成する。First, in step S401, an audio file 40 having a plurality of learning samples for creating a global duration model for a global segment.
1 and a side information file 4 having information necessary for extracting a duration length such as start and end time information of phonemes and syllables.
02 to extract the global duration. Next, proceeding to step S402, a phoneme / language environment file 403 having information on a language environment obtained from phonetic information such as phonemes and linguistic information obtained from linguistic information such as the number of mora, the number of accent phrases, and part of speech, and a step S401. Using the extracted global duration information, a global duration model 301 that takes into account a predetermined language environment is created.
【0022】具体的な処理手順は以下の通りである。大
局的セグメントの継続時間長モデル301を作成するた
めの音声ファイル401中の学習サンプル数をKとし、
この内のk番目の学習サンプルにおける大局的セグメン
トの継続時間長をdkとする。本実施の形態では、大局
的継続時間長dkを直接予測するモデルを作成するので
はなく、K個の学習サンプルから求めた大局的セグメン
トの平均継続時間長~dを用いて、大局的セグメントの
継続時間長dkを、 sk=dk/~d …式(1) と正規化したskを予測するモデルを作成する。ここ
で、大局的セグメントの平均継続時間長~dは、様々な
方法で求めることができるが、例えば、dkを平均モー
ラ継続時間長(1モーラ当りの平均継続時間長)とした
場合、 ~d=(1/K)Σ(dk/Nk) (Σはk=1〜Kの総和) …式(2) として求めることができる。ここでNkは、k番目の学
習サンプルにおけるモーラ数である。The specific processing procedure is as follows. Let K be the number of learning samples in the audio file 401 for creating the duration model 301 of the global segment,
Let dk be the duration of the global segment in the k-th learning sample. In the present embodiment, instead of creating a model for directly predicting the global duration d k, the global segment average duration ~ d obtained from K learning samples is used to calculate the global segment. A model for predicting sk, in which the duration dk is normalized by sk = dk / kd (1), is created. Here, the average duration length d of the global segment can be obtained by various methods. For example, when dk is the average mora duration length (average duration length per mora), = (1 / K) Σ (dk / Nk) (Σ is the sum of k = 1 to K) ... It can be obtained as equation (2). Here, Nk is the number of moras in the k-th learning sample.
【0023】このとき、大局的継続時間長dkを正規化
したskの予測値^skは、線形重回帰分析法を用いれ
ば、次式のようにして求めることができる。At this time, the prediction value sk of sk, which is obtained by normalizing the global duration dk, can be obtained by the following equation using a linear multiple regression analysis method.
【0024】 ^sk=a0+ΣΣai,j×xk,i,j (最初のΣはi=1〜I、次のΣはj=1〜Jiの 総和をそれぞれ示す) …式(3) ここで、Iは音韻・言語環境要因(アイテム)数、Ji
は要因i(例えば、音素種類やアクセント句数)に対す
るカテゴリ数を表す。また、xk,i,jは、サンプルkの
要因iのカテゴリj(例えば音素セットやアクセントタ
イプ等)における説明変数、ai,jは、要因iのカテゴ
リjに対する回帰係数、a0は定数項である。この予測
値^skを用いて、k番目のサンプルに対する大局的なセ
グメントの大局的継続時間長^dkは、式(1)より、 ^dk=^sk×~d …式(4) として求めることができる。この式(4)が大局的時間
長モデル301となる^ Sk = a0 + ΣΣai, j × xk, i, j (the first Σ indicates the sum of i = 1 to I, and the next Σ indicates the sum of j = 1 to Ji) Expression (3) where I Is the number of phonemes / language environment factors (items), Ji
Represents the number of categories for the factor i (for example, phoneme type or number of accent phrases). Xk, i, j is an explanatory variable in category j (for example, phoneme set or accent type) of factor i of sample k, ai, j is a regression coefficient for category j of factor i, and a0 is a constant term. . Using the predicted value ^ sk, the global duration length dk of the global segment for the k-th sample is calculated from Expression (1) as follows: ^ dk = ^ sk x ~ d ... Expression (4) Can be. This equation (4) becomes the global time length model 301.
【0025】上記I及びJiの値は実に様々な選び方が
考えられるが、例えば、要因iとして大局的セグメント
内の音素種類とアクセント句数を選び、それぞれのカテ
ゴリjとして26種類の音素セットと大局的セグメント
内のアクセント句数(1,2,3,4以上)を選んだ場
合、I=2,J1=26,J2=4となる。The values of I and Ji can be selected in various ways. For example, the phoneme type and the number of accent phrases in the global segment are selected as the factor i, and 26 types of phoneme sets and global When the number of accent phrases (1, 2, 3, 4 or more) in the target segment is selected, I = 2, J1 = 26, and J2 = 4.
【0026】次に、局所的なセグメントに対する局所的
継続時間長モデル302の作成方法と、ステップS30
3の局所的なセグメントに対する局所的継続時間長の設
定処理を図5のフローチャートを参照して説明する。こ
れらの処理は、大局的なセグメントと同様に以下のよう
に行う。Next, a method of creating a local duration model 302 for a local segment, and step S30
The process of setting the local duration for the three local segments will be described with reference to the flowchart in FIG. These processes are performed as follows in the same manner as in the global segment.
【0027】図5は、局所的なセグメントに対する局所
的継続時間長モデル302の作成方法を示すフローチャ
ートである。FIG. 5 is a flowchart showing a method for creating a local duration model 302 for a local segment.
【0028】まずステップS501において、局所的な
セグメントに対する継続時間長モデルを作成するための
複数個の学習サンプルを有する音声ファイル501と、
音素や音節などの開始、終了時間情報等のような継続時
間長の抽出に必要な情報を有するサイド情報ファイル5
02とを用いて、局所的継続時間長を抽出する。次にス
テップS502に進み、音素などの音韻情報から得た音
韻環境、モーラ数、アクセント句数、品詞などの言語情
報から得た言語環境に関する情報を有する音韻・言語環
境ファイル503と、ステップS501で抽出した局所
的継続時間長の情報とを用いて、所定の音韻環境を考慮
した局所的セグメント継続時間長モデル302を作成す
る。First, in step S501, an audio file 501 having a plurality of learning samples for creating a duration model for a local segment;
A side information file 5 having information necessary for extracting a duration such as start and end time information of phonemes and syllables.
02 to extract the local duration. Next, the process proceeds to step S502, where a phoneme / language environment file 503 having information about the phoneme environment obtained from phoneme information such as phonemes, the number of mora, the number of accent phrases, and the language environment obtained from language information such as part of speech, and step S501. Using the extracted information on the local duration, a local segment duration model 302 is created in consideration of a predetermined phonemic environment.
【0029】具体的な処理手順は、前述の大局的なセグ
メントの大局的継続時間長モデル301と同様の方法を
用いてもよい。つまり、K個の学習サンプルから求めた
局所的セグメントの平均継続時間長を用いて局所的継続
時間長を正規化したモデルを作成し、このモデルに基づ
いて局所的継続時間長モデル302を作成しても良い。As a specific processing procedure, a method similar to that of the global duration model 301 of the global segment described above may be used. That is, a model in which the local duration is normalized using the average duration of the local segment obtained from the K learning samples is created, and the local duration model 302 is created based on this model. May be.
【0030】最後に、ステップS302で得られる大局
的なセグメントに対する大局的継続時間長と、ステップ
S303で得られる複数の局所的なセグメントに対する
局所的継続時間長との和から求まる大局的なセグメント
に対する大局的継続時間長との差(例えば前述の具体例
では(600-300=)300ミリ秒)を、音韻の継続時間長に
関する統計量(平均値、分散)を用いて、大局的なセグ
メントに対する大局的継続時間長に等しくするように、
ステップS304において伸縮処理を行う。この具体的
な方法としては、例えば、特開平11−259095号
公報で示されるような、音韻の継続時間長に関する統計
量を用いた伸縮方法などの手段を用いることによって実
現できる。Finally, for the global segment obtained from the sum of the global duration for the global segment obtained in step S302 and the local duration for a plurality of local segments obtained in step S303. The difference from the global duration (for example, (600-300 =) 300 milliseconds in the above example) is used to calculate the global segment using statistics (mean, variance) relating to the duration of the phoneme. To be equal to the global duration,
In step S304, expansion / contraction processing is performed. This specific method can be realized by using a means such as an expansion / contraction method using a statistic related to the duration of a phoneme as disclosed in Japanese Patent Application Laid-Open No. H11-259095.
【0031】例えば、ある音韻に対する音韻時間長の決
定の一例として、音韻時間長の平均値、標準偏差、最小
値を、音韻の種類(αi)毎に求め、これらをメモリに
格納しておき、これらの値を用いて音韻αiに関する音
韻時間長diの初期値dαiを決定する。そして、これに
基づいて、音韻時間長diが決定される。For example, as an example of determining a phoneme time length for a certain phoneme, an average value, a standard deviation, and a minimum value of the phoneme time length are obtained for each phoneme type (αi), and these are stored in a memory. Using these values, the initial value dαi of the phoneme duration di for the phoneme αi is determined. Then, the phoneme duration di is determined based on this.
【0032】di=dαi+ρ(σαi)2 ρ=(T−Σdαi)/Σ(σαi)2 ここで、Tは発生時間(T=Σdi)を示し、σαiは音
韻時間長の標準偏差を示す。またΣはi=1〜N(サン
プル数)の総和を示す。Di = dαi + ρ (σαi) 2 ρ = (T−Σdαi) / Σ (σαi) 2 where T indicates the generation time (T = Σdi), and σαi indicates the standard deviation of the phoneme time length. Σ indicates the sum of i = 1 to N (the number of samples).
【0033】[実施の形態2]上記実施の形態1では、
大局的セグメントの継続時間長dkを大局的セグメント
の平均継続時間長~dで除した式(1)を推定するモデルを
学習し、このモデルから得られる大局的継続時間長を用
いて局所的な継続時間長を再設定したが、実施の形態2
では、大局的セグメントの継続時間長と平均継続時間長
の差分値に基づいて大局的時間長モデルを構成する。な
お、実施の形態2によるハードウェア構成、手順は第1
の実施の形態(図1〜図5)と同様であるので、それら
の説明を省略する。[Second Embodiment] In the first embodiment,
A model for estimating equation (1) obtained by dividing the duration dk of the global segment by the average duration d of the global segment to d is learned, and the local duration is obtained using the global duration obtained from this model. Although the duration time is reset, Embodiment 2
Then, a global time length model is constructed based on the difference between the duration of the global segment and the average duration. The hardware configuration and procedure according to the second embodiment are the same as those in the first embodiment.
Since these embodiments are the same as the first embodiment (FIGS. 1 to 5), the description thereof is omitted.
【0034】本実施の形態2では、実施の形態1におけ
る式(1)を sk=dk−~d …式(5) と変更し、学習サンプルごとの大局的なセグメントの継
続時間長から平均継続時間長~dを差し引くことによっ
て、継続時間長dkを正規化したskを求める。このよう
にして得られたskを用いて、前述の実施の形態1と同
様に、線形重回帰分析法を用いて、式(3)と同様にskの
予測モデルを作成することができる。このモデルから得
られる大局的なセグメントの継続時間長の予測値^skを
用いれば、k番目のサンプルに対する大局的なセグメン
トの継続時間長^dkは、式(5)より、 d^k=^sk+~d …式(6) として求めることができる。この式(6)が実施の形態
2における大局的継続時間長モデルとなる。局所的継続
時間長モデルも同様の方法を用いてモデリングすること
ができる。In the second embodiment, the equation (1) in the first embodiment is changed to sk = dk− ~ d... (5), and the average duration is calculated from the duration of the global segment for each learning sample. By subtracting the time length dd, the sk obtained by normalizing the duration time dk is obtained. Using the sk obtained in this manner, a prediction model of sk can be created in the same manner as in the first embodiment, using a linear multiple regression analysis method in the same manner as in equation (3). Using the predicted value of the duration of the global segment ^ sk obtained from this model, the duration of the global segment ^ dk for the k-th sample is given by d ^ k = ^ from equation (5). sk + ~ d can be obtained as equation (6). Equation (6) is a global duration model in the second embodiment. The local duration model can be modeled using a similar method.
【0035】なお、上記各実施の形態における構成は本
発明の一実施の形態を示したものであり、各種変形が可
能である。変形例を示せば以下の通りである。The configuration in each of the above embodiments shows an embodiment of the present invention, and various modifications are possible. A modified example is as follows.
【0036】上述した各実施の形態において、大局的セ
グメントの平均継続時間長~dとして平均モーラ継続時
間長を用いたが、平均を求める際にモーラを単位として
いるのは一例であり、音節や音素といったこれ以外の音
韻単位を用いることができる。また、本発明は日本語以
外の言語にも適用可能である。In each of the above embodiments, the average duration of the mora is used as the average duration of the global segment to d. However, when the average is obtained, the mora is used as a unit. Other phoneme units, such as phonemes, can be used. The present invention is also applicable to languages other than Japanese.
【0037】上述した各実施の形態において、大局的セ
グメントの線形重回帰モデルの要因とカテゴリは一例を
示すものであり、他の要因やカテゴリを用いてもよい。In the above-described embodiments, the factors and categories of the linear multiple regression model of the global segment are merely examples, and other factors and categories may be used.
【0038】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(又はCPUや
MPU)が記憶媒体に格納されたプログラムコードを読
出し実行することによっても達成される。この場合、記
憶媒体から読出されたプログラムコード自体が前述した
実施の形態の機能を実現することになり、そのプログラ
ムコードを記憶した記憶媒体は本発明を構成することに
なる。このようなプログラムコードを供給するための記
憶媒体としては、例えば、フロッピィディスク、ハード
ディスク、光ディスク、光磁気ディスク、CD−RO
M、CD−R、DVD、磁気テープ、不揮発性のメモリ
カード、ROMなどを用いることができる。Another object of the present invention is to provide a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or apparatus, and to provide a computer (or CPU or MPU) of the system or apparatus. Is also achieved by reading and executing the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the function of the above-described embodiment, and the storage medium storing the program code constitutes the present invention. As a storage medium for supplying such a program code, for example, a floppy disk, hard disk, optical disk, magneto-optical disk, CD-RO
M, CD-R, DVD, magnetic tape, nonvolatile memory card, ROM and the like can be used.
【0039】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施の形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOS(オペ
レーティングシステム)などが実際の処理の一部又は全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれる。When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also the OS (Operating System) running on the computer based on the instruction of the program code. System) performs part or all of actual processing, and the processing realizes the functions of the above-described embodiments.
【0040】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部又は全部を行い、その
処理によって前述した実施の形態の機能が実現される場
合も含まれる。Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, based on the instructions of the program code, The case where the CPU of the function expansion board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments is also included.
【0041】以上説明したように本実施の形態によれ
ば、高精度に大局的及び局所的なセグメントの継続時間
長を設定する手段を用いることにより、より高精度に継
続時間長をモデル化できるようになり、音声合成装置に
おける合成音声の自然性の向上が可能になるという効果
がある。As described above, according to the present embodiment, the duration can be modeled with higher accuracy by using the means for setting the duration of the global and local segments with high accuracy. As a result, it is possible to improve the naturalness of synthesized speech in the speech synthesis device.
【0042】[0042]
【発明の効果】以上説明したように本発明によれば、音
韻系列の継続時間長を精度良く設定することを可能と
し、音韻・言語環境に応じた自然な音韻時間長を与える
ことができる。As described above, according to the present invention, it is possible to accurately set the duration of a phoneme sequence, and to provide a natural phoneme time according to the phoneme / language environment.
【図1】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。FIG. 1 is a block diagram showing a hardware configuration of a speech synthesizer according to an embodiment of the present invention.
【図2】本発明の実施の形態に係る音声合成装置におけ
る音声合成の処理手順を示したフローチャートである。FIG. 2 is a flowchart showing a speech synthesis processing procedure in the speech synthesis device according to the embodiment of the present invention.
【図3】図2のステップS203のプロソディ生成処理
における、継続時間長モデルを用いた音韻系列の継続時
間長の設定手順を示すフローチャートである。FIG. 3 is a flowchart showing a procedure for setting a duration of a phoneme sequence using a duration model in a prosody generation process in step S203 of FIG. 2;
【図4】本実施の形態に係る大局的セグメントに対する
大局的継続時間長モデルの作成方法を示すフローチャー
トである。FIG. 4 is a flowchart illustrating a method for creating a global duration model for a global segment according to the present embodiment.
【図5】本実施の形態に係る局所的なセグメントに対す
る局所的継続時間長モデルの作成方法を示すフローチャ
ートである。FIG. 5 is a flowchart showing a method for creating a local duration model for a local segment according to the present embodiment.
Claims (11)
基づいて、所定単位の音韻系列の継続時間長を求める工
程と、 局所的セグメントの継続時間長モデルに基づいて、前記
音韻系列を構成する各音韻の継続時間長を求める工程
と、 前記音韻系列の継続時間長と前記各音韻の継続時間長と
に基づいて、前記各音韻の継続時間長を設定する設定工
程と、 前記設定工程により設定された前記各音韻の継続時間長
に基づいて音声を合成する音声合成工程と、を有するこ
とを特徴とする音声情報処理方法。A step of obtaining a duration of a phoneme sequence in a predetermined unit based on a duration model of a global segment; and a step of obtaining each of the phoneme sequences based on a duration model of a local segment. Setting the duration of each phoneme based on the duration of the phoneme sequence and the duration of each phoneme, and setting the duration of each phoneme. A voice synthesizing step of synthesizing voice based on the duration of each phoneme.
やモーラの少なくともいずれかからなり、前記大局的セ
グメントはアクセント句、単語、フレーズ、文の少なく
ともいずれかからなることを特徴とする請求項1に記載
の音声情報処理方法。2. The method according to claim 1, wherein the local segment comprises at least one of a phoneme, a syllable, and a mora, and the global segment comprises at least one of an accent phrase, a word, a phrase, and a sentence. The voice information processing method described in the above.
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との比に基づいてモデリン
グされたモデルであることを特徴とする請求項1に記載
の音声情報処理方法。3. The global segment duration model is a model modeled on the basis of a ratio of the duration of the global segment to the average duration of the global segment. The voice information processing method according to claim 1.
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との差に基づいてモデリン
グされたモデルであることを特徴とする請求項1に記載
の音声情報処理方法。4. The duration model of the global segment is a model modeled based on a difference between the duration of the global segment and the average duration of the global segment. The voice information processing method according to claim 1.
ルは、線形重回帰モデルによってモデリングされたモデ
ルであることを特徴とする請求項1乃至4のいずれか1
項に記載の音声情報処理方法。5. The method according to claim 1, wherein the duration model of the global segment is a model modeled by a linear multiple regression model.
The voice information processing method according to the paragraph.
音声情報処理方法を実行するプログラムを記憶したこと
を特徴とする、コンピュータにより読取り可能な記憶媒
体。6. A computer-readable storage medium storing a program for executing the voice information processing method according to claim 1. Description:
基づいて、所定単位の音韻系列の継続時間長を求める手
段と、 局所的セグメントの継続時間長モデルに基づいて、前記
音韻系列を構成する各音韻の継続時間長を求める手段
と、 前記音韻系列の継続時間長と前記各音韻の継続時間長と
に基づいて、前記各音韻の継続時間長を設定する設定手
段と、 前記設定手段により設定された前記各音韻の継続時間長
に基づいて音声を合成する音声合成手段と、を有するこ
とを特徴とする音声情報処理装置。7. A means for determining the duration of a phoneme sequence of a predetermined unit based on a duration model of a global segment; and each of the units forming the phoneme sequence based on a duration model of a local segment. Means for determining the duration of a phoneme; setting means for setting the duration of each phoneme based on the duration of the phoneme sequence and the duration of each phoneme; and setting by the setting means. Speech synthesis means for synthesizing speech based on the duration of each phoneme.
やモーラの少なくともいずれかからなり、前記大局的セ
グメントはアクセント句、単語、フレーズ、文の少なく
ともいずれかからなることを特徴とする請求項7に記載
の音声情報処理装置。8. The method of claim 7, wherein the local segment comprises a phoneme or at least one of a syllable and a mora, and the global segment comprises at least one of an accent phrase, a word, a phrase, and a sentence. An audio information processing apparatus according to claim 1.
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との比に基づいてモデリン
グされたモデルであることを特徴とする請求項7に記載
の音声情報処理装置。9. The global segment duration model is a model modeled based on a ratio of a duration of the global segment to an average duration of the global segment. The voice information processing apparatus according to claim 7, wherein
デルは、前記大局的セグメントの継続時間長と前記大局
的セグメントの平均継続時間長との差に基づいてモデリ
ングされたモデルであることを特徴とする請求項7に記
載の音声情報処理装置。10. The duration model of the global segment is a model modeled based on a difference between the duration of the global segment and the average duration of the global segment. The voice information processing apparatus according to claim 7, wherein
デルは、線形重回帰モデルによってモデリングされたモ
デルであることを特徴とする請求項7乃至10のいずれ
か1項に記載の音声情報処理装置。11. The speech information processing apparatus according to claim 7, wherein the duration model of the global segment is a model modeled by a linear multiple regression model.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000099535A JP2001282279A (en) | 2000-03-31 | 2000-03-31 | Voice information processing method and apparatus, and storage medium |
| US09/818,626 US6778960B2 (en) | 2000-03-31 | 2001-03-28 | Speech information processing method and apparatus and storage medium |
| US10/852,139 US7089186B2 (en) | 2000-03-31 | 2004-05-25 | Speech information processing method, apparatus and storage medium performing speech synthesis based on durations of phonemes |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000099535A JP2001282279A (en) | 2000-03-31 | 2000-03-31 | Voice information processing method and apparatus, and storage medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001282279A true JP2001282279A (en) | 2001-10-12 |
| JP2001282279A5 JP2001282279A5 (en) | 2007-05-10 |
Family
ID=18613875
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000099535A Pending JP2001282279A (en) | 2000-03-31 | 2000-03-31 | Voice information processing method and apparatus, and storage medium |
Country Status (2)
| Country | Link |
|---|---|
| US (2) | US6778960B2 (en) |
| JP (1) | JP2001282279A (en) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015108667A (en) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | Fundamental frequency prediction device, fundamental frequency prediction method, and program |
| WO2020166359A1 (en) * | 2019-02-12 | 2020-08-20 | 日本電信電話株式会社 | Estimation device, estimation method, and program |
Families Citing this family (128)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
| JP4054507B2 (en) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | Voice information processing method and apparatus, and storage medium |
| JP2001282279A (en) * | 2000-03-31 | 2001-10-12 | Canon Inc | Voice information processing method and apparatus, and storage medium |
| ITTO20010179A1 (en) * | 2001-02-28 | 2002-08-28 | Cselt Centro Studi Lab Telecom | SYSTEM AND METHOD FOR ACCESS TO MULTIMEDIA STRUCTURES. |
| JP2003295882A (en) * | 2002-04-02 | 2003-10-15 | Canon Inc | Text structure for speech synthesis, speech synthesis method, speech synthesis apparatus, and computer program therefor |
| US8103505B1 (en) * | 2003-11-19 | 2012-01-24 | Apple Inc. | Method and apparatus for speech synthesis using paralinguistic variation |
| JP4587160B2 (en) * | 2004-03-26 | 2010-11-24 | キヤノン株式会社 | Signal processing apparatus and method |
| US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
| US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
| CN1953052B (en) * | 2005-10-20 | 2010-09-08 | 株式会社东芝 | Training duration prediction model, method and device for duration prediction and speech synthesis |
| US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
| JP5071475B2 (en) * | 2007-03-27 | 2012-11-14 | 富士通株式会社 | Prediction model creation method, creation device, creation program by multiple regression analysis |
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
| US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
| US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
| US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
| US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
| US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
| US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
| US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
| US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
| KR20110006004A (en) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | Combined recognition unit optimization device and method |
| RU2421827C2 (en) * | 2009-08-07 | 2011-06-20 | Общество с ограниченной ответственностью "Центр речевых технологий" | Speech synthesis method |
| JP5482042B2 (en) * | 2009-09-10 | 2014-04-23 | 富士通株式会社 | Synthetic speech text input device and program |
| US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
| US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
| US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
| US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
| US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
| US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
| US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
| US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
| US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
| US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
| US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
| US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
| US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
| US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
| US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
| US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
| US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
| DE112014000709B4 (en) | 2013-02-07 | 2021-12-30 | Apple Inc. | METHOD AND DEVICE FOR OPERATING A VOICE TRIGGER FOR A DIGITAL ASSISTANT |
| US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
| WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
| WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
| WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
| WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
| US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
| WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
| US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
| KR101959188B1 (en) | 2013-06-09 | 2019-07-02 | 애플 인크. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
| KR101809808B1 (en) | 2013-06-13 | 2017-12-15 | 애플 인크. | System and method for emergency calls initiated by voice command |
| KR101749009B1 (en) | 2013-08-06 | 2017-06-19 | 애플 인크. | Auto-activating smart responses based on activities from remote devices |
| US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
| US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
| US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
| US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
| US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
| US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
| US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
| US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
| WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
| US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
| US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
| US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
| US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
| US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
| US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
| US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
| US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
| US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
| US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
| US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
| US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
| US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
| US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
| US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
| US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
| US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
| US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
| US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
| US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
| US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
| US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
| US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
| US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
| US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
| US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
| US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
| US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
| US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
| US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
| US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
| US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
| US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
| US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
| US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
| US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
| US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
| US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
| US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
| DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
| US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
| US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
| US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
| US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
| US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
| DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
| DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
| US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
| US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
| DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
| DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
| DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
| DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
| DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
| DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
| CN113421548B (en) * | 2021-06-30 | 2024-02-06 | 平安科技(深圳)有限公司 | Speech synthesis method, device, computer equipment and storage medium |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6346498A (en) * | 1986-04-18 | 1988-02-27 | 株式会社リコー | Prosody generation method and timing point pattern generation method |
| JPH0318899A (en) * | 1989-06-15 | 1991-01-28 | Ricoh Co Ltd | Phoneme duration length control system |
| JPH05108084A (en) * | 1991-10-17 | 1993-04-30 | Ricoh Co Ltd | Speech synthesizing device |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0573100A (en) | 1991-09-11 | 1993-03-26 | Canon Inc | Speech synthesis method and apparatus thereof |
| JP3450411B2 (en) | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | Voice information processing method and apparatus |
| JP3548230B2 (en) | 1994-05-30 | 2004-07-28 | キヤノン株式会社 | Speech synthesis method and apparatus |
| JP3559588B2 (en) | 1994-05-30 | 2004-09-02 | キヤノン株式会社 | Speech synthesis method and apparatus |
| JP3854713B2 (en) | 1998-03-10 | 2006-12-06 | キヤノン株式会社 | Speech synthesis method and apparatus and storage medium |
| JP4054507B2 (en) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | Voice information processing method and apparatus, and storage medium |
| JP2001282279A (en) * | 2000-03-31 | 2001-10-12 | Canon Inc | Voice information processing method and apparatus, and storage medium |
-
2000
- 2000-03-31 JP JP2000099535A patent/JP2001282279A/en active Pending
-
2001
- 2001-03-28 US US09/818,626 patent/US6778960B2/en not_active Expired - Lifetime
-
2004
- 2004-05-25 US US10/852,139 patent/US7089186B2/en not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6346498A (en) * | 1986-04-18 | 1988-02-27 | 株式会社リコー | Prosody generation method and timing point pattern generation method |
| JPH0318899A (en) * | 1989-06-15 | 1991-01-28 | Ricoh Co Ltd | Phoneme duration length control system |
| JPH05108084A (en) * | 1991-10-17 | 1993-04-30 | Ricoh Co Ltd | Speech synthesizing device |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2015108667A (en) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | Fundamental frequency prediction device, fundamental frequency prediction method, and program |
| WO2020166359A1 (en) * | 2019-02-12 | 2020-08-20 | 日本電信電話株式会社 | Estimation device, estimation method, and program |
| JP2020129099A (en) * | 2019-02-12 | 2020-08-27 | 日本電信電話株式会社 | Estimating device, estimating method, and program |
| JP7197786B2 (en) | 2019-02-12 | 2022-12-28 | 日本電信電話株式会社 | Estimation device, estimation method, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| US6778960B2 (en) | 2004-08-17 |
| US7089186B2 (en) | 2006-08-08 |
| US20040215459A1 (en) | 2004-10-28 |
| US20010032080A1 (en) | 2001-10-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2001282279A (en) | Voice information processing method and apparatus, and storage medium | |
| JP4054507B2 (en) | Voice information processing method and apparatus, and storage medium | |
| US8015011B2 (en) | Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases | |
| EP0688011B1 (en) | Audio output unit and method thereof | |
| US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
| JP4455610B2 (en) | Prosody pattern generation device, speech synthesizer, program, and prosody pattern generation method | |
| US20200365137A1 (en) | Text-to-speech (tts) processing | |
| US20060259303A1 (en) | Systems and methods for pitch smoothing for text-to-speech synthesis | |
| JPH10116089A (en) | Rhythm database which store fundamental frequency templates for voice synthesizing | |
| US20090157408A1 (en) | Speech synthesizing method and apparatus | |
| US20060229877A1 (en) | Memory usage in a text-to-speech system | |
| JP6436806B2 (en) | Speech synthesis data creation method and speech synthesis data creation device | |
| JP5874639B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
| Houidhek et al. | Statistical modelling of speech units in HMM-based speech synthesis for Arabic | |
| Begum et al. | Text-to-speech synthesis system for Mymensinghiya dialect of Bangla language | |
| Iyanda et al. | Development of a yorúbà texttospeech system using festival | |
| JP3234371B2 (en) | Method and apparatus for processing speech duration for speech synthesis | |
| EP1589524B1 (en) | Method and device for speech synthesis | |
| EP1640968A1 (en) | Method and device for speech synthesis | |
| KR100608643B1 (en) | Accent Modeling Apparatus and Method for Speech Synthesis System | |
| Cahyaningtyas et al. | Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System | |
| JP2002297175A (en) | Device and method for text voice synthesis, program, and computer-readable recording medium with program recorded thereon | |
| Klabbers | Text-to-Speech Synthesis | |
| Burileanu et al. | Prosody modeling for an embedded TTS system implementation | |
| Aliero et al. | Taxonomy, Review and Research Challenges Of DNN-Based Text-To-Speech System for Hausa as Under-Resourced Language |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070319 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20070319 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080813 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100129 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100205 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100604 |