JP2001282279A - Voice information processing method and apparatus, and storage medium - Google Patents

Voice information processing method and apparatus, and storage medium

Info

Publication number
JP2001282279A
JP2001282279A JP2000099535A JP2000099535A JP2001282279A JP 2001282279 A JP2001282279 A JP 2001282279A JP 2000099535 A JP2000099535 A JP 2000099535A JP 2000099535 A JP2000099535 A JP 2000099535A JP 2001282279 A JP2001282279 A JP 2001282279A
Authority
JP
Japan
Prior art keywords
duration
phoneme
model
segment
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000099535A
Other languages
Japanese (ja)
Other versions
JP2001282279A5 (en
Inventor
Toshiaki Fukada
俊明 深田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099535A priority Critical patent/JP2001282279A/en
Priority to US09/818,626 priority patent/US6778960B2/en
Publication of JP2001282279A publication Critical patent/JP2001282279A/en
Priority to US10/852,139 priority patent/US7089186B2/en
Publication of JP2001282279A5 publication Critical patent/JP2001282279A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

(57)【要約】 【課題】 音韻系列の継続時間長を精度良く設定可能と
し、音韻・言語環境に応じた自然な音韻時間長を与え
る。 【解決手段】 大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める
(S302)。局所的セグメントの継続時間長モデルに
基づいて、その音韻系列を構成する各音韻の継続時間長
を求める(S303)。音韻系列の継続時間長と各音韻
の継続時間長とに基づいて、各音韻の継続時間長を設定
する(S304)。
(57) [Summary] [PROBLEMS] To enable a duration of a phoneme sequence to be set with high accuracy, and to give a natural phoneme time according to a phoneme / language environment. SOLUTION: Based on a duration model of a global segment, a duration of a phoneme sequence of a predetermined unit is obtained (S302). Based on the duration model of the local segment, the duration of each phoneme constituting the phoneme sequence is determined (S303). The duration of each phoneme is set based on the duration of the phoneme series and the duration of each phoneme (S304).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、音声合成に際して
実施される音韻の継続時間長を設定する音声情報処理方
法及びその装置、及び、前記音声合成方法を実施するプ
ログラムを記憶した、コンピュータにより読取り可能な
記憶媒体に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech information processing method and apparatus for setting a duration of a phoneme performed in speech synthesis, and a computer-readable program storing a program for executing the speech synthesis method. It concerns a possible storage medium.

【0002】[0002]

【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。
2. Description of the Related Art In recent years, a speech synthesizer has been developed which converts an arbitrary character sequence into a phoneme sequence and converts the phoneme sequence into a synthesized speech according to a predetermined speech rule synthesis method.

【0003】[0003]

【発明が解決しようとする課題】従来の音声合成装置か
ら出力される合成音声は、人間が発声する自然音声と比
較すると不自然で機械的なものであった。
The synthesized speech output from the conventional speech synthesizer is unnatural and mechanical as compared to natural speech uttered by humans.

【0004】この原因の一つとして、例えば「おんせ
い」という文字系列を構成する音韻系列「o,X,s,
e,i」において、各音韻の継続時間長を生成する音韻
継続時間長の制御規則の精度が挙げられる。精度が悪い
場合、各音韻に対して適正に、継続時間長が付与されな
いため、合成される音声は不自然で機械的なものとな
る。
As one of the causes, for example, a phoneme sequence “o, X, s,
In “e, i”, the accuracy of the control rule of the phoneme duration for generating the duration of each phoneme can be mentioned. If the accuracy is low, the duration is not properly given to each phoneme, so that the synthesized speech is unnatural and mechanical.

【0005】本発明は上記従来例に鑑みてなされたもの
で、音韻系列の継続時間長を精度良く設定することを可
能とし、音韻・言語環境に応じた自然な音韻時間長を与
える音声情報処理方法及びその装置を提供することを目
的とする。
SUMMARY OF THE INVENTION The present invention has been made in view of the above conventional example, and is capable of accurately setting the duration of a phoneme sequence and providing a natural phoneme time length corresponding to a phoneme / language environment. It is an object to provide a method and an apparatus thereof.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するため
に本発明の音声情報処理装置は以下のような構成を備え
る。即ち、大局的セグメントの継続時間長モデルに基づ
いて、所定単位の音韻系列の継続時間長を求める手段
と、局所的セグメントの継続時間長モデルに基づいて、
前記音韻系列を構成する各音韻の継続時間長を求める手
段と、前記音韻系列の継続時間長と前記各音韻の継続時
間長とに基づいて、前記各音韻の継続時間長を設定する
設定手段と、前記設定手段により設定された前記各音韻
の継続時間長に基づいて音声を合成する音声合成手段
と、を有することを特徴とする。
In order to achieve the above object, a voice information processing apparatus according to the present invention has the following arrangement. In other words, based on the duration model of the global segment, means for determining the duration of the phoneme sequence in a predetermined unit, and based on the duration model of the local segment,
Means for determining the duration of each phoneme constituting the phoneme sequence, and setting means for setting the duration of each phoneme based on the duration of the phoneme sequence and the duration of each phoneme. Speech synthesis means for synthesizing speech based on the duration of each phoneme set by the setting means.

【0007】上記目的を達成するために本発明の音声情
報処理方法は以下のような工程を備える。即ち、大局的
セグメントの継続時間長モデルに基づいて、所定単位の
音韻系列の継続時間長を求める工程と、局所的セグメン
トの継続時間長モデルに基づいて、前記音韻系列を構成
する各音韻の継続時間長を求める工程と、前記音韻系列
の継続時間長と前記各音韻の継続時間長とに基づいて、
前記各音韻の継続時間長を設定する設定工程と、前記設
定工程により設定された前記各音韻の継続時間長に基づ
いて音声を合成する音声合成工程と、を有することを特
徴とする。
[0007] To achieve the above object, a voice information processing method of the present invention comprises the following steps. That is, based on the duration model of the global segment, a step of obtaining the duration of the phoneme sequence of a predetermined unit, and, based on the duration model of the local segment, the continuation of each phoneme constituting the phoneme sequence. Determining the time length, based on the duration of the phoneme sequence and the duration of each phoneme,
A setting step of setting a duration time of each of the phonemes; and a speech synthesis step of synthesizing speech based on the duration time of each of the phonemes set in the setting step.

【0008】[0008]

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Preferred embodiments of the present invention will be described below in detail with reference to the accompanying drawings.

【0009】[実施の形態1]図1は、本発明の実施の
形態1に係る音声合成装置の構成を示すブロック図であ
る。
[First Embodiment] FIG. 1 is a block diagram showing a configuration of a speech synthesizer according to a first embodiment of the present invention.

【0010】図1において、101はCPUで、ROM
102に記憶された制御プログラム、或いは外部記憶装
置104からRAM103にロードされた制御プログラ
ムに従って、本実施の形態の音声合成装置における各種
制御を行う。ROM102は、各種パラメータやCPU
101が実行する制御プログラムなどを格納している。
RAM103は、CPU101による各種制御の実行時
に作業領域を提供するとともに、CPU101により実
行される制御プログラムを記憶する。104はハードデ
ィスク、フロッピー(登録商標)ディスク、CD−RO
M等の外部記憶装置で、この外部記憶装置がハードディ
スクの場合には、CD−ROMやフロッピィディスク等
からインストールされた各種プログラムが記憶されてい
る。105は入力部で、キーボード、マウス等のポイン
ティングデバイスを有している。又、この入力部105
は、例えば通信回線等を介してインターネット等からの
データを入力しても良い。106は液晶やCRT等の表
示部で、CPU101の制御により各種データの表示を
行う。107はスピーカで、音声信号(電気信号)を可
聴音である音声に変換して出力する。108は上記各部
を接続するバスである。109は音声合成ユニットであ
る。
In FIG. 1, reference numeral 101 denotes a CPU and a ROM
According to the control program stored in the RAM 102 or the control program loaded into the RAM 103 from the external storage device 104, various controls in the speech synthesizer of the present embodiment are performed. ROM 102 stores various parameters and CPU
The control program 101 executes a control program.
The RAM 103 provides a work area when the CPU 101 executes various controls, and stores a control program executed by the CPU 101. 104 is a hard disk, a floppy (registered trademark) disk, a CD-RO
When the external storage device is a hard disk, various programs installed from a CD-ROM, a floppy disk or the like are stored. An input unit 105 has a pointing device such as a keyboard and a mouse. Also, the input unit 105
May input data from the Internet or the like via a communication line or the like. A display unit 106 such as a liquid crystal display or a CRT displays various data under the control of the CPU 101. A speaker 107 converts an audio signal (electric signal) into an audible sound and outputs the sound. Reference numeral 108 denotes a bus that connects the above components. Reference numeral 109 denotes a speech synthesis unit.

【0011】図2は、本実施の形態1に係る音声合成ユ
ニット109の動作を示すフローチャートである。以下
に示される各ステップは、ROM102に格納された制
御プログラム、或いは外部記憶装置104からRAM1
03にロードされた制御プログラムをCPU101が実
行することによって実現される。
FIG. 2 is a flowchart showing the operation of the speech synthesis unit 109 according to the first embodiment. Each step described below is performed by using a control program stored in the ROM 102 or the RAM 1 from the external storage device 104.
This is realized by the CPU 101 executing the control program loaded in the CPU 03.

【0012】まずステップS201で、漢字かな混じり
の日本語テキストデータが入力部105から入力される
とステップS202に進み、この入力されたテキストデ
ータを、言語解析辞書201を用いて解析し、入力テキ
ストデータに対する音韻系列(読み)やアクセントなど
の情報を抽出する。次にステップS203に進み、これ
らの情報を用いて、ステップS202で求めた音韻系列
を構成する各音韻の継続時間長、基本周波数(ピッチパ
ターン)、パワー等のプロソディ(韻律情報という)を
生成する。この際、音韻の継続時間長は継続時間長モデ
ル202を用いて、基本周波数、パワー等は韻律制御モ
デル203を用いて決定される。
First, in step S201, when Japanese text data mixed with kanji and kana is input from the input unit 105, the process proceeds to step S202, where the input text data is analyzed using the linguistic analysis dictionary 201, and the input text is input. It extracts information such as phonemic sequences (reading) and accents for the data. Next, the process proceeds to step S203, and a prosody (referred to as prosodic information) such as a duration time, a fundamental frequency (pitch pattern), and power of each phoneme constituting the phoneme sequence obtained in step S202 is generated using the information. . At this time, the duration of the phoneme is determined using the duration model 202, and the fundamental frequency, power, and the like are determined using the prosody control model 203.

【0013】次にステップS204に進み、ステップS
202で解析して抽出された音韻系列、及びステップS
203で生成されたプロソディに基づいて、音声素片辞
書204から、その音韻系列に対応する合成音声を生成
するための音声素片(波形もしくは特徴パラメータ)を
複数個選択する。次にステップS205に進み、それら
選択された音声素片を用いて合成音声信号を生成し、ス
テップS206において、その生成された合成音声信号
に基づいて音声をスピーカ107から出力する。最後に
ステップS207において、入力されたテキストデータ
に対する処理が全て終了したか否かの判断を行い、終了
していない場合はステップS201に戻り、前述の処理
が続けられる。
Next, proceeding to step S204,
Phonemic sequence analyzed and extracted in step 202, and step S
Based on the prosody generated in 203, a plurality of speech units (waveforms or characteristic parameters) for generating a synthesized speech corresponding to the phoneme sequence are selected from the speech unit dictionary 204. Next, the process proceeds to step S205, in which a synthesized voice signal is generated using the selected voice segments, and in step S206, a voice is output from the speaker 107 based on the generated synthesized voice signal. Finally, in step S207, it is determined whether or not all the processes for the input text data have been completed. If not, the process returns to step S201 to continue the above-described processes.

【0014】図3は、図2のステップS203のプロソ
ディ生成処理の一部を詳細に説明するフローチャートで
ある。図3では、継続的時間長モデル202を用いて、
所定単位の音韻系列(以下、大局的セグメントと称す
る)の継続時間長とこの音韻系列を構成する各音韻(以
下、局所的セグメントと称する)の継続時間長とを設定
する手順を示す。ここで、継続時間長モデル202は、
大局的セグメントに対する継続時間長モデル(大局的継
続時間長モデルともいう)301と局所的セグメントに
対する継続時間長モデル(局所的継続時間長モデルとも
いう)302とを含む。
FIG. 3 is a flowchart for explaining in detail a part of the prosody generation processing in step S203 in FIG. In FIG. 3, using the continuous time length model 202,
A procedure for setting the duration of a phoneme sequence of a predetermined unit (hereinafter, referred to as a global segment) and the duration of each phoneme (hereinafter, referred to as a local segment) constituting the phoneme sequence will be described. Here, the duration model 202 is
A duration model for a global segment (also referred to as a global duration model) 301 and a duration model for a local segment (also referred to as a local duration model) 302 are included.

【0015】まずステップS301において、図2のス
テップS202のテキスト処理によって得られる入力テ
キストデータに対する解析結果を入力する。ここで、こ
の解析結果としては、音素などの音韻情報から得た音韻
環境、モーラ数、アクセント句数、品詞などの言語情報
から得た言語環境に関する情報などがある。次にステッ
プS302に進み、まず大局的なセグメントに対する継
続時間長を大局的セグメントに対する大局的継続時間長
モデル301に基づいて設定する。ここで、大局的なセ
グメントは、アクセント句、単語、フレーズ、文など
の、発話上ひとまとまりにして処理できる(発話単位と
いう)からなる。
First, in step S301, an analysis result for input text data obtained by the text processing in step S202 of FIG. 2 is input. Here, as the analysis result, there is a phoneme environment obtained from phoneme information such as phonemes, information on a language environment obtained from language information such as the number of mora, the number of accent phrases, and the part of speech. Next, the process proceeds to step S302, where the duration of the global segment is set based on the global duration model 301 for the global segment. Here, the global segment is composed of utterances such as accent phrases, words, phrases, sentences, etc., which can be processed as a unit (called an utterance unit).

【0016】次にステップS303に進み、局所的なセ
グメントに対する継続時間長を、局所的セグメントに対
する局所的継続時間長モデル302に基づいて設定す
る。ここで、局所的なセグメントは、音素、音節、モー
ラなどの発話単位を構成する音韻単位からなる。
Next, the process proceeds to step S303, where the duration of the local segment is set based on the local duration model 302 for the local segment. Here, the local segment is composed of phoneme units constituting speech units such as phonemes, syllables, and mora.

【0017】そして最後にステップS304に進み、ス
テップS303で得られる局所的なセグメントの継続時
間長の和によって得られる大局的なセグメントに対する
継続時間長と、ステップS302で設定される大局的な
セグメントに対する継続時間長との差分を、ステップS
302で設定される大局的継続時間長となるように、局
所的なセグメントの継続時間長を局所的継続時間伸縮モ
デル303を用いて伸縮することにより、各音韻の局所
的継続時間長を決定する。
Finally, the process proceeds to step S304, where the duration of the global segment obtained by the sum of the durations of the local segments obtained in step S303 and the duration of the global segment set in step S302 are determined. The difference with the duration is determined by the step S
The local duration of each phoneme is determined by expanding and contracting the duration of a local segment using the local duration expansion / contraction model 303 so as to have the global duration set at 302. .

【0018】具体例として、いまテキストデータとして
「花が」が入力された場合、個の文字列から解析された
音韻系列を大局的セグメントとし、これをモーラを音韻
単位とする局所的セグメントに分割すると「ha」「na」
「ga」となる。ここで各モーラの平均継続時間長(durat
ion)を、例えば100ミリ秒とし、実際の測定されたこ
の大局的セグメントの時間長が600ミリ秒であったと
すると、大局的セグメントの時間長が600ミリ秒に対
して、局所的なセグメントの継続時間長の和によって得
られる大局的継続時間長は300ミリ秒となり、300
ミリ秒の差が生じることになる。
As a specific example, when "flower" is input as text data, a phoneme sequence analyzed from individual character strings is set as a global segment, and this is divided into local segments using mora as a phoneme unit. Then "ha""na"
It becomes "ga". Where the average duration of each mora (durat
ion) is, for example, 100 milliseconds, and assuming that the actual measured time length of the global segment is 600 milliseconds, the time length of the global segment is 600 milliseconds, whereas the local segment has a time length of 600 milliseconds. The overall duration obtained from the sum of the durations is 300 milliseconds,
There will be a millisecond difference.

【0019】ここで次に、大局的なセグメントに対する
大局的継続時間長モデル301の作成方法と、ステップ
S302の大局的なセグメントに対する継続時間長の設
定処理を図4のフローチャートを参照して説明する。
Next, the method of creating the global duration model 301 for the global segment and the process of setting the duration for the global segment in step S302 will be described with reference to the flowchart of FIG. .

【0020】図4は、大局的なセグメントに対する大局
的継続時間長モデル301の作成方法を示すフローチャ
ートである。
FIG. 4 is a flowchart showing a method of creating a global duration model 301 for a global segment.

【0021】まずステップS401において、大局的な
セグメントに対する大局的継続時間長モデルを作成する
ための複数個の学習サンプルを有する音声ファイル40
1と、音素や音節などの開始、終了時間情報等の継続時
間長の抽出に必要な情報を有するサイド情報ファイル4
02とを用いて、大局的継続時間長を抽出する。次にス
テップS402に進み、音素などの音韻情報から得た音
韻環境、モーラ数、アクセント句数、品詞などの言語情
報から得た言語環境に関する情報を有する音韻・言語環
境ファイル403と、ステップS401で抽出した大局
的継続時間長の情報とを用いて、所定の言語環境を考慮
した大局的継続時間長モデル301を作成する。
First, in step S401, an audio file 40 having a plurality of learning samples for creating a global duration model for a global segment.
1 and a side information file 4 having information necessary for extracting a duration length such as start and end time information of phonemes and syllables.
02 to extract the global duration. Next, proceeding to step S402, a phoneme / language environment file 403 having information on a language environment obtained from phonetic information such as phonemes and linguistic information obtained from linguistic information such as the number of mora, the number of accent phrases, and part of speech, and a step S401. Using the extracted global duration information, a global duration model 301 that takes into account a predetermined language environment is created.

【0022】具体的な処理手順は以下の通りである。大
局的セグメントの継続時間長モデル301を作成するた
めの音声ファイル401中の学習サンプル数をKとし、
この内のk番目の学習サンプルにおける大局的セグメン
トの継続時間長をdkとする。本実施の形態では、大局
的継続時間長dkを直接予測するモデルを作成するので
はなく、K個の学習サンプルから求めた大局的セグメン
トの平均継続時間長~dを用いて、大局的セグメントの
継続時間長dkを、 sk=dk/~d …式(1) と正規化したskを予測するモデルを作成する。ここ
で、大局的セグメントの平均継続時間長~dは、様々な
方法で求めることができるが、例えば、dkを平均モー
ラ継続時間長(1モーラ当りの平均継続時間長)とした
場合、 ~d=(1/K)Σ(dk/Nk) (Σはk=1〜Kの総和) …式(2) として求めることができる。ここでNkは、k番目の学
習サンプルにおけるモーラ数である。
The specific processing procedure is as follows. Let K be the number of learning samples in the audio file 401 for creating the duration model 301 of the global segment,
Let dk be the duration of the global segment in the k-th learning sample. In the present embodiment, instead of creating a model for directly predicting the global duration d k, the global segment average duration ~ d obtained from K learning samples is used to calculate the global segment. A model for predicting sk, in which the duration dk is normalized by sk = dk / kd (1), is created. Here, the average duration length d of the global segment can be obtained by various methods. For example, when dk is the average mora duration length (average duration length per mora), = (1 / K) Σ (dk / Nk) (Σ is the sum of k = 1 to K) ... It can be obtained as equation (2). Here, Nk is the number of moras in the k-th learning sample.

【0023】このとき、大局的継続時間長dkを正規化
したskの予測値^skは、線形重回帰分析法を用いれ
ば、次式のようにして求めることができる。
At this time, the prediction value sk of sk, which is obtained by normalizing the global duration dk, can be obtained by the following equation using a linear multiple regression analysis method.

【0024】 ^sk=a0+ΣΣai,j×xk,i,j (最初のΣはi=1〜I、次のΣはj=1〜Jiの 総和をそれぞれ示す) …式(3) ここで、Iは音韻・言語環境要因(アイテム)数、Ji
は要因i(例えば、音素種類やアクセント句数)に対す
るカテゴリ数を表す。また、xk,i,jは、サンプルkの
要因iのカテゴリj(例えば音素セットやアクセントタ
イプ等)における説明変数、ai,jは、要因iのカテゴ
リjに対する回帰係数、a0は定数項である。この予測
値^skを用いて、k番目のサンプルに対する大局的なセ
グメントの大局的継続時間長^dkは、式(1)より、 ^dk=^sk×~d …式(4) として求めることができる。この式(4)が大局的時間
長モデル301となる
^ Sk = a0 + ΣΣai, j × xk, i, j (the first Σ indicates the sum of i = 1 to I, and the next Σ indicates the sum of j = 1 to Ji) Expression (3) where I Is the number of phonemes / language environment factors (items), Ji
Represents the number of categories for the factor i (for example, phoneme type or number of accent phrases). Xk, i, j is an explanatory variable in category j (for example, phoneme set or accent type) of factor i of sample k, ai, j is a regression coefficient for category j of factor i, and a0 is a constant term. . Using the predicted value ^ sk, the global duration length dk of the global segment for the k-th sample is calculated from Expression (1) as follows: ^ dk = ^ sk x ~ d ... Expression (4) Can be. This equation (4) becomes the global time length model 301.

【0025】上記I及びJiの値は実に様々な選び方が
考えられるが、例えば、要因iとして大局的セグメント
内の音素種類とアクセント句数を選び、それぞれのカテ
ゴリjとして26種類の音素セットと大局的セグメント
内のアクセント句数(1,2,3,4以上)を選んだ場
合、I=2,J1=26,J2=4となる。
The values of I and Ji can be selected in various ways. For example, the phoneme type and the number of accent phrases in the global segment are selected as the factor i, and 26 types of phoneme sets and global When the number of accent phrases (1, 2, 3, 4 or more) in the target segment is selected, I = 2, J1 = 26, and J2 = 4.

【0026】次に、局所的なセグメントに対する局所的
継続時間長モデル302の作成方法と、ステップS30
3の局所的なセグメントに対する局所的継続時間長の設
定処理を図5のフローチャートを参照して説明する。こ
れらの処理は、大局的なセグメントと同様に以下のよう
に行う。
Next, a method of creating a local duration model 302 for a local segment, and step S30
The process of setting the local duration for the three local segments will be described with reference to the flowchart in FIG. These processes are performed as follows in the same manner as in the global segment.

【0027】図5は、局所的なセグメントに対する局所
的継続時間長モデル302の作成方法を示すフローチャ
ートである。
FIG. 5 is a flowchart showing a method for creating a local duration model 302 for a local segment.

【0028】まずステップS501において、局所的な
セグメントに対する継続時間長モデルを作成するための
複数個の学習サンプルを有する音声ファイル501と、
音素や音節などの開始、終了時間情報等のような継続時
間長の抽出に必要な情報を有するサイド情報ファイル5
02とを用いて、局所的継続時間長を抽出する。次にス
テップS502に進み、音素などの音韻情報から得た音
韻環境、モーラ数、アクセント句数、品詞などの言語情
報から得た言語環境に関する情報を有する音韻・言語環
境ファイル503と、ステップS501で抽出した局所
的継続時間長の情報とを用いて、所定の音韻環境を考慮
した局所的セグメント継続時間長モデル302を作成す
る。
First, in step S501, an audio file 501 having a plurality of learning samples for creating a duration model for a local segment;
A side information file 5 having information necessary for extracting a duration such as start and end time information of phonemes and syllables.
02 to extract the local duration. Next, the process proceeds to step S502, where a phoneme / language environment file 503 having information about the phoneme environment obtained from phoneme information such as phonemes, the number of mora, the number of accent phrases, and the language environment obtained from language information such as part of speech, and step S501. Using the extracted information on the local duration, a local segment duration model 302 is created in consideration of a predetermined phonemic environment.

【0029】具体的な処理手順は、前述の大局的なセグ
メントの大局的継続時間長モデル301と同様の方法を
用いてもよい。つまり、K個の学習サンプルから求めた
局所的セグメントの平均継続時間長を用いて局所的継続
時間長を正規化したモデルを作成し、このモデルに基づ
いて局所的継続時間長モデル302を作成しても良い。
As a specific processing procedure, a method similar to that of the global duration model 301 of the global segment described above may be used. That is, a model in which the local duration is normalized using the average duration of the local segment obtained from the K learning samples is created, and the local duration model 302 is created based on this model. May be.

【0030】最後に、ステップS302で得られる大局
的なセグメントに対する大局的継続時間長と、ステップ
S303で得られる複数の局所的なセグメントに対する
局所的継続時間長との和から求まる大局的なセグメント
に対する大局的継続時間長との差(例えば前述の具体例
では(600-300=)300ミリ秒)を、音韻の継続時間長に
関する統計量(平均値、分散)を用いて、大局的なセグ
メントに対する大局的継続時間長に等しくするように、
ステップS304において伸縮処理を行う。この具体的
な方法としては、例えば、特開平11−259095号
公報で示されるような、音韻の継続時間長に関する統計
量を用いた伸縮方法などの手段を用いることによって実
現できる。
Finally, for the global segment obtained from the sum of the global duration for the global segment obtained in step S302 and the local duration for a plurality of local segments obtained in step S303. The difference from the global duration (for example, (600-300 =) 300 milliseconds in the above example) is used to calculate the global segment using statistics (mean, variance) relating to the duration of the phoneme. To be equal to the global duration,
In step S304, expansion / contraction processing is performed. This specific method can be realized by using a means such as an expansion / contraction method using a statistic related to the duration of a phoneme as disclosed in Japanese Patent Application Laid-Open No. H11-259095.

【0031】例えば、ある音韻に対する音韻時間長の決
定の一例として、音韻時間長の平均値、標準偏差、最小
値を、音韻の種類(αi)毎に求め、これらをメモリに
格納しておき、これらの値を用いて音韻αiに関する音
韻時間長diの初期値dαiを決定する。そして、これに
基づいて、音韻時間長diが決定される。
For example, as an example of determining a phoneme time length for a certain phoneme, an average value, a standard deviation, and a minimum value of the phoneme time length are obtained for each phoneme type (αi), and these are stored in a memory. Using these values, the initial value dαi of the phoneme duration di for the phoneme αi is determined. Then, the phoneme duration di is determined based on this.

【0032】di=dαi+ρ(σαi)2 ρ=(T−Σdαi)/Σ(σαi)2 ここで、Tは発生時間(T=Σdi)を示し、σαiは音
韻時間長の標準偏差を示す。またΣはi=1〜N(サン
プル数)の総和を示す。
Di = dαi + ρ (σαi) 2 ρ = (T−Σdαi) / Σ (σαi) 2 where T indicates the generation time (T = Σdi), and σαi indicates the standard deviation of the phoneme time length. Σ indicates the sum of i = 1 to N (the number of samples).

【0033】[実施の形態2]上記実施の形態1では、
大局的セグメントの継続時間長dkを大局的セグメント
の平均継続時間長~dで除した式(1)を推定するモデルを
学習し、このモデルから得られる大局的継続時間長を用
いて局所的な継続時間長を再設定したが、実施の形態2
では、大局的セグメントの継続時間長と平均継続時間長
の差分値に基づいて大局的時間長モデルを構成する。な
お、実施の形態2によるハードウェア構成、手順は第1
の実施の形態(図1〜図5)と同様であるので、それら
の説明を省略する。
[Second Embodiment] In the first embodiment,
A model for estimating equation (1) obtained by dividing the duration dk of the global segment by the average duration d of the global segment to d is learned, and the local duration is obtained using the global duration obtained from this model. Although the duration time is reset, Embodiment 2
Then, a global time length model is constructed based on the difference between the duration of the global segment and the average duration. The hardware configuration and procedure according to the second embodiment are the same as those in the first embodiment.
Since these embodiments are the same as the first embodiment (FIGS. 1 to 5), the description thereof is omitted.

【0034】本実施の形態2では、実施の形態1におけ
る式(1)を sk=dk−~d …式(5) と変更し、学習サンプルごとの大局的なセグメントの継
続時間長から平均継続時間長~dを差し引くことによっ
て、継続時間長dkを正規化したskを求める。このよう
にして得られたskを用いて、前述の実施の形態1と同
様に、線形重回帰分析法を用いて、式(3)と同様にskの
予測モデルを作成することができる。このモデルから得
られる大局的なセグメントの継続時間長の予測値^skを
用いれば、k番目のサンプルに対する大局的なセグメン
トの継続時間長^dkは、式(5)より、 d^k=^sk+~d …式(6) として求めることができる。この式(6)が実施の形態
2における大局的継続時間長モデルとなる。局所的継続
時間長モデルも同様の方法を用いてモデリングすること
ができる。
In the second embodiment, the equation (1) in the first embodiment is changed to sk = dk− ~ d... (5), and the average duration is calculated from the duration of the global segment for each learning sample. By subtracting the time length dd, the sk obtained by normalizing the duration time dk is obtained. Using the sk obtained in this manner, a prediction model of sk can be created in the same manner as in the first embodiment, using a linear multiple regression analysis method in the same manner as in equation (3). Using the predicted value of the duration of the global segment ^ sk obtained from this model, the duration of the global segment ^ dk for the k-th sample is given by d ^ k = ^ from equation (5). sk + ~ d can be obtained as equation (6). Equation (6) is a global duration model in the second embodiment. The local duration model can be modeled using a similar method.

【0035】なお、上記各実施の形態における構成は本
発明の一実施の形態を示したものであり、各種変形が可
能である。変形例を示せば以下の通りである。
The configuration in each of the above embodiments shows an embodiment of the present invention, and various modifications are possible. A modified example is as follows.

【0036】上述した各実施の形態において、大局的セ
グメントの平均継続時間長~dとして平均モーラ継続時
間長を用いたが、平均を求める際にモーラを単位として
いるのは一例であり、音節や音素といったこれ以外の音
韻単位を用いることができる。また、本発明は日本語以
外の言語にも適用可能である。
In each of the above embodiments, the average duration of the mora is used as the average duration of the global segment to d. However, when the average is obtained, the mora is used as a unit. Other phoneme units, such as phonemes, can be used. The present invention is also applicable to languages other than Japanese.

【0037】上述した各実施の形態において、大局的セ
グメントの線形重回帰モデルの要因とカテゴリは一例を
示すものであり、他の要因やカテゴリを用いてもよい。
In the above-described embodiments, the factors and categories of the linear multiple regression model of the global segment are merely examples, and other factors and categories may be used.

【0038】また本発明の目的は、前述した実施の形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ(又はCPUや
MPU)が記憶媒体に格納されたプログラムコードを読
出し実行することによっても達成される。この場合、記
憶媒体から読出されたプログラムコード自体が前述した
実施の形態の機能を実現することになり、そのプログラ
ムコードを記憶した記憶媒体は本発明を構成することに
なる。このようなプログラムコードを供給するための記
憶媒体としては、例えば、フロッピィディスク、ハード
ディスク、光ディスク、光磁気ディスク、CD−RO
M、CD−R、DVD、磁気テープ、不揮発性のメモリ
カード、ROMなどを用いることができる。
Another object of the present invention is to provide a storage medium storing a program code of software for realizing the functions of the above-described embodiments to a system or apparatus, and to provide a computer (or CPU or MPU) of the system or apparatus. Is also achieved by reading and executing the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the function of the above-described embodiment, and the storage medium storing the program code constitutes the present invention. As a storage medium for supplying such a program code, for example, a floppy disk, hard disk, optical disk, magneto-optical disk, CD-RO
M, CD-R, DVD, magnetic tape, nonvolatile memory card, ROM and the like can be used.

【0039】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施の形態の機
能が実現されるだけでなく、そのプログラムコードの指
示に基づき、コンピュータ上で稼働しているOS(オペ
レーティングシステム)などが実際の処理の一部又は全
部を行い、その処理によって前述した実施の形態の機能
が実現される場合も含まれる。
When the computer executes the readout program code, not only the functions of the above-described embodiment are realized, but also the OS (Operating System) running on the computer based on the instruction of the program code. System) performs part or all of actual processing, and the processing realizes the functions of the above-described embodiments.

【0040】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るCPUなどが実際の処理の一部又は全部を行い、その
処理によって前述した実施の形態の機能が実現される場
合も含まれる。
Further, after the program code read from the storage medium is written into a memory provided in a function expansion board inserted into the computer or a function expansion unit connected to the computer, based on the instructions of the program code, The case where the CPU of the function expansion board or the function expansion unit performs part or all of the actual processing, and the processing realizes the functions of the above-described embodiments is also included.

【0041】以上説明したように本実施の形態によれ
ば、高精度に大局的及び局所的なセグメントの継続時間
長を設定する手段を用いることにより、より高精度に継
続時間長をモデル化できるようになり、音声合成装置に
おける合成音声の自然性の向上が可能になるという効果
がある。
As described above, according to the present embodiment, the duration can be modeled with higher accuracy by using the means for setting the duration of the global and local segments with high accuracy. As a result, it is possible to improve the naturalness of synthesized speech in the speech synthesis device.

【0042】[0042]

【発明の効果】以上説明したように本発明によれば、音
韻系列の継続時間長を精度良く設定することを可能と
し、音韻・言語環境に応じた自然な音韻時間長を与える
ことができる。
As described above, according to the present invention, it is possible to accurately set the duration of a phoneme sequence, and to provide a natural phoneme time according to the phoneme / language environment.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態に係る音声合成装置のハー
ドウェア構成を示すブロック図である。
FIG. 1 is a block diagram showing a hardware configuration of a speech synthesizer according to an embodiment of the present invention.

【図2】本発明の実施の形態に係る音声合成装置におけ
る音声合成の処理手順を示したフローチャートである。
FIG. 2 is a flowchart showing a speech synthesis processing procedure in the speech synthesis device according to the embodiment of the present invention.

【図3】図2のステップS203のプロソディ生成処理
における、継続時間長モデルを用いた音韻系列の継続時
間長の設定手順を示すフローチャートである。
FIG. 3 is a flowchart showing a procedure for setting a duration of a phoneme sequence using a duration model in a prosody generation process in step S203 of FIG. 2;

【図4】本実施の形態に係る大局的セグメントに対する
大局的継続時間長モデルの作成方法を示すフローチャー
トである。
FIG. 4 is a flowchart illustrating a method for creating a global duration model for a global segment according to the present embodiment.

【図5】本実施の形態に係る局所的なセグメントに対す
る局所的継続時間長モデルの作成方法を示すフローチャ
ートである。
FIG. 5 is a flowchart showing a method for creating a local duration model for a local segment according to the present embodiment.

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める工
程と、 局所的セグメントの継続時間長モデルに基づいて、前記
音韻系列を構成する各音韻の継続時間長を求める工程
と、 前記音韻系列の継続時間長と前記各音韻の継続時間長と
に基づいて、前記各音韻の継続時間長を設定する設定工
程と、 前記設定工程により設定された前記各音韻の継続時間長
に基づいて音声を合成する音声合成工程と、を有するこ
とを特徴とする音声情報処理方法。
A step of obtaining a duration of a phoneme sequence in a predetermined unit based on a duration model of a global segment; and a step of obtaining each of the phoneme sequences based on a duration model of a local segment. Setting the duration of each phoneme based on the duration of the phoneme sequence and the duration of each phoneme, and setting the duration of each phoneme. A voice synthesizing step of synthesizing voice based on the duration of each phoneme.
【請求項2】 前記局所的セグメントは音素或いは音節
やモーラの少なくともいずれかからなり、前記大局的セ
グメントはアクセント句、単語、フレーズ、文の少なく
ともいずれかからなることを特徴とする請求項1に記載
の音声情報処理方法。
2. The method according to claim 1, wherein the local segment comprises at least one of a phoneme, a syllable, and a mora, and the global segment comprises at least one of an accent phrase, a word, a phrase, and a sentence. The voice information processing method described in the above.
【請求項3】 前記大局的セグメントの継続時間長モデ
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との比に基づいてモデリン
グされたモデルであることを特徴とする請求項1に記載
の音声情報処理方法。
3. The global segment duration model is a model modeled on the basis of a ratio of the duration of the global segment to the average duration of the global segment. The voice information processing method according to claim 1.
【請求項4】 前記大局的セグメントの継続時間長モデ
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との差に基づいてモデリン
グされたモデルであることを特徴とする請求項1に記載
の音声情報処理方法。
4. The duration model of the global segment is a model modeled based on a difference between the duration of the global segment and the average duration of the global segment. The voice information processing method according to claim 1.
【請求項5】 前記大局的セグメントの継続時間長モデ
ルは、線形重回帰モデルによってモデリングされたモデ
ルであることを特徴とする請求項1乃至4のいずれか1
項に記載の音声情報処理方法。
5. The method according to claim 1, wherein the duration model of the global segment is a model modeled by a linear multiple regression model.
The voice information processing method according to the paragraph.
【請求項6】 請求項1乃至5のいずれか1項に記載の
音声情報処理方法を実行するプログラムを記憶したこと
を特徴とする、コンピュータにより読取り可能な記憶媒
体。
6. A computer-readable storage medium storing a program for executing the voice information processing method according to claim 1. Description:
【請求項7】 大局的セグメントの継続時間長モデルに
基づいて、所定単位の音韻系列の継続時間長を求める手
段と、 局所的セグメントの継続時間長モデルに基づいて、前記
音韻系列を構成する各音韻の継続時間長を求める手段
と、 前記音韻系列の継続時間長と前記各音韻の継続時間長と
に基づいて、前記各音韻の継続時間長を設定する設定手
段と、 前記設定手段により設定された前記各音韻の継続時間長
に基づいて音声を合成する音声合成手段と、を有するこ
とを特徴とする音声情報処理装置。
7. A means for determining the duration of a phoneme sequence of a predetermined unit based on a duration model of a global segment; and each of the units forming the phoneme sequence based on a duration model of a local segment. Means for determining the duration of a phoneme; setting means for setting the duration of each phoneme based on the duration of the phoneme sequence and the duration of each phoneme; and setting by the setting means. Speech synthesis means for synthesizing speech based on the duration of each phoneme.
【請求項8】 前記局所的セグメントは音素或いは音節
やモーラの少なくともいずれかからなり、前記大局的セ
グメントはアクセント句、単語、フレーズ、文の少なく
ともいずれかからなることを特徴とする請求項7に記載
の音声情報処理装置。
8. The method of claim 7, wherein the local segment comprises a phoneme or at least one of a syllable and a mora, and the global segment comprises at least one of an accent phrase, a word, a phrase, and a sentence. An audio information processing apparatus according to claim 1.
【請求項9】 前記大局的セグメントの継続時間長モデ
ルは、前記大局的セグメントの継続時間長と前記大局的
セグメントの平均継続時間長との比に基づいてモデリン
グされたモデルであることを特徴とする請求項7に記載
の音声情報処理装置。
9. The global segment duration model is a model modeled based on a ratio of a duration of the global segment to an average duration of the global segment. The voice information processing apparatus according to claim 7, wherein
【請求項10】 前記大局的セグメントの継続時間長モ
デルは、前記大局的セグメントの継続時間長と前記大局
的セグメントの平均継続時間長との差に基づいてモデリ
ングされたモデルであることを特徴とする請求項7に記
載の音声情報処理装置。
10. The duration model of the global segment is a model modeled based on a difference between the duration of the global segment and the average duration of the global segment. The voice information processing apparatus according to claim 7, wherein
【請求項11】 前記大局的セグメントの継続時間長モ
デルは、線形重回帰モデルによってモデリングされたモ
デルであることを特徴とする請求項7乃至10のいずれ
か1項に記載の音声情報処理装置。
11. The speech information processing apparatus according to claim 7, wherein the duration model of the global segment is a model modeled by a linear multiple regression model.
JP2000099535A 2000-03-31 2000-03-31 Voice information processing method and apparatus, and storage medium Pending JP2001282279A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2000099535A JP2001282279A (en) 2000-03-31 2000-03-31 Voice information processing method and apparatus, and storage medium
US09/818,626 US6778960B2 (en) 2000-03-31 2001-03-28 Speech information processing method and apparatus and storage medium
US10/852,139 US7089186B2 (en) 2000-03-31 2004-05-25 Speech information processing method, apparatus and storage medium performing speech synthesis based on durations of phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099535A JP2001282279A (en) 2000-03-31 2000-03-31 Voice information processing method and apparatus, and storage medium

Publications (2)

Publication Number Publication Date
JP2001282279A true JP2001282279A (en) 2001-10-12
JP2001282279A5 JP2001282279A5 (en) 2007-05-10

Family

ID=18613875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099535A Pending JP2001282279A (en) 2000-03-31 2000-03-31 Voice information processing method and apparatus, and storage medium

Country Status (2)

Country Link
US (2) US6778960B2 (en)
JP (1) JP2001282279A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015108667A (en) * 2013-12-03 2015-06-11 日本電信電話株式会社 Fundamental frequency prediction device, fundamental frequency prediction method, and program
WO2020166359A1 (en) * 2019-02-12 2020-08-20 日本電信電話株式会社 Estimation device, estimation method, and program

Families Citing this family (128)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP4054507B2 (en) * 2000-03-31 2008-02-27 キヤノン株式会社 Voice information processing method and apparatus, and storage medium
JP2001282279A (en) * 2000-03-31 2001-10-12 Canon Inc Voice information processing method and apparatus, and storage medium
ITTO20010179A1 (en) * 2001-02-28 2002-08-28 Cselt Centro Studi Lab Telecom SYSTEM AND METHOD FOR ACCESS TO MULTIMEDIA STRUCTURES.
JP2003295882A (en) * 2002-04-02 2003-10-15 Canon Inc Text structure for speech synthesis, speech synthesis method, speech synthesis apparatus, and computer program therefor
US8103505B1 (en) * 2003-11-19 2012-01-24 Apple Inc. Method and apparatus for speech synthesis using paralinguistic variation
JP4587160B2 (en) * 2004-03-26 2010-11-24 キヤノン株式会社 Signal processing apparatus and method
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN1953052B (en) * 2005-10-20 2010-09-08 株式会社东芝 Training duration prediction model, method and device for duration prediction and speech synthesis
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP5071475B2 (en) * 2007-03-27 2012-11-14 富士通株式会社 Prediction model creation method, creation device, creation program by multiple regression analysis
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110006004A (en) * 2009-07-13 2011-01-20 삼성전자주식회사 Combined recognition unit optimization device and method
RU2421827C2 (en) * 2009-08-07 2011-06-20 Общество с ограниченной ответственностью "Центр речевых технологий" Speech synthesis method
JP5482042B2 (en) * 2009-09-10 2014-04-23 富士通株式会社 Synthetic speech text input device and program
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (en) 2013-02-07 2021-12-30 Apple Inc. METHOD AND DEVICE FOR OPERATING A VOICE TRIGGER FOR A DIGITAL ASSISTANT
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (en) 2013-06-09 2019-07-02 애플 인크. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
KR101809808B1 (en) 2013-06-13 2017-12-15 애플 인크. System and method for emergency calls initiated by voice command
KR101749009B1 (en) 2013-08-06 2017-06-19 애플 인크. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. Far-field extension for digital assistant services
CN113421548B (en) * 2021-06-30 2024-02-06 平安科技(深圳)有限公司 Speech synthesis method, device, computer equipment and storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346498A (en) * 1986-04-18 1988-02-27 株式会社リコー Prosody generation method and timing point pattern generation method
JPH0318899A (en) * 1989-06-15 1991-01-28 Ricoh Co Ltd Phoneme duration length control system
JPH05108084A (en) * 1991-10-17 1993-04-30 Ricoh Co Ltd Speech synthesizing device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573100A (en) 1991-09-11 1993-03-26 Canon Inc Speech synthesis method and apparatus thereof
JP3450411B2 (en) 1994-03-22 2003-09-22 キヤノン株式会社 Voice information processing method and apparatus
JP3548230B2 (en) 1994-05-30 2004-07-28 キヤノン株式会社 Speech synthesis method and apparatus
JP3559588B2 (en) 1994-05-30 2004-09-02 キヤノン株式会社 Speech synthesis method and apparatus
JP3854713B2 (en) 1998-03-10 2006-12-06 キヤノン株式会社 Speech synthesis method and apparatus and storage medium
JP4054507B2 (en) * 2000-03-31 2008-02-27 キヤノン株式会社 Voice information processing method and apparatus, and storage medium
JP2001282279A (en) * 2000-03-31 2001-10-12 Canon Inc Voice information processing method and apparatus, and storage medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346498A (en) * 1986-04-18 1988-02-27 株式会社リコー Prosody generation method and timing point pattern generation method
JPH0318899A (en) * 1989-06-15 1991-01-28 Ricoh Co Ltd Phoneme duration length control system
JPH05108084A (en) * 1991-10-17 1993-04-30 Ricoh Co Ltd Speech synthesizing device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015108667A (en) * 2013-12-03 2015-06-11 日本電信電話株式会社 Fundamental frequency prediction device, fundamental frequency prediction method, and program
WO2020166359A1 (en) * 2019-02-12 2020-08-20 日本電信電話株式会社 Estimation device, estimation method, and program
JP2020129099A (en) * 2019-02-12 2020-08-27 日本電信電話株式会社 Estimating device, estimating method, and program
JP7197786B2 (en) 2019-02-12 2022-12-28 日本電信電話株式会社 Estimation device, estimation method, and program

Also Published As

Publication number Publication date
US6778960B2 (en) 2004-08-17
US7089186B2 (en) 2006-08-08
US20040215459A1 (en) 2004-10-28
US20010032080A1 (en) 2001-10-18

Similar Documents

Publication Publication Date Title
JP2001282279A (en) Voice information processing method and apparatus, and storage medium
JP4054507B2 (en) Voice information processing method and apparatus, and storage medium
US8015011B2 (en) Generating objectively evaluated sufficiently natural synthetic speech from text by using selective paraphrases
EP0688011B1 (en) Audio output unit and method thereof
US9275631B2 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
JP4455610B2 (en) Prosody pattern generation device, speech synthesizer, program, and prosody pattern generation method
US20200365137A1 (en) Text-to-speech (tts) processing
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
JPH10116089A (en) Rhythm database which store fundamental frequency templates for voice synthesizing
US20090157408A1 (en) Speech synthesizing method and apparatus
US20060229877A1 (en) Memory usage in a text-to-speech system
JP6436806B2 (en) Speech synthesis data creation method and speech synthesis data creation device
JP5874639B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis program
Houidhek et al. Statistical modelling of speech units in HMM-based speech synthesis for Arabic
Begum et al. Text-to-speech synthesis system for Mymensinghiya dialect of Bangla language
Iyanda et al. Development of a yorúbà texttospeech system using festival
JP3234371B2 (en) Method and apparatus for processing speech duration for speech synthesis
EP1589524B1 (en) Method and device for speech synthesis
EP1640968A1 (en) Method and device for speech synthesis
KR100608643B1 (en) Accent Modeling Apparatus and Method for Speech Synthesis System
Cahyaningtyas et al. Under-Resourced Natural Bahasa Indonesia HMM-based Text-To-Speech System
JP2002297175A (en) Device and method for text voice synthesis, program, and computer-readable recording medium with program recorded thereon
Klabbers Text-to-Speech Synthesis
Burileanu et al. Prosody modeling for an embedded TTS system implementation
Aliero et al. Taxonomy, Review and Research Challenges Of DNN-Based Text-To-Speech System for Hausa as Under-Resourced Language

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070319

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070319

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100205

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100604