资讯

提出并行的端到端 TTS,使用 normalizing flows 和对抗训练增强的 变分推理技术来提高生成模型的表达性 提出了一个 stochastic duration predictor,从文本中合成韵律多样的语音 概括就是,本质是 CVAE,但是 CVAE 中的条件先验用了 normalizing flows 来建模,而且由于 条件是 ...