speech, tts, paper, 

Sooftware Speech - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech Paper Review

Sooftware Speech - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech Paper Review

One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech

Tomáš Nekvinda, Ondřej Dušek
Charles University
INTERSPEECH, 2020

Reference

Summary

  • Multilingual Speech Synthesis
  • Meta-learning
  • Voice Cloning : Speech in multiple languages with the same voice
  • Code switching : Speak two (or more) languages with a single utterance.
  • Tacotron2 base architecture

Tacotron

  • 딥러닝 기반 음성합성의 대표적인 모델
  • Attention + Sequence-to-Sequence의 TTS 버전
  • Griffin-Lim Vocoder 사용 (빠르지만 성능은 좋지 못함)

Tacotron2

  • Mel-Prediction Network : Attention based Sequence-to-Sequence Network
    • 인코더에서 Bi-directional LSTM 적용
    • Location Sensitive Attention 적용 (음성 Alignment에 강한 어텐션)
    • 인코더, 디코더에 Convolution Layer 적용
  • Stop Token 사용
  • Vocoder : WaveNet
    • 장점 : 상당히 고품질의 음성으로 변환
    • 단점 : 엄청나게 느림

Model Architecture

  • Tacotron2 기반의 모델들로 실험 진행
  • WaveRNN Vocoder 사용

This Paper`s Model: Generated (GEN)

  • Parameter Generation Convolutional Encoder

    • 이 논문에서는 Fully convolutional encoder를 사용 (from DC-TTS)
    • Cross-lingual knowledge-sharing을 가능하게 하기 위해 인코더 컨볼루션 레이어의 파라미터를 생성하여 사용
    • 입력되는 Language ID에 따라 Fully Connected 레이어를 통해 다른 다른 파라미터를 생성
  • Speaker Embedding

    • Multi-speaker, Cross-lingual voice cloning을 위해 Speaker Embedding을 사용
    • 인코더 아웃풋에 Concatenate하여 스펙트로그램 생성시에 반영되도록 함
  • Adversarial Speaker Classifier

    • 이상적으로 Voice cloning을 위해서는 텍스트(언어)로부터 화자의 정보가 반영되면 안됨
    • Speaker Classifier와 나머지 모델(인코더, 디코더)은 forward에서는 독립적이지만, backpropagation을 진행할 때, 두 loss (L2 of predict spectrogram, cross entropy of predicted speaker ID)가 인코더 파라미터 업데이트에 영향을 미침
    • Gradient reversal layer를 통해 인코더가 speaker에 대한 정보를 반영 못하도록 학습

Baselines: Shared, Separate & Single

※ GEN과 다른점만 비교

  • Single (SGL)
    • Monolingual Vanilla Tacotron 2 (Code-switching에 사용 X)
  • Shared (SHA)
    • GEN과 다르게 Tacotron 2의 인코더 사용 (Multilingual)
  • Separate (SEP)
    • GEN과 같이 Multiple convolution layer를 사용
    • Parameter generation 사용 X
    • Adversarial speaker classifier 사용 X

Dataset

10개의 언어로 구성된 CSS10과 Common Voice 데이터셋의 일부를 사용 Code-switching을 학습하기 위해 multi-speaker 데이터가 필요 (언어와 화자 일치를 없애기 위해)

Experiment

SGL, SHA, SEP, GEN을 비교했을 때 GEN이 거의 모든 결과에서 우수한 성능을 보임

image

Conclusion

  • 본 논문에서 제안하는 모델은 Multilingual Voice cloning, Code-switching에 우수한 성능을 보임
  • 추후 연구로 어텐션 모듈을 수정하는 것을 생각중이라고 함

Subscribe to SOOFTWARE

Get the latest posts delivered right to your inbox