| Home | News | Download | Knowledge Center | Related Links |

 

 

Proses Pembuatan Diphone Database (MBROLA based)

oleh : Arry Akhmad Arman
Ditulis berdasarkan pengalaman praktis
dalam mengembangkan Diphone Database Bahasa Indonesia

 

Persiapan

  1. Identifikasikan jumlah fonem (dan alofonnya) dari Bahasa yang akan digunakan (n)
  2. Tambahkan satu fonem ”silence” untuk awal dan akhir kata.
  3. Buatlah daftar kombinasi lengkap diphone, yaitu (n+1)2. Jika anda cukup yakin, anda boleh mereduksi jumlah diphone dengan menghilangkan kombinasi diphone tertentu yang anda anggap tidak pernah terjadi, misalnya urutan dua fonem konsonan yang sama, seperti m-m, s-s, dan sebagainya.
  4. Buatlah daftar kata yang mengandung setiap diphone

Perekaman Diphone

  1. Siapkan ruangan, yang mempunyai karakteristik : bebas noise(noise rendah), tidak ada pantulan suara.
  2. Siapkan perangkat perekaman yang berkualitas tinggi.
  3. Siapkan air putih secukupnya, serta tempat duduk yang nyaman.
  4. Lakukan perekaman setiap kata yang mengandung diphone, simpanlah pada file yang berbeda. Untuk menjaga kemungkinan buruknya hasil rekaman, disarankan untuk merekam setiap kata sebanyak dua kali. Ucapkan setiap kata yang direkam sedatar mungkin (tanpa intonasi).
  5. Periksalah seluruh kualitas suara hasil rekaman. Jika ada suara yang kurang memuaskan, lakukan perekaman ulang. Jika pemeriksaan dilakukan segera ditempat perekaman, perekaman ulang dapat dilakukan hanya untuk kata-kata yang kualitasnya kurang baik. Jika pemeriksaan dilakukan pada saat yang berbeda, sebaiknya dilakukan perekaman ulang seluruhnya,

Proses Penandaan Batas-Batas Diphone

  1. Lakukan segmentasi (penentuan batas-batas diphone) pada setiap rekaman yang telah dilakukan sebelumnya. Untuk setiap rekaman kata, kita harus menandai 3 titik yang menandakan awal fonem pertama, batas antar fonem, serta akhir fonem kedua. Sebagai contoh, diphone yang akan ditandai adalah "a-ng", sample katanya adalah "langka", maka titik pertama adalah awal fonem "a", titik kedua adalah batas antara "a" dengan "ng", titik ketiga adalah akhir fonem "ng". Gunakan program Diphone Studio untuk melakukan penandaan.
  2. Lakukan export dari program Diphone Studio (Menu File-Export). Hasil export berupa kumpulan file yang disimpan pada direktori tertentu.
  3. Kirim hasil export ke Diphone Processor di Belgia. (untuk tujuan komersial, pemrosesan memerlukan biaya proses 2 Euro/diphone)
  4. Uji coba hasil proses dalam TTS Bahasa yang sesuai.
  5. Jika ada bunyi yang tidak baik, kembali ke langkah 1.
    Bunyi yang kualitasnya buruk dapat disebabkan oleh kualitas sumber ucapan yang buruk, perangkat perekaman yang buruk atau salah penandaan batas diphone (segmentasi). Jika terpaksa harus melakukan perekaman ulang, sangat disarankan untuk melakukan perekaman ulang seluruh kata, tidak hanya kata tertentu saja.
  6. Selesai.

 

Proses paling menyita waktu dalam pengembangan diphone database adalah segmentasi (penentuan batas-batas diphone). Berikut ini adalah contoh gambaran waktu yang diperlukan untuk proses segmentasi (saja) dalam pengembangan sebuah diphone database.

  1. Misalkan jumlah fonem = 35
  2. Jumlah diphone = 1296 (36 x 36)
  3. Misalkan untuk orang yang belum berpengalaman, menentukan batas sebuah diphone mungkin memerlukan waktu 5 menit
  4. Jumlah total waktu yang diperlukan menjadi 6480 menit = 108 jam
  5. Penentuan batas diphone memerlukan konsentrasi yang tinggi dan merupakan pekerjaan yang sangat membosankan, sehinga jika satu hari hanya dapat bekerja secara efektif selama 5 jam, jumlah hari kerja yang diperlukan untuk segmentasi seluruh diphone hampir 22 hari.

Pada prakteknya, proses segmentasi biasanya bersifat iteratif. Sebagian proses di atas mungkin perlu diulangi sampai penandaan sempurna.

 

 

This page has been accessed times