|
Proses
Pembuatan Diphone Database (MBROLA based)
oleh
: Arry Akhmad Arman
Ditulis berdasarkan pengalaman praktis
dalam mengembangkan Diphone Database Bahasa Indonesia
Persiapan
-
Identifikasikan jumlah fonem (dan alofonnya)
dari Bahasa yang akan digunakan (n)
-
Tambahkan satu fonem
”silence” untuk awal dan akhir kata.
-
Buatlah daftar kombinasi lengkap diphone, yaitu (n+1)2.
Jika anda cukup yakin, anda boleh mereduksi jumlah diphone dengan
menghilangkan kombinasi diphone tertentu yang anda anggap tidak pernah
terjadi, misalnya urutan dua fonem konsonan yang sama, seperti m-m, s-s,
dan sebagainya.
- Buatlah daftar kata
yang mengandung setiap diphone
Perekaman Diphone
-
Siapkan ruangan, yang mempunyai karakteristik : bebas noise(noise rendah),
tidak ada pantulan suara.
- Siapkan
perangkat perekaman yang berkualitas tinggi.
- Siapkan air putih
secukupnya, serta tempat duduk yang nyaman.
-
Lakukan perekaman setiap kata yang mengandung diphone, simpanlah pada
file yang berbeda. Untuk menjaga kemungkinan buruknya hasil
rekaman, disarankan untuk merekam setiap kata sebanyak dua kali. Ucapkan
setiap kata yang direkam sedatar mungkin (tanpa intonasi).
- Periksalah seluruh
kualitas suara hasil rekaman. Jika ada suara yang kurang memuaskan,
lakukan perekaman ulang. Jika pemeriksaan dilakukan segera ditempat
perekaman, perekaman ulang dapat dilakukan hanya untuk kata-kata yang
kualitasnya kurang baik. Jika pemeriksaan dilakukan pada saat yang
berbeda, sebaiknya dilakukan perekaman ulang seluruhnya,
Proses Penandaan Batas-Batas
Diphone
-
Lakukan segmentasi (penentuan batas-batas diphone) pada setiap rekaman
yang telah dilakukan sebelumnya. Untuk setiap rekaman kata, kita
harus menandai 3 titik yang menandakan awal fonem pertama, batas antar
fonem, serta akhir fonem kedua. Sebagai contoh, diphone yang akan
ditandai adalah "a-ng", sample katanya adalah "langka", maka titik pertama
adalah awal fonem "a", titik kedua adalah batas antara "a" dengan "ng", titik ketiga adalah akhir fonem "ng". Gunakan program Diphone Studio
untuk melakukan penandaan.
- Lakukan export dari
program Diphone Studio (Menu File-Export). Hasil export berupa kumpulan
file yang disimpan pada direktori tertentu.
- Kirim hasil export ke Diphone Processor
di Belgia. (untuk tujuan komersial, pemrosesan
memerlukan biaya proses 2 Euro/diphone)
- Uji coba hasil
proses dalam TTS Bahasa yang sesuai.
- Jika ada bunyi yang
tidak baik, kembali ke langkah 1.
Bunyi yang kualitasnya buruk
dapat disebabkan oleh kualitas sumber ucapan yang buruk, perangkat
perekaman yang buruk atau salah penandaan batas diphone (segmentasi).
Jika terpaksa harus melakukan perekaman ulang, sangat disarankan untuk
melakukan perekaman ulang seluruh kata, tidak hanya kata tertentu saja.
- Selesai.

Proses paling menyita waktu dalam
pengembangan diphone database adalah segmentasi (penentuan batas-batas diphone).
Berikut ini adalah contoh gambaran waktu yang diperlukan untuk proses
segmentasi (saja) dalam pengembangan sebuah diphone database.
- Misalkan jumlah fonem = 35
- Jumlah diphone = 1296 (36 x 36)
- Misalkan untuk orang yang belum
berpengalaman, menentukan batas sebuah diphone mungkin memerlukan waktu
5 menit
- Jumlah total waktu yang diperlukan
menjadi 6480 menit = 108 jam
- Penentuan batas diphone memerlukan
konsentrasi yang tinggi dan merupakan pekerjaan yang sangat membosankan,
sehinga jika satu hari hanya dapat bekerja secara efektif selama 5 jam,
jumlah hari kerja yang diperlukan untuk segmentasi seluruh diphone
hampir 22 hari.
Pada prakteknya, proses segmentasi
biasanya bersifat iteratif. Sebagian proses di atas mungkin perlu
diulangi sampai penandaan sempurna.
This page has been accessed times |