IBM berjuang untuk teknologi pidato ‘superhuman’
5 min read
New York – IBM pada hari Selasa mengungkapkan teknologi pengenalan suara baru bahwa nuansa bahasa Inggris lisan dapat memahami, menerjemahkannya dengan cepat dan bahkan membuat subtitle untuk program bahasa asing.
Secara historis, teknologi ucapan mengharuskan pengguna untuk membatasi pidatonya pada serangkaian frasa tetap untuk berkomunikasi dengan perangkat. Dengan IBM Paket Perangkat Lunak Viavoice 4.4 TertanamApa yang diluncurkan pada hari Selasa berharap perusahaan memungkinkan pengguna untuk berbicara perintah dengan ungkapan yang wajar bagi mereka.
Dalam sebuah demonstrasi hari ini di markas IBM di sini, misalnya, pengguna telah mengubah stasiun radio yang disimulasikan dengan berbicara salah satu frasa berikut: “Mainkan 92.3,” “Tune to 92.3,” atau “Tune the Radio ke 92.3.”
Meskipun pengenalan suara sudah dibangun ke dalam produk -produk seperti Microsoft Office XP, banyak pengguna masih lebih suka keyboard mereka.
Pengenalan ucapan dapat dilatih untuk mengenali suara pengguna tertentu. Tetapi interpretasi suara dari berbagai speaker bisa lebih menantang kecuali perpustakaan terbatas dengan suara atau fonem digunakan.
Meskipun pengenalan suara oleh komputer masih jauh dari sempurna, masa depan, menurut David Nahamoo, seorang manajer di Divisi Teknologi Bahasa Manusia di IBM Research.
“Di IBM kami memiliki pengenalan suara super manusia ini (inisiatif di mana) tujuannya adalah untuk mendapatkan kinerja yang sebanding dengan orang -orang dalam lima tahun ke depan,” kata Nahamoo.
Memahami lebih dari sekadar berbicara
Terjemahan perintah seperti “Play 92.3” mengharuskan perangkat untuk memahami konteks dasar dari perintah, fungsi yang dikenal dalam viavoice tertanam 4.4 sebagai perintah bentuk bebas.
Agar penugasan formulir bebas berhasil bekerja, sistem harus mengenali dua hal: pertama, bahwa pengguna mengacu pada radio, bahkan jika ia tidak menggunakan istilah “radio” nyata.
Kedua, perangkat lunak harus diprogram untuk memahami bahwa istilah “Play” juga merupakan perintah untuk mengatur radio di stasiun yang diinginkan.
Tetapi IBM juga dapat membuat proses lebih sederhana dengan membatasi konteks pidato untuk sesuatu yang relatif sederhana, seperti perintah, kata benda dan frasa yang terkait dengan hanya dasbor mobil, menurut Nahamoo. Dengan membatasi domain, sistem dapat membuat asumsi atau gangguan tentang apa yang ingin dicapai pengguna, katanya.
Mitra IBM Teknologi VoiceBox Menerapkan viavoice dalam sistem navigasi VoiceBox -nya, ditemukan di Scion Automobiles.
Dengan sistem ini, pengemudi dapat mengontrol radio satelit XM melalui pidato percakapan. Manajer dapat secara khusus mengubah stasiun, meningkat atau lebih rendah volume, serta kontrol fungsionalitas dasar lainnya.
Pengguna juga dapat mencari konten XM melalui frasa seperti “siapa artis ini?” CEO VoiceBox Mike Kennewick menjelaskan.
Sistem kemudian harus menentukan konteksnya secara dinamis, dan tidak hanya mengakui bahwa lagu tertentu diputar, tetapi bahwa manajer ingin mengenal artis yang merekam lagu tersebut.
“Ada algoritma yang dapat menentukan konteks ini dengan cepat sehingga Anda tidak harus menggunakan struktur kalimat yang telah ditentukan,” Kennewick menjelaskan. “(Ini dicapai dengan mengikat konten bicara pada beberapa petunjuk kontekstual menggunakan informasi lingkungan,” seperti lagu tertentu yang diputar pada penerima XM, katanya.
Fungsionalitas penugasan bentuk bebas juga ditunjukkan pada sistem navigasi GPS yang disimulasikan di mana pengguna dapat berurusan dengan sistem navigasi GPS menggunakan pidato daripada dengan menavigasi dengan menghubungi-berkat untuk pengemudi yang lebih suka mengawasi jalan.
Dari bahasa Inggris ke bahasa Mandarin Cina, saat ini
Teknologi bicara dapat digunakan untuk mengontrol komputer dan perangkat, tetapi juga dapat digunakan untuk berkomunikasi dengan rekan -rekan daging dan darahnya.
Mastor, aplikasi penerjemah ucapan-ke-speech otomatis multibahasa, proyek penelitian IBM lain yang ditunjukkan hari ini menerjemahkan pidato bahasa Inggris secara dinamis ke pidato bahasa Mandarin.
Misalnya, pengguna dapat berbicara bahasa Inggris dalam mikrofon, dan sistem akan menerjemahkan kalimat menjadi bahasa Mandarin dan menjawab dengan keras.
Tujuan sistem, menurut Nahamoo, adalah bahwa seseorang dapat berbicara dengan seseorang yang orang Cina (meskipun) saya tidak mengenal bahasa Mandarin dan dia tidak tahu bahasa Inggris. ‘
Terjemahan Mastor didasarkan pada analisis statistik bahasa, di mana perunggu pertama kali dibubarkan dalam serangkaian ide konseptual. Kemudian kalimat yang diterjemahkan dibangun dalam bahasa target berdasarkan ide -ide konseptual ini.
Prototipe mastor IBM saat ini adalah aplikasi PC yang berjalan pada Windows XP dan Windows CE, yang juga berarti dapat dilakukan pada PDA.
Kit Pengembangan Perangkat Lunak (SDK) sekarang tersedia, tetapi tidak ada produk akhir untuk dibeli oleh konsumen. Suatu produk tidak mungkin tersedia bagi konsumen selama setidaknya 6 bulan, kata seorang perwakilan IBM.
Diterjemahkan televisi
Apakah Anda menginginkan perspektif real-time di Timur Tengah, dari seseorang yang hidup dan memahami budaya asli? Ketika globalisasi berlanjut di seluruh dunia, telah menjadi kebutuhan virtual untuk mendapatkan informasi terbaru tentang berita di negara lain. Tales, proyek lain yang ditunjukkan oleh IBM, berharap untuk mencapai tujuan.
Tales adalah sistem berbasis server yang terus-menerus memantau stasiun televisi Arab, yang menyalin dan menerjemahkan kata-kata apa pun yang diucapkan dalam keterangan bahasa Inggris secara dinamis.
Ini berarti bahwa pengguna dapat menonton Al Jazeera, sebuah stasiun berita Arab, dengan keterangan yang dibuat secara dinamis oleh sistem cerita yang ditampilkan di bawah video, pejabat IBM menjelaskan. Video kemudian dapat dilihat melalui browser web, dengan semua transkrip diindeks dan dapat dicari.
Menurut Salim Roukos, proyek ini mengarah pada cerita, terjemahan pidato membutuhkan sedikit waktu pemrosesan, yang berarti bahwa terjemahan waktu nyata tidak mungkin. Untuk saat ini, semua video yang diproses berdasarkan cerita ditunda sekitar empat menit, dengan tingkat akurasi antara 60 dan 70 persen.
Tingkat akurasi dapat ditingkatkan menjadi 80 persen, Roukos menambahkan jika penundaan juga meningkat. Namun, sebagian besar pengguna sistem merasa bahwa ketepatan waktu lebih penting daripada akurasi, terutama mengingat topik bahwa berita topik pecah. Sebagai perbandingan, seorang penerjemah manusia dapat mencapai tingkat terjemahan 95 persen, ia memperkirakan.
Tales sedang berlangsung, dan pengguna dapat berlangganan paket “Irak”, yang meliputi Al Jazeera dan stasiun berita lainnya dalam bahasa Arab, dengan harga yang tidak diketahui.
Namun, jangan berharap untuk mengaturnya saat makan siang; Roukos telah mengisyaratkan bahwa harganya akan ratusan ribu dolar.
Komputer untuk bersaing seseorang
Selain peningkatan akurasi, Nahamoo menjelaskan bahwa IBM akan bekerja dengan rajin untuk mengindeks dan mencari bentuk konten lain selain teks. Proyek Tales adalah langkah nyata ke arah ini. “Kami mencari teks hari ini, tetapi bagaimana Anda melakukan konten ucapan dan visual?” Kata Nahamoo.
Jika keakuratan pengenalan suara mendekati kinerja manusia, apakah kita pasti akan mengalami sistem respons suara yang lebih interaktif, voicemail otomatis seperti itu? Nahamoo telah mengakui bahwa orang dapat menyusut, tetapi ada terbalik.
“Mesin tidak bijaksana,” kata Nahamoo. “Beberapa orang merasa seperti diadili ketika mereka menelepon pusat. Itu tidak terjadi dengan mesin. ‘
Hak Cipta © 2006 Ziff Davis Media Inc. Semua hak dilindungi undang -undang. Reproduksi secara keseluruhan atau sebagian dalam bentuk atau media apa pun tanpa persetujuan tertulis dari Ziff Davis Media Inc. dilarang.