Apa itu Speech Recognition?

Menggunakan Suara Anda sebagai Metode Masukan

Pengenalan ucapan adalah teknologi yang memungkinkan input lisan ke dalam sistem. Anda berbicara dengan komputer, ponsel atau perangkat Anda dan menggunakan apa yang Anda katakan sebagai masukan untuk memicu beberapa tindakan. Teknologi ini digunakan untuk menggantikan metode input lain seperti mengetik, mengklik atau memilih dengan cara lain. Ini adalah sarana untuk membuat perangkat dan perangkat lunak lebih ramah-pengguna dan meningkatkan produktivitas.

Ada banyak aplikasi dan area di mana pengenalan bicara digunakan, termasuk militer, sebagai bantuan untuk orang-orang yang dirugikan (bayangkan seseorang dengan lumpuh atau tidak ada tangan atau jari), di bidang medis, robotik dll. Dalam waktu dekat, hampir semua orang akan terkena pengenalan suara karena penyebarannya di antara perangkat umum seperti komputer dan ponsel.

Ponsel cerdas tertentu memanfaatkan penggunaan pengenalan kata-kata yang menarik. Perangkat iPhone dan Android adalah contohnya. Melalui mereka, Anda dapat memulai panggilan ke kontak dengan hanya mendapatkan instruksi lisan seperti 'Call office'. Perintah lain mungkin juga dihibur, seperti 'Switch on Bluetooth'.

Masalah Dengan Speech Recognition

Pengenalan ucapan, dalam versinya yang dikenal sebagai Speech to Text (STT), juga telah digunakan sejak lama untuk menerjemahkan kata-kata yang diucapkan menjadi teks. "Anda berbicara, itu jenis", seperti ViaVoice akan berkata pada kotaknya. Tetapi ada satu masalah dengan STT seperti yang kita tahu. Lebih dari 10 tahun yang lalu, saya mencoba ViaVoice dan tidak bertahan seminggu di komputer saya. Mengapa? Itu sangat tidak akurat dan saya akhirnya menghabiskan lebih banyak waktu dan tenaga untuk berbicara dan mengoreksi daripada mengetik semuanya. ViaVoice adalah salah satu yang terbaik di industri, jadi bayangkan sisanya. Teknologi telah matang dan berkembang, tetapi pidato ke teks masih membuat orang bertanya. Salah satu kesulitan utamanya adalah variasi yang sangat besar di antara orang-orang dalam mengucapkan kata-kata.

Tidak semua bahasa seharusnya dalam pengenalan suara, dan yang sering tidak didukung serta bahasa Inggris. Akibatnya, sebagian besar perangkat yang menjalankan perangkat lunak pengenalan suara hanya bekerja dengan bahasa Inggris.

Seperangkat persyaratan perangkat keras membuat pengenalan ucapan sulit diterapkan dalam kasus-kasus tertentu. Anda membutuhkan mikrofon yang cukup cerdas untuk menyaring suara latar belakang tetapi pada saat yang sama cukup kuat untuk menangkap suara secara alami.

Berbicara tentang kebisingan latar belakang, itu dapat menyebabkan seluruh sistem gagal. Akibatnya, pengenalan ucapan gagal dalam banyak kasus karena suara yang berada di luar kendali pengguna.

Speech recognition terbukti lebih baik sebagai metode input untuk telepon baru dan teknologi komunikasi seperti VoIP, daripada sebagai alat produktivitas untuk input teks massal.

Aplikasi Pengenalan Pidato

Teknologi ini mendapatkan popularitas di banyak bidang dan telah berhasil dalam hal berikut:

- Kontrol perangkat. Cukup mengatakan "OK Google" ke ponsel Android akan memunculkan sistem yang semuanya mendengarkan perintah suara Anda.

- Sistem Bluetooth mobil. Banyak mobil dilengkapi dengan sistem yang menghubungkan mekanisme radionya ke ponsel cerdas Anda melalui Bluetooth. Anda kemudian dapat membuat dan menerima panggilan tanpa menyentuh ponsel cerdas Anda, dan bahkan dapat menghubungi nomor dengan hanya mengucapkannya.

- Transkripsi suara. Di area di mana orang-orang harus mengetik banyak, beberapa perangkat lunak cerdas menangkap kata-kata lisan mereka dan mentranskripsikannya ke dalam teks. Ini adalah arus dalam perangkat lunak pengolah kata tertentu. Transkripsi suara juga berfungsi dengan visual voicemail .