Keadaan Pengenalan Suara Linux

by Gary Newell

pengantar

Saya menghabiskan banyak waktu untuk meneliti artikel dan cukup sering saya memikirkan subjek untuk artikel sambil berjalan ke stasiun kereta atau ketika keluar dan tentang secara umum.

Suatu malam ketika berjalan 1,5 mil ke stasiun dari pekerjaan saya, saya pikir "tidak akan baik jika saya dapat merekam apa yang ingin saya katakan dan kemudian menuliskannya secara otomatis ke file teks yang dapat saya edit dan format nanti" .

Saya telah menghabiskan banyak waktu melihat berbagai opsi yang tersedia untuk pengenalan suara dan dikte termasuk merekam langsung melalui mikrofon menggunakan perangkat lunak dikte di Linux, merekam file ke format MP3 atau WAV dan mengonversinya melalui baris perintah, serta menggunakan Chrome dan aplikasi Android.

Artikel ini menyoroti temuan saya setelah berhari-hari kerja keras.

Opsi Linux

Mencoba menemukan perangkat lunak pengidentifikasi suara dan dikte di Linux tidak semudah yang seharusnya dan pilihan yang tersedia tidak begitu pintar.

Halaman wikipedia ini memiliki daftar opsi potensial termasuk CMU Sphinx, Julius dan Simon.

Saya menggunakan SparkyLinux yang didasarkan pada Debian Testing saat ini dan saya dapat memberitahu Anda bahwa satu-satunya paket pengenalan suara yang tersedia di repositori adalah Sphinx.

Program Linux asli yang akhirnya saya coba adalah PocketSphinx, yang saya gunakan untuk mengkonversi file WAV ke teks dan Freespeech-VR yang merupakan aplikasi python yang memungkinkan Anda merekam langsung dari mikrofon.

Saya juga mencoba beberapa aplikasi Chrome termasuk VoiceNote II dan Dictanote.

Akhirnya saya mencoba "Dictation and Email" dan "Talk And Talk Dictation" Aplikasi Android.

Freespeech-VR

Freespeech-VR tidak tersedia di repositori standar. Saya mengunduh file dari sini.

Setelah mengunduh dan mengekstraksi isi file zip saya membuka terminal dan menavigasi ke folder tempat file diekstrak.

Saya mengetik perintah berikut untuk membuka freespeech-vr.

sudo python freespeech-vr

Saya memiliki sepasang headphone dengan mikrofon yang cukup layak dan aksen bahasa Inggris selatan yang cukup jelas.

Teks berikut muncul di jendela freespeech-vr:

Selamat datang di unit anjing hasil Hari Ini Memastikan Cara Mengontrol Tes dan Tes Kapan Ke teks Menggunakan cara sistem Pidato I Untuk masing-masing adalah Hanya Dalam Untuk berharap tinggal Dan Sarana dari Satu ayam emas sebagai sistem The Ea ketika itu nama saya yang berikutnya ofch panggilan telepon File ini Segera cukup kasus telepon ke Hands-Space sphinx Pergi Itu bukan telepon akan dibagi A terlatih dan dan alat-alat Gunakan berbicara Ketika Anda selesai Say A menggunakan file Last a cerita A Dan menggunakan oleh Kapan itu sangat bagaimana kesuksesan Linux ini seperti yang Anda hindari

Saya hanya ingin mengatakan sekarang bahwa ini bukan situs web Anjing dan tidak ada gunanya saya menyebutkan ada hubungannya dengan ayam Golden. Saya sebenarnya mencoba menggambarkan proses menggunakan perangkat lunak pengenalan suara.

Saya mencoba peranti lunak beberapa kali termasuk berbagai nada dan kecepatan tetapi akurasinya buruk.

PocketSphinx

PocketSphinx dapat mengambil file WAV dan mengubahnya menjadi teks menggunakan baris perintah.

PocketSphinx tersedia melalui repositori Debian dan harus tersedia untuk sebagian besar distribusi.

Masalah utama yang saya temukan dengan PocketSphinx adalah bahwa Anda sebenarnya membutuhkan gelar dalam konsep pengenalan suara, file bahasa, kamus, dan cara melatih sistem.

Setelah menginstal PocketSphinx Anda harus pergi ke situs web CMU Sphinx dan membaca informasi sebanyak mungkin. Anda juga perlu mengunduh file model berikut.

Model Bahasa Generik Bahasa Inggris AS

(Jika Anda bukan penutur asli bahasa Inggris, pilih model bahasa yang sesuai untuk Anda).

Dokumentasi untuk PocketSphinx dan Sphinx pada umumnya sulit dipahami untuk orang awam tetapi dari apa yang saya bisa membuat file kamus digunakan untuk memberikan daftar kemungkinan kata-kata dan model bahasa memiliki daftar kemungkinan pengucapan.

Untuk menguji PocketSphinx saya menggunakan rekaman suara saya sendiri, cuplikan dari Al Pacino di "The Devils Advocate" dan cuplikan dari "Morgan Freeman". Intinya adalah mencoba berbagai suara dan bagi saya tidak ada seorang pun yang dapat menceritakan kisah sejelas Morgan Freeman dan tidak ada yang memberikan garis seperti Al Pacino.

Agar PocketSphinx berfungsi, ia membutuhkan file WAV dan harus dalam format tertentu. Jika file dalam format MP3 gunakan perintah ffmpeg untuk mengubahnya menjadi format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Untuk menjalankan PocketSphinx gunakan perintah berikut:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous mengambil file WAV dan mengonversinya menjadi teks.

Dalam perintah di atas pocketsphinx diperintahkan untuk menggunakan file kamus bernama "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" dengan model bahasa "cmusphinx-5.0-en-us.lm". File yang dikonversi menjadi teks disebut voice2.wav (yang merupakan rekaman yang saya buat dengan suara saya). Akhirnya 2> menempatkan semua output verbose yang tidak perlu Anda masukkan ke file bernama voice2.log. Hasil aktual dari tes ditampilkan dalam jendela terminal.

Hasil menggunakan suara saya adalah sebagai berikut:

selamat datang di topik berikutnya tentang tidak ada minggu ini tentang perangkat lunak pengenal mana yang dalam satu menit

Hasilnya tidak sama mengerikannya dengan freespeech-vr tapi masih belum bisa digunakan. Saya kemudian mencoba menggunakan PocketSphinx dengan Al Pacino tetapi ini tidak memberikan hasil sama sekali.

Akhirnya saya mencoba menggunakan suara Morgan Freeman dari film "Bruce Almighty" dan inilah hasilnya:

000000000: kita akan melakukannya
000000001: semua yang sulit ya hari itu sekarang ya ini adalah yang paling kita sudah hidup aku bagian oleh panas
000000002: di lift siapa kuncinya dari sedikit jam bisbol atau tahu apa yang harus dilakukan dalam kehidupan
000000003: apa yang akan pulih
000000004: mereka tidak menulisnya
000000005: mereka ada pada saya
000000006: Anda harus menjadi aturan
000000007: Aku sudah menunggumu
000000008: dan dia belajar di sini itu adalah ilustrasi adalah pesta natal pembunuh
000000009: ternyata salah satu cara untuk menulis o. pantat saya pikir beberapa selalu memakai satu
000000010: seperti masalah bersatu tidak akan memberi dia kebaikan saya kira mereka pada saat itu ketika kita tidak semua yang Anda pikir saya di dunia akan rumah dan saya telah melihat bahwa
000000011: seorang ayah yang memilikinya
000000012: banyak sekali tentang ini
000000013: apakah itu diberikan
000000014: semua yang Anda yang tidak jatuh banyak
000000015: tepat di musim gugur
000000016: bertahanlah hanya untuk saya
000000017: itu tidak bahagia jika saya berpikir juga bahwa mereka akan memiliki bahwa semua yang akan menikah pada adalah tidak kita lakukan saya suka tidak seperti jalan

Tes saya hampir tidak dapat dianggap ilmiah dan pengembang PocketSphinx dapat menyatakan bahwa saya tidak menggunakan perangkat lunak dengan benar. Ada juga teknik yang disebut pelatihan suara yang dapat digunakan untuk membuat kamus dan file bahasa yang lebih baik.

Pendapat utama saya adalah bahwa itu terlalu sulit untuk penggunaan sehari-hari standar.

VoiceNote II

VoiceNote II adalah Aplikasi Chrome yang menggunakan API pengakuan Google Voice.

Jika Anda menggunakan browser Chrome atau Chromium, Anda dapat menginstal VoiceNote II melalui Toko Web .

Ikon pada VoiceNote II ditata dengan cara aneh karena Anda perlu mengatur bahasa di bagian bawah jendela dan tombol edit juga di bagian bawah, namun tombol rekam berada di posisi kanan atas.

Hal pertama yang perlu Anda lakukan adalah memilih bahasa dan ini dapat dicapai dengan mengklik ikon dunia.

Untuk mulai merekam, klik ikon mikrofon dan mulailah berbicara ke mikrofon Anda. Untuk hasil terbaik yang saya temukan berbicara perlahan adalah kunci sehingga perangkat lunak akan memiliki kesempatan untuk mengikuti.

Hasilnya tidak bagus seperti yang bisa dilihat di bawah ini:

Halo dan selamat datang untuk terhubung. About.com todays artikel tentang suara ke teks konversi dunelm farrell resesi 2008 sebagai konversi dan katanya didukung cara terbaik saya menemukan teks suara addon untuk menunjukkan paket 2014debian atau rpm membukanya jenis suara untuk pidato ke teks membukanya jika Anda ingin memilih vs memilih di edinburgh perancis jerman mendapatkan Anda waktu di united kingdomstart di laut microphonly Anda selesai menulis teks Anda sebagai file teks untuk itu berhasil baik itu aksen bahasa Inggris yang sangat standar dari selatan england terbaik untuk itu tapi aku akan ke textvia ini torrentalong dengan dokumen yang sebenarnya dan Anda dapat melihat kesalahan-kesalahan yang membuat Anda mendengarkan teman-teman

Dictanote

Dictanote adalah Aplikasi Chrome lain yang dapat digunakan untuk tujuan dikte dan tampil sebagai lebih intuitif tetapi hasilnya tidak lebih baik daripada VoiceNote II.

Saya hanya menggunakan versi demo Dictanote yang mencegah Anda membuat dokumen baru tetapi memungkinkan Anda untuk membicarakan teks yang sudah ada di editor. Saya dapat menguji pengenalan suara tetapi hasilnya tidak lebih baik daripada VoiceNote II dan jadi saya tidak mendaftar untuk versi pro.

Dikte Dan Mail

"Dictation And Mail" adalah Aplikasi Android yang menggunakan API pengenalan suara Google asli.

Hasil dari "Dikte dan Surat" jauh lebih baik daripada program lain yang dicoba hingga saat ini.

Halo selamat datang di Linux tentang., hari ini kita berbicara tentang mengubah suara menjadi teks

Trik dengan "Dictation and Mail" adalah berbicara perlahan dan lafal serta Anda bisa dengan aksen yang merata.

Setelah Anda selesai berbicara, Anda dapat mengirim hasilnya melalui email kepada diri sendiri.

Talk And Talk Dictation

Aplikasi Android lain yang saya coba adalah "Talk And Talk Dictation".

Antarmuka untuk aplikasi ini adalah yang terbaik dari kelompok dan pengenalan suara bekerja dengan sangat baik. Setelah mencatat dikte saya dapat membagikan hasilnya dengan berbagai cara termasuk melalui email.

selamat datang di linux about.com hari ini kita berbicara tentang mengubah pembicaraan menjadi teks

Seperti yang Anda lihat, teks di atas adalah sejelas yang mungkin Anda harapkan. Berbicara perlahan adalah kuncinya.

Ringkasan

Linux asli memiliki beberapa cara untuk pergi berkaitan dengan pengenalan suara dan dikte khusus. Ada beberapa aplikasi yang menggunakan Google Voice API tetapi mereka belum terdaftar di repositori.

Aplikasi ChromeOS sedikit lebih baik tetapi sejauh ini hasil terbaik dicapai menggunakan ponsel Android saya. Mungkin ponsel memiliki mikrofon yang lebih baik dan oleh karena itu perangkat lunak pengenalan suara memiliki peluang konversi yang lebih baik.

Agar pengenalan suara menjadi benar-benar dapat digunakan, perlu lebih intuitif dengan lebih sedikit pengaturan yang diperlukan. Anda tidak perlu dipusingkan dengan model bahasa dan kamus untuk membuatnya bisa dimengerti.

Namun, saya menghargai bahwa seluruh seni pengenalan suara sangat menantang karena setiap orang memiliki suara yang berbeda dan ada banyak dialek dari satu wilayah ke wilayah di satu negara yang tidak pernah mengkhawatirkan ratusan bahasa yang digunakan di seluruh dunia.

Oleh karena itu, analisis saya adalah bahwa perangkat lunak pengenalan suara masih bekerja dalam proses.