Dalam artikel tentang Connectionist Temporal Classification, Alex Graves & co. memperkenalkan model decoding ucapan dengan label 27: 26 untuk huruf alfabet dan satu untuk kosong, yang berarti tanpa label (yang saya pahami sebagai diam).

Namun, saya melihat banyak implementasi CTC yang menggunakan label 28, yang satu kosong dan satu lagi spasi. Sejauh ini, saya belum dapat menemukan penjelasan tentang perlunya menggunakan kedua label ini dan, bagi saya, keduanya mewakili hal yang sama.

Bisakah Anda menjelaskan perbedaan antara kosong dan spasi dalam konteks CTC dan mengapa ada kebutuhan untuk kedua label ini?

2
Nicole D. 21 Maret 2019, 19:01

1 menjawab

Jawaban Terbaik

Dalam Klasifikasi Temporal Connectionist ruang hanyalah sebuah spasi putih dan kosong adalah '-' yang kami gunakan untuk menyelesaikan pengulangan pengulangan data. misalnya "pizza" akan dikodekan sebagai "Pizza".

TLDR;

Ref: https://towardsdatascience.com/beam- search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7

Di CTC ada masalah bagaimana mengkodekan karakter duplikat. Ini diselesaikan dengan memperkenalkan karakter semu (disebut kosong, tetapi jangan bingung dengan kosong "nyata", yaitu karakter spasi putih). Karakter khusus ini akan dilambangkan sebagai "-" dalam teks. Kami menggunakan skema pengkodean yang cerdas untuk memecahkan masalah karakter duplikat: saat menyandikan teks, kami dapat memasukkan banyak kosong sewenang-wenang di posisi mana pun, yang akan dihapus saat mendekodekannya. Namun, kita harus menyisipkan kosong di antara karakter duplikat seperti di "halo". Selanjutnya, kita dapat mengulangi setiap karakter sesering yang kita suka. Mari kita lihat beberapa contoh: “ke” → “---ttttttooo”, atau “-to-”, atau “to” “too” → “---ttttto-o”, atau “-too-”, atau “ to-o", tetapi tidak "terlalu" Seperti yang Anda lihat, skema ini juga memungkinkan kita untuk dengan mudah membuat perataan yang berbeda dari teks yang sama, misalnya "t-o" dan "too" dan "-to" semuanya mewakili teks yang sama ("to"), tetapi dengan keberpihakan yang berbeda pada gambar. NN dilatih untuk mengeluarkan teks yang dikodekan (dikodekan dalam matriks output NN).

0
mohitsinghdz 7 Februari 2020, 07:07