Evaluasi Kemampuan Berbicara Google Assistant
02 February 2018
Interaksi suara dengan teknologi menjadi bagian penting dalam kehidupan kita — mulai dari menggunakan ponsel untuk mengetahui kondisi lalu lintas ke tempat kerja hingga menggunakan perangkat cerdas di rumah untuk menyalakan lampu atau memutar musik. Google Assistant dirancang untuk menyediakan bantuan dan informasi pada berbagai platform, dan dibuat untuk menyatukan sejumlah produk — seperti Google Maps, Search, Google Photos, layanan pihak ketiga, dan banyak lagi. Untuk beberapa produk ini, kami telah merilis panduan evaluasi khusus, seperti Search Quality Rating Guidelines. Namun, Asisten Google memerlukan panduan sendiri, karena banyak dari interaksinya memanfaatkan apa yang disebut dengan "teknologi eyes-free," ketika tidak ada layar sebagai bagian dari pengalaman.
Di masa lalu, kami menerima permintaan untuk melihat panduan evaluasi kami dari para akademisi yang meneliti penyempurnaan dalam interaksi suara, penjawab pertanyaan dan eksplorasi yang dipandu suara. Untuk memudahkan evaluasinya, kami menerbitkan beberapa panduan Google Assistant yang pertama. Harapan kami dengan membuat panduan ini bersifat publik adalah untuk membantu komunitas riset membangun dan mengevaluasi sistem mereka sendiri.
Membuat Panduan
Bagi banyak kueri, respons ditampilkan di layar (seperti ponsel) dengan grafik, tabel, atau elemen interaktif, seperti yang bisa Anda lihat pada [cuaca pekan ini].
Namun respons dengan suara sangat berbeda daripada hasil tampilan, karena apa yang ada di layar perlu diterjemahkan ke dalam ucapan yang mempunyai arti. Selain itu, konten respons suara terkadang berasal dari web, dan dalam kasus ini, kita harus memberi pengguna link ke sumber aslinya. Meskipun pengguna yang melihat perangkat seluler bisa mengklik untuk membaca halaman web aslinya, solusi eyes-free menghadirkan tantangan yang unik. Untuk menghasilkan respons audio yang optimal, kita menggunakan kombinasi pengetahuan linguistik eksplisit dan solusi deep learning yang memungkinkan kita untuk menghasilkan jawaban yang gramatikal, fasih dan ringkas.
Bagaimana kita memastikan bahwa kita secara konsisten memenuhi harapan pengguna akan kualitas, di semua jenis jawaban dan bahasa? Salah satu alat yang kita gunakan untuk mengukurnya adalah evaluasi manusia. Di sini, kami meminta penilai untuk memastikan bahwa jawaban-jawaban itu memuaskan dalam beberapa dimensi:
Interaksi suara dengan teknologi menjadi bagian penting dalam kehidupan kita — mulai dari menggunakan ponsel untuk mengetahui kondisi lalu lintas ke tempat kerja hingga menggunakan perangkat cerdas di rumah untuk menyalakan lampu atau memutar musik. Google Assistant dirancang untuk menyediakan bantuan dan informasi pada berbagai platform, dan dibuat untuk menyatukan sejumlah produk — seperti Google Maps, Search, Google Photos, layanan pihak ketiga, dan banyak lagi. Untuk beberapa produk ini, kami telah merilis panduan evaluasi khusus, seperti Search Quality Rating Guidelines. Namun, Asisten Google memerlukan panduan sendiri, karena banyak dari interaksinya memanfaatkan apa yang disebut dengan "teknologi eyes-free," ketika tidak ada layar sebagai bagian dari pengalaman.
Di masa lalu, kami menerima permintaan untuk melihat panduan evaluasi kami dari para akademisi yang meneliti penyempurnaan dalam interaksi suara, penjawab pertanyaan dan eksplorasi yang dipandu suara. Untuk memudahkan evaluasinya, kami menerbitkan beberapa panduan Google Assistant yang pertama. Harapan kami dengan membuat panduan ini bersifat publik adalah untuk membantu komunitas riset membangun dan mengevaluasi sistem mereka sendiri.
Membuat Panduan
Bagi banyak kueri, respons ditampilkan di layar (seperti ponsel) dengan grafik, tabel, atau elemen interaktif, seperti yang bisa Anda lihat pada [cuaca pekan ini].
Namun respons dengan suara sangat berbeda daripada hasil tampilan, karena apa yang ada di layar perlu diterjemahkan ke dalam ucapan yang mempunyai arti. Selain itu, konten respons suara terkadang berasal dari web, dan dalam kasus ini, kita harus memberi pengguna link ke sumber aslinya. Meskipun pengguna yang melihat perangkat seluler bisa mengklik untuk membaca halaman web aslinya, solusi eyes-free menghadirkan tantangan yang unik. Untuk menghasilkan respons audio yang optimal, kita menggunakan kombinasi pengetahuan linguistik eksplisit dan solusi deep learning yang memungkinkan kita untuk menghasilkan jawaban yang gramatikal, fasih dan ringkas.
Bagaimana kita memastikan bahwa kita secara konsisten memenuhi harapan pengguna akan kualitas, di semua jenis jawaban dan bahasa? Salah satu alat yang kita gunakan untuk mengukurnya adalah evaluasi manusia. Di sini, kami meminta penilai untuk memastikan bahwa jawaban-jawaban itu memuaskan dalam beberapa dimensi:
- Kepuasan atas Informasi: konten jawaban harus merupakan informasi yang dibutuhkan pengguna.
- Panjang: Bila jawaban yang ditampilkan terlalu panjang, pengguna bisa dengan cepat memindainya secara visual dan menemukan informasi yang relevan. Hal ini tidak mungkin dilakukan untuk jawaban dengan suara. Jauh lebih penting untuk memastikan bahwa kita memberikan sejumlah informasi yang membantu, dengan tidak terlalu banyak maupun terlalu sedikit. Beberapa hasil kerja kami sebelumnya saat ini sedang digunakan untuk mengidentifikasi fragmen jawaban yang paling relevan.
- Formulasi: jauh lebih mudah memahami jawaban tertulis yang terformulasi dengan buruk daripada jawaban lisan yang tidak jelas, jadi kita harus lebih berhati-hati dalam memastikan kebenaran gramatikal.
- Elokusi: jawaban lisan harus memiliki pengucapan dan intonasi yang tepat. Penyempurnaan dalam menghasilkan text-to-speech, seperti WaveNet dan Tacotron 2, dengan cepat mengurangi jarak dengan kinerja manusia.