Banyak yang memperhatikan bahwa pidato para politisi memiliki format yang cukup standar, mereka mirip satu sama lain. Penting untuk mengulang poin utama beberapa kali menggunakan formulasi standar. Tampaknya ada algoritma yang mendefinisikan struktur pidato tersebut.Dalam hal ini, muncul pertanyaan: dapatkah komputer menghasilkan teks semacam itu secara mandiri?Valentin Kassarnig dari University of Massachusetts telah membuktikan bahwa ini mungkin. Dia menerbitkan sebuah program ( github repository ) yang melakukan hal itu: menghasilkan pidato politik yang secara mengejutkan mirip dengan yang asli. Penulis menceritakan secara lebih rinci tentang penghasil teks-teks politik dalam sebuah artikel ilmiah .Dalam mengembangkan generator, Valentine menggunakan basis hampir 4.000 fragmen debat politik di Kongres AS. Basis data mencakup lebih dari 50.000 kalimat teks, yang masing-masing memiliki rata-rata 23 kata. Kassarnig juga mengklasifikasikan setiap pidato oleh partai politik (Republik / Demokrat), serta berdasarkan prinsip sikap positif / negatif terhadap topik diskusi.Namun, yang terpenting adalah bagaimana menganalisis basis ini. Penulis mencoba berbagai opsi, tetapi akhirnya memilih N-gram.N-gram adalah urutan n elemen. Dalam hal ini, itu adalah urutan kata dan frasa.Pertama, ia menandai dalam teks semua bagian ucapan (kata benda, kata kerja, kata sifat, dll.). Kemudian saya menggunakan algoritma berikut: semua 6-gram dicari dalam database dan probabilitas kemunculan kata atau frasa tertentu dihitung, tergantung pada lima mana yang ada di depannya. "Ini memungkinkan kita untuk dengan cepat mengidentifikasi semua kata yang mungkin muncul setelah lima kata yang diketahui sebelumnya, dan apa kemungkinan masing-masing kata itu muncul," kata Kassarnig.Proses menghasilkan teks mengikuti dari algoritma ini. Program ini menunjukkan orientasi politik dari pidato: ia harus menjadi pidato dari seorang republik atau kandidat yang demokratis. Algoritma menggunakan basis 6-gram untuk kategori ini untuk memilih set lengkap 5-gram yang digunakan untuk memulai pidato tersebut. Kemudian salah satu dari 5 gram ini dipilih secara acak, kata yang paling mungkin berakhiran 6-gram dihitung. Nah, kemudian dia mulai memprediksi kata demi kata sampai akhir teks.Ada beberapa trik lagi, tentu saja. Misalnya, sebuah program mengetahui kemungkinan topik tertentu disebutkan dalam pidato - dan topik mana yang akan disajikan di sebelahnya.Hasilnya sangat bagus.Contoh teksMr. Speaker, for years, honest but unfortunate consumers have had the ability to plead their case to come under bankruptcy protection and have their reasonable and valid debts discharged. The way the system is supposed to work, the bankruptcy court evaluates various factors including income, assets and debt to determine what debts can be paid and how consumers can get back on their feet. Stand up for growth and opportunity. Pass this legislation.
Kassarnig mempelajari hasilnya dan percaya bahwa keaksaraan dan kelancaran transisi dari proposal ke penawaran sangat baik.Jadi para politisi yang berbahasa Inggris mendapatkan alat untuk segera berpidato, jika Anda tiba-tiba perlu berbicara di depan audiensi, dan mereka tidak dapat mengatakan apa-apa.Program ini juga dapat menghasilkan teks lain. Misalnya, posting blog dan catatan berita :).Karena kode sumber diterbitkan dalam domain publik, setiap peningkatan dan garpu dianjurkan.