Mobil semakin pintar. Sudah sekarang mereka menghasilkan konten dengan kualitas yang bahkan seorang profesional tidak selalu membedakannya dari yang "manusia". Sergey Marin dari Data Studio berbicara tentang mengapa jurnalis dan editor tidak boleh takut kompetisi, dan tentang prospek otomatisasi jurnalisme di konferensi kami "
Berisi ".

Di bawah transkrip cut-off dari laporannya.
Tentang pembicaraSergey Marin adalah pakar kecerdasan buatan, pemimpin dan pendiri
Data Studio .
Tiga paus kecerdasan buatan
Jika kita berbicara tentang kecerdasan buatan - dalam jurnalisme atau bidang lain - kita pertama-tama harus memahami strukturnya. AI terdiri dari tiga komponen utama: pembelajaran mesin, sistem rekomendasi, dan jaringan saraf. Omong-omong, banyak yang menganggap jaringan saraf sebagai sinonim untuk kecerdasan buatan, tetapi ini hanya salah satu alat, bahkan bukan yang paling masif: dalam setiap kasus, algoritma yang bekerja paling optimal digunakan.

Pembelajaran Mesin: Rak
Pembelajaran mesin digunakan untuk mencari pola tersembunyi dalam data. Bayangkan bahwa kita memiliki serangkaian jalur informasi atau publikasi yang perlu diklasifikasikan, yaitu, secara otomatis memberikan mereka beberapa tag. Atau hanya teks dengan banyak kata yang perlu dibagi menjadi beberapa kelas, minat, suasana hati dan sebagainya. Bagaimana kita melakukan ini? Jika kita berbicara tentang pembelajaran mesin, maka kita tidak mencari kata kunci apa pun untuk menarik kesimpulan berdasarkannya. Sebagai gantinya, kami menunjukkan mesin jumlah teks terbesar yang mungkin telah kami tandai dengan sejumlah besar kelas. Setelah itu kami memberikan teks baru, dan mesin itu sendiri mengklasifikasikannya ke area yang menjadi miliknya. Artinya, pertama-tama kami mengajar, menunjukkan banyak contoh.

Artinya, aplikasi utama pembelajaran mesin dalam jurnalisme adalah klasifikasi. Sebagai contoh, kami memiliki sejumlah besar jalur informasi - dari Internet, jejaring sosial, kantor berita - dan kami perlu segera mengklasifikasikannya. Kami melakukan pra-pelatihan model kami, dan ketika kami memiliki panduan informasi baru, mesin memahami di mana tempatnya, apa temanya, suasana hati apa yang disampaikannya, untuk audiens mana ia dapat diterapkan. Popularitas diprediksi sama, peringkat beberapa feed berita.
Sistem pemberi rekomendasi: temukan pendekatan pribadi
Bidang utama penerapan sistem rekomendasi adalah personalisasi. Kami ingin menampilkan konten yang relevan untuk setidaknya segmen tertentu, dan idealnya - pilih untuk setiap orang. Dalam hal ini, penyajian konten tidak berbeda dengan penjualan. Ingat pemimpin dalam penjualan produk yang ditargetkan: toko online seperti Amazon dan bioskop online dapat merekomendasikan produk mereka. Dan jika kita menganggap konten sebagai produk, ternyata kita sudah tahu cara merekomendasikan dan menargetkannya dengan baik.

Bagaimana kita melakukan ini? Ada dua prinsip dasar. Yang pertama adalah sistem rujukan yang, pada kenyataannya, membandingkan orang di antara mereka sendiri berdasarkan pembelian mereka, dalam hal ini, berdasarkan konten yang sebelumnya mereka konsumsi. Mari kita ambil contoh sederhana: Igor dan Peter menonton tentang film yang sama, dan jika salah satu film hanya ditonton oleh Igor, maka logis untuk merekomendasikannya kepada Peter.
Prinsip lain jauh lebih kuat dalam hal merekomendasikan konten - penilaian popularitasnya, PageRank. Contoh pertama adalah pencarian, pencarian di Yandex, Google. Bagaimana cara menentukan bahwa halaman tertentu signifikan? Kami mempertimbangkan jumlah tautan atau referensi ke halaman ini pada sumber daya lain dan mendapatkan semacam peringkat yang ditugaskan untuk itu. Tapi itu satu hal ketika lima halaman yang tidak diketahui memiliki pranala ke publikasi, dan hal lain lagi jika tautan tersebut diberikan oleh merek populer atau kantor berita besar. Ternyata kita harus memperhitungkan peringkat mereka yang menautkan ke halaman kita - kita mendapatkan hierarki seperti itu.
Tinder bekerja dengan cara yang sama: ketika Anda menggulir ke kiri-kanan, peringkat dihitung untuk Anda dan orang-orang yang ditunjukkan kepada Anda. Mereka menunjukkan kepada Anda foto-foto mereka yang memiliki peringkat yang sama dengan Anda - ini adalah makna rekomendasi dari layanan ini.

Ini adalah metode yang sangat efektif untuk penilaian otomatis tentang pentingnya informasi tertentu. Jika Anda tahu cara menghitung tidak hanya menyebutkan, tetapi juga signifikansinya, Anda dapat secara otomatis mengurutkan semua feed berita untuk audiens target tertentu. Oleh karena itu, rekomendasi digunakan terutama untuk penargetan level tersebut.
Jaringan saraf: tiruan otak
Konsep jaringan saraf sederhana dan membosankan. Sampai sekitar 60-an abad terakhir, studi tentang prinsip-prinsip otak manusia melukiskan gambar berikut: ada satu set neuron tertentu yang menerima sinyal input. Setelah itu, setiap neuron membuat modifikasi kecil dari sinyal dan meneruskannya. Untuk memahami bagaimana neuron-neuron ini berkumpul dalam kelompok-kelompok di dalam otak, kami memutuskan untuk membuat model komputer - seperangkat neuron yang entah bagaimana terhubung. Jadi jaringan saraf pertama lahir, dan dalam bentuk ini mereka masih digunakan untuk memecahkan masalah pembelajaran mesin. Tetapi jika kita berbicara tentang sesuatu yang lebih maju, maka sistem seperti itu tidak cocok.

Di suatu tempat di tahun 90-an abad terakhir, para ilmuwan menyadari bahwa otak manusia tidak bekerja seperti itu. Neuron benar-benar berinteraksi satu sama lain, tetapi semuanya dibangun secara hierarkis. Sebagai contoh, ketika saya melihat gambar, informasi dikumpulkan dari masing-masing bidangnya, yang kemudian dikumpulkan ke kelompok neuron lain yang lebih kecil. Dan di sana disimpan dalam bentuk semacam representasi internal. Faktanya, kita berpikir dengan representasi internal ini, dan tidak dengan gambar nyata yang kita lihat. Teori ini segera diciptakan kembali dalam jaringan saraf, dan sekarang menurut klasifikasi gambar jaringan saraf seperti itu bekerja jauh lebih baik daripada manusia. Jaringan saraf ini disebut konvolusional - karena proses generalisasi sedang berlangsung.

Terobosan kedua terjadi ketika mereka menemukan: seseorang tidak merasakan informasi pada saat itu, tetapi mempertimbangkan konteks tertentu. Untuk melatih komputer untuk menganalisis akumulasi pengalaman, mereka membangun apa yang disebut jaringan saraf berulang. Mereka menggunakan karya jaringan saraf sebelumnya untuk mengklasifikasikan, dan kemudian membuat beberapa konten. Ini semua digunakan sekarang dalam Pemodelan Urutan, dan jika lebih mudah - dalam obrolan bot. Misalnya, ketika Yandex memilih kata yang mirip, ini adalah jaringan saraf berulang yang mereplikasi bagaimana seseorang memproses informasi.
Bagaimana jaringan saraf digunakan dalam jurnalisme
Area aplikasi pertama untuk jaringan saraf adalah pembuatan konten. Jika kita memiliki semacam panduan informasi, maka jaringan saraf yang terlatih memungkinkan kita untuk menentukan topik dan menulis teks yang cukup dapat dipahami. Sudah ada perusahaan yang memproduksi perangkat lunak yang sesuai. Ada publikasi yang menggunakannya untuk jalur informasi rutin - laporan pertukaran, indikator keuangan perusahaan. Sebagai informasi faktual - gempa bumi melintas di sini, sebuah kapal berlayar di sana dan seterusnya - berfungsi dengan baik. Tetapi jika kita berbicara tentang umpan informasi yang lebih maju, maka kita harus bekerja serius untuk mengubah konten yang dihasilkan oleh jaringan saraf menjadi sesuatu yang benar-benar bermakna dan memadai.

Area kedua adalah klasifikasi, sudah disebutkan di atas. Yang ketiga adalah penilaian persepsi atau pengujian A / B, yang jarang digunakan di suatu tempat di luar penjualan. Dalam jurnalisme, prinsipnya serupa: kami memiliki beberapa bentuk publikasi, dan kami ingin menguji bagaimana hasilnya dalam kelompok sasaran yang berbeda. Dengan menggunakan metode seperti itu, proses ini dapat sepenuhnya otomatis.
Arahan yang terakhir akan menarik bagi mereka yang perlu menulis konten yang sama untuk saluran, sumber daya, dan audiens target yang berbeda. Untuk menerbitkan artikel tentang Habré, yang sudah diterbitkan di publikasi lain, Anda tidak bisa melakukan copy-past. Untuk mengadaptasinya, Anda dapat menarik copywriter atau menggunakan jaringan saraf. Untuk komputer, ini bahkan lebih sederhana daripada terjemahan mesin: teks tidak perlu dikonversi ke bahasa lain, sintaksis, dan sebagainya. Tapi secara keseluruhan itu sama.
Di mana itu digunakan? Pelopor di antara agensi-agensi besar adalah Associated Press. Mereka menggunakan pembuatan konten otomatis untuk berita keuangan, di mana ada sedikit analitik, tetapi banyak angka dan bukti. Ada tiga vendor yang membuat perangkat lunak tersebut: Narrative Science, Automated Insights, dan Article Forge. Jika Anda pergi ke situs mereka, Anda dapat melihat banyak kasus nyata - contoh publikasi yang ditulis oleh robot. Semua artikel ini didasarkan pada beberapa bukti.

Apakah ada perbedaan nyata antara pembuatan dan pembuatan konten? Di Amerika Serikat dan Jerman, mereka melakukan penelitian, di mana sejumlah besar artikel ditampilkan kepada kelompok wartawan - masing-masing, dalam bahasa Inggris dan Jerman. Setengah dari teks ditulis oleh orang-orang, setengah oleh mesin. Rata-rata orang tidak bisa membedakannya. Dan ketika subjek diminta untuk mengklasifikasikan teks sesuai dengan keandalan dan minat mereka, ternyata mereka menemukan teks yang ditulis oleh mesin lebih dapat diandalkan. Pada saat yang sama, responden mencatat bahwa membacanya tidak semenarik artikel “manusia”.
Ternyata orang lebih baik melakukan konten yang menghibur. Dan jika Anda perlu membawa berita - gunakan mobil, mereka akan lebih percaya.Manfaat dan bahaya
Robot memungkinkan Anda untuk fokus pada konten yang ingin Anda tanam dalam konten, bukan pada proses yang membosankan untuk mengadaptasinya ke format yang berbeda. Keuntungan lain dari mesin adalah kecepatan reaksi: jika Anda perlu memproses informasi secara cepat, maka ini adalah alat Anda. Kami telah mengatakan tentang personalisasi pengguna, ini merupakan nilai tambah yang pasti. Keuntungan keempat adalah crowdsourcing: jika Anda menggunakan sejumlah besar sumber, mesin akan dapat secara otomatis mengklasifikasikan informasi yang diterima dari mereka, membedakan yang baik dari yang buruk, dan memilih yang memadai.

Ada potensi bahaya. Yang pertama adalah kamera gema. Konten yang mereka perlihatkan dipersonalisasi berdasarkan kesamaan minat saya - dengan mempertimbangkan apa yang sudah saya baca, dan minat orang-orang seperti saya. Jadi, setelah sejumlah iterasi, saya mulai memasak di bidang informasi tertutup saya.
Bahaya kedua adalah gelembung informasi. Jika Anda membuat semacam situasi fiksi, acara, mesin dapat menulis banyak versi publikasi yang terlihat asli. Dengan bantuan bot, jejaring sosial dan sebagainya, informasi yang keliru tersebut dapat disebarkan ke khalayak luas.

Sekarang mereka berbicara tentang apa yang disebut serangan permusuhan pada jaringan saraf. Contoh dengan logo KFC diberikan: jika Anda menunjukkan gambar seperti itu ke mobil self-driving, segera naik - kecerdasan buatan mengenali gambar sebagai tanda berhenti. Jika manipulasi semacam itu dimungkinkan dengan teks, maka serangkaian kata yang tidak bermakna yang sesuai dengan algoritma tertentu akan dapat memperoleh peringkat tinggi dari jaringan saraf, dan pembaca akan melihat semacam omong kosong.

Untungnya, dalam praktiknya, serangan seperti itu sangat sulit. Ingat bahwa jaringan saraf - seperti otak kita - membawa gambar apa pun sesuai dengan representasi internal. Lihat gambar: di sebelah kiri wajah, seperti yang kita lihat, dan di sebelah kanan - seperti yang dilihat jaringan saraf. Memiliki akses ke jaringan saraf itu sendiri, gambar dapat dipilih, seperti pada contoh dengan logo KFC. Bahkan, masalahnya juga diketahui dari kriptografi, karena merupakan analog dari peretasan fungsi hash. Jaringan saraf dalam kasus ini adalah fungsi hash: Anda mengubah teks panjang tertentu menjadi representasi internal kecil. Jika Anda mengambil sesuatu yang cocok - retas. Tetapi untuk dapat mengulangi, Anda perlu mengakses algoritma.
Bukan pesaing, tetapi asisten
Hampir semua publikasi tentang hal ini mengangkat masalah permintaan jurnalis di masa depan. Pertanyaannya, menurut saya, tidak sepenuhnya benar: seseorang akan diganti, seseorang tidak, tetapi jelas bahwa semua jurnalisme tidak dapat diganti dengan mesin. Seseorang akan menghasilkan bagi mereka hanya beberapa publikasi dasar, dangkal, sederhana. Masalahnya berbeda: karena publikasi dasar dapat dibuat secara otomatis dan dilakukan dengan mudah, persentase konten yang segera dihasilkan akan jauh lebih banyak daripada yang ditulis oleh orang-orang. Seperti yang telah kami ketahui, konten yang dihasilkan dianggap lebih baik dalam hal keandalan - dan ini memungkinkan Anda untuk membuat alat yang ampuh untuk memanipulasi kesadaran dan persepsi. Ini mungkin yang terburuk dan paling penting.

Untuk membuat konten menggunakan pembelajaran mesin, proses interaksi manusia-mesin digunakan - tidak secara terpisah, tetapi bersama-sama, berpasangan. Pertama, mesin mencari masalah informasi, mengklasifikasikannya, memperkirakan pentingnya, menghasilkan konten ... Ini adalah kasus untuk kasus ketika kami memiliki aliran besar berbagai jenis informasi, dan kami ingin segera menanggapinya. Jika Anda punya waktu untuk berpikir dan seterusnya, ini adalah skenario yang sama sekali berbeda. Konten yang disiapkan oleh mesin diberikan kepada jurnalis atau editor yang menonton, mengevaluasi, menambahkan. Lebih lanjut, teks dapat pergi ke publikasi atau lagi ke robot - untuk membentuk berbagai versi publikasi untuk audiens target yang berbeda. Setelah itu, mobil terlibat dalam personalisasi, memilih untuk masing-masing orang untuk menunjukkan kepadanya. Tentu saja, tidak di mana-mana ini diimplementasikan bersama-sama, tetapi alur kerja umum terlihat seperti ini.
Seseorang tidak dikecualikan dari proses persiapan konten. Robot tidak lebih dari alat tambahan yang mempercepat dan menyederhanakan proses, menghapus tugas rutin dari kami.
Laporan dari "
Berisi " dalam format video dapat dipesan di
sini . Untuk pengguna Habr, diskon pada kode promo habr_online_promo.
Terima kasih kepada para sponsor:
Teman, selama 10 hari berikutnya kami menerima aplikasi untuk kontes techno-teknis pada topik "Negara dan TI" dan mengundang semua penulis teknis untuk berpartisipasi. Anda dapat menceritakan kisah tentang teknologi, pengembangan, penyempurnaan layanan, perangkat berbagai sistem dan aplikasi, wawancara dengan pakar, pilihan peretasan kehidupan, ulasan, dan materi lainnya tentang topik - yang utama adalah bahwa mereka diterbitkan di Habré. Informasi terperinci di halaman kompetisi .