Film di mana ada tanah. Penelitian Yandex dan sejarah singkat pencarian berdasarkan makna

Kadang-kadang orang beralih ke Yandex untuk menemukan film yang namanya muncul di kepala mereka. Mereka menggambarkan plot, adegan yang berkesan, detail yang jelas: misalnya, [apa nama film di mana seorang pria memilih pil merah atau biru]. Kami memutuskan untuk mempelajari deskripsi film yang terlupakan dan mencari tahu apa yang paling diingat oleh orang-orang di film.

Hari ini kami tidak hanya akan membagikan tautan ke penelitian kami, tetapi juga secara singkat berbicara tentang bagaimana pencarian semantik Yandex berkembang. Anda akan mempelajari teknologi apa yang membantu pencarian untuk menemukan jawabannya bahkan ketika itu tidak mungkin untuk merumuskan permintaan yang tepat.

Dan kami juga menambahkan slider teka-teki dengan contoh permintaan orang sungguhan - merasa seperti mesin pencari dan mencoba menebak jawabannya.


Semua mesin pencari dimulai dengan pencarian kata. Yandex sudah pada awalnya mampu memperhitungkan morfologi bahasa Rusia, tetapi masih mencari kata-kata yang sama dari permintaan pada halaman di jaringan. Kami menyimpan daftar semua halaman yang diketahui untuk setiap kata. Jika permintaan berisi frasa, maka itu cukup untuk melewati daftar kata - inilah jawabannya. Itu bekerja sangat baik pada masa itu ketika ada beberapa situs, dan pertanyaan tentang peringkat belum begitu akut.

Runet berkembang, situs menjadi semakin banyak. Dua faktor lagi ditambahkan ke kata crossing factor. Di satu sisi, para pengguna sendiri membantu kami. Kami mulai mempertimbangkan situs mana dan untuk pertanyaan apa yang mereka pilih. Tidak ada kecocokan kata yang tepat, tetapi apakah situs menyelesaikan masalah manusia? Ini adalah sinyal yang bermanfaat. Di sisi lain, tautan antara situs yang membantu mengevaluasi signifikansi halaman sampai pada penyelamatan.

Tiga faktor sangat sedikit. Terutama ketika mereka sering dicoba oleh pengoptimal mesin pencari yang sangat berbakat. Tetapi mencerna lebih banyak dengan tangan itu sulit. Dan di sini mulai era pembelajaran mesin. Pada tahun 2009, kami memperkenalkan Matrixnet berdasarkan peningkatan gradien (kemudian teknologi ini menjadi dasar pustaka sumber terbuka yang lebih canggih, CatBoost ).

Sejak itu, ada semakin banyak faktor, karena kita tidak lagi harus mencari hubungan di antara mereka secara manual. Sebuah mobil melakukannya untuk kita.

Untuk kisah semua perubahan selanjutnya dalam Pencarian, tidak hanya pos, tetapi juga buku-buku akan cukup, jadi kami akan mencoba untuk fokus pada yang paling signifikan.


Pemeringkatan bukan hanya perbandingan kata dan halaman permintaan untuk waktu yang lama. Dua contoh.

Kembali pada tahun 2014, kami memperkenalkan teknologi anotasi dokumen dengan pertanyaan karakteristik. Misalkan di masa lalu ada permintaan [seri dari Brasil tentang raja daging], yang jawabannya sudah diketahui. Kemudian pengguna lain memasukkan kueri [seri Brasil di mana ada raja daging dan raja susu], yang mesinnya belum tahu jawabannya. Tetapi pertanyaan ini memiliki banyak kata-kata umum. Ini adalah sinyal bahwa halaman yang ditemukan pada permintaan pertama mungkin relevan pada yang kedua.

Contoh lain. Mari kita bertanya [seri Brasil di mana ada raja daging dan raja susu] dan [warisan fatal berantai]. Dari total, mereka hanya memiliki satu kata - "seri", dan ini tidak cukup untuk pencocokan permintaan secara eksplisit. Dalam hal ini, kami mulai memperhitungkan riwayat pencarian. Jika ada dua permintaan yang berbeda dalam permintaan situs yang sama dalam penerbitan, maka kita dapat mengasumsikan bahwa permintaan tersebut dapat dipertukarkan. Ini berguna karena sekarang kita akan menggunakan teks dari kedua kueri untuk mencari untuk menemukan halaman yang lebih berguna. Tapi ini hanya berfungsi untuk permintaan berulang ketika setidaknya sudah ada beberapa statistik. Apa yang harus dilakukan dengan permintaan baru?

Kurangnya statistik dapat dikompensasi oleh analisis konten. Dan dalam analisis data homogen (teks, suara, gambar) jaringan saraf menunjukkan diri terbaik. Pada 2016, kami pertama kali memberi tahu komunitas Habr tentang teknologi Palekh , yang menjadi titik awal untuk penggunaan yang lebih luas dari jaringan saraf dalam Pencarian.

Kami mulai melatih jaringan saraf untuk membandingkan kedekatan semantik (semantik) dari teks permintaan dan judul halaman. Dua teks direpresentasikan dalam bentuk vektor dalam ruang multidimensi sehingga kosinus sudut di antara mereka dengan baik memprediksi kemungkinan seseorang memilih halaman, dan karenanya kedekatan semantik. Ini memungkinkan Anda untuk mengevaluasi kedekatan makna bahkan teks-teks di mana tidak ada persimpangan kata.

Contoh arsitektur layer untuk yang penasaran
gambar

Dengan cara yang sama, kami mulai membandingkan teks kueri untuk mengidentifikasi tautan di antara mereka. Sebuah contoh nyata dari bawah kap mesin pencarian: untuk permintaan [seri Amerika tentang bagaimana metamfetamin direbus], itu adalah jaringan saraf yang menemukan frasa [berarti buruk] dan [merusak buruk] sebagai makna yang serupa.

Permintaan dan tajuk sudah bagus, tetapi kami tidak menyerah untuk menggunakan jaringan saraf dalam teks lengkap halaman. Selain itu, ketika kami menerima permintaan pengguna, kami mulai memilih halaman terbaik di antara jutaan halaman indeks, tetapi di Palekh kami menggunakan model jaringan saraf hanya pada tahap peringkat terbaru (L3) - ke sekitar 150 dokumen terbaik. Hal ini dapat menyebabkan hilangnya jawaban yang baik.

gambar

Alasannya dapat diprediksi - sumber daya terbatas dan persyaratan tinggi untuk kecepatan respons. Batasan ketat dari kalkulasi dihubungkan dengan fakta sederhana: Anda tidak dapat memaksa pengguna untuk menunggu. Tapi kemudian kami menemukan sesuatu.


Pada 2017, kami menyajikan pembaruan pencarian Korolev, yang mencakup tidak hanya perluasan penggunaan jaringan saraf, tetapi juga pekerjaan serius pada arsitektur untuk menghemat sumber daya. Secara lebih rinci, dengan diagram lapisan dan detail lainnya kami sudah memberi tahu di posting lain tentang Habré, tapi sekarang kami akan mengingatkan hal utama.

Alih-alih mengambil judul dokumen dan menghitung vektor semantiknya selama eksekusi query, Anda dapat melakukan pra-perhitungan vektor ini dan menyimpannya dalam database pencarian. Dengan kata lain, kita dapat melakukan sebagian besar pekerjaan sebelumnya. Tentu saja, pada saat yang sama, kami membutuhkan lebih banyak ruang untuk menyimpan vektor, tetapi ini menghemat waktu prosesor kami. Tapi itu belum semuanya.

Skema lain untuk yang penasaran
gambar

Kami membangun indeks tambahan. Ini didasarkan pada hipotesis: jika Anda mengambil daftar dokumen yang paling relevan yang cukup besar untuk setiap kata atau frasa untuk kueri beberapa kata, maka di antara mereka akan ada dokumen yang relevan pada saat yang sama untuk semua kata. Dalam praktiknya, ini artinya. Untuk semua kata dan pasangan kata yang populer, indeks tambahan dibentuk dengan daftar halaman dan relevansi awal mereka dengan kueri. Yaitu, kami mentransfer sebagian pekerjaan dari tahap L0 ke tahap pengindeksan dan, sekali lagi, menyimpan.

Akibatnya, perubahan arsitektur dan redistribusi beban memungkinkan kami untuk menggunakan jaringan saraf tidak hanya pada tahap L3, tetapi juga untuk L2 dan L1. Selain itu, kemampuan untuk membentuk vektor di muka dan dengan persyaratan kinerja yang lebih ketat memungkinkan kami untuk menggunakan tidak hanya judul halaman, tetapi juga teksnya.


Lebih banyak lebih. Seiring waktu, kami mulai menggunakan jaringan saraf pada tahap peringkat paling awal. Kami mengajarkan jaringan saraf untuk mengidentifikasi pola implisit dalam urutan kata dan posisi relatif mereka. Dan bahkan untuk mengungkapkan kesamaan semantik teks dalam berbagai bahasa. Masing-masing bidang ditarik ke artikel yang terpisah, dan kami akan mencoba untuk kembali dengan mereka dalam waktu dekat.



Hari ini, kami sekali lagi mengingat bagaimana mesin pencari belajar untuk menemukan jawaban dalam kondisi pertanyaan yang tidak jelas dan kurangnya informasi. Mencari film dengan deskripsi mereka tidak hanya kasus khusus dari permintaan seperti itu, tetapi juga topik yang bagus untuk penelitian . Dari sini Anda akan belajar: apa yang paling diingat oleh orang-orang di bioskop, yang terkait dengan genre dan sinematografi berbeda dari negara yang berbeda, yang bergerak plot membuat kesan khusus.

Source: https://habr.com/ru/post/id464315/


All Articles