Ada metode sederhana untuk mengurutkan satu set teks berdasarkan kesamaan dengan teks yang diberikan: dengan jarak Euclidean antara frekuensi kata dalam teks yang dianalisis. Pada prinsipnya, algoritma harus jelas tentang ini, implementasi sederhana dapat
ditemukan di sini .
Anehnya, metode sederhana memberikan hasil yang baik. Misalnya, jika kami mencari buku berikutnya untuk dibaca, Anda dapat memasukkan teks buku baca atau beberapa buku baca sebagai pola pencarian, dan kemudian untuk repositori 10 buku ini kami mendapatkan hasil berikut untuk buku “FAIRY TALES By The Brothers Grimm”:
0.0320757 Repo\THE ADVENTURES OF TOM SAWYER.txt 0.0363329 Repo\A TALE OF TWO CITIES - A STORY OF THE FRENCH REVOLUTION.txt 0.0388528 Repo\ALICES ADVENTURES IN WONDERLAND.txt 0.0440605 Repo\MOBY-DICK or, THE WHALE.txt 0.046679 Repo\THE ADVENTURES OF SHERLOCK HOLMES.txt 0.0472574 Repo\The Iliad of Homer.txt 0.0511793 Repo\The Romance of Lust.txt 0.053746 Repo\PRIDE AND PREJUDICE.txt 0.0543531 Repo\BEOWULF - AN ANGLO-SAXON EPIC POEM.txt 0.0557194 Repo\Frankenstein; or, the Modern Prometheus.txt
Seperti dapat dilihat dari hasilnya, buku dongeng ditemukan paling mirip, dan buku horor adalah yang paling mirip.
Untuk tujuan komersial, dimungkinkan untuk menggunakan program semacam itu untuk menemukan iklan yang paling cocok untuk halaman web tertentu dengan membandingkan teks halaman yang dibaca oleh pengguna dengan teks-teks dari halaman di mana iklan yang ada memimpin.
Aplikasi lain adalah dalam menemukan resume dari database, mengikuti contoh resume kandidat yang cocok untuk posisi ini, tetapi tidak ingin bergabung atau meninggalkan perusahaan. Menemukan pengganti untuk karyawan bukanlah kasus bisnis yang langka. Anda juga dapat mengurutkan database resume berdasarkan kesamaan dengan deskripsi pekerjaan.
Ngomong-ngomong, Habr dalam daftar artikel serupa menghasilkan sesuatu yang tidak terlalu mirip. Bisakah Habru menerapkan metode ini juga?