Suchen und sortieren Sie verwandte Texte

Es gibt eine einfache Methode, um eine Reihe von Texten nach Ähnlichkeit mit einem bestimmten Text zu sortieren: nach dem euklidischen Abstand zwischen den Häufigkeiten von Wörtern in den analysierten Texten. Grundsätzlich sollte der Algorithmus diesbezüglich klar sein, eine einfache Implementierung finden Sie hier .

Überraschenderweise liefert eine einfache Methode gute Ergebnisse. Wenn wir beispielsweise nach dem nächsten zu lesenden Buch suchen, können Sie den Text eines gelesenen Buches oder mehrerer gelesener Bücher als Suchmuster eingeben. Für dieses Repository mit 10 Büchern erhalten wir die folgenden Ergebnisse für das Buch „FAIRY TALES By The Brothers Grimm“: FAIRY TALES By The Brothers Grimm.

0.0320757 Repo\THE ADVENTURES OF TOM SAWYER.txt 0.0363329 Repo\A TALE OF TWO CITIES - A STORY OF THE FRENCH REVOLUTION.txt 0.0388528 Repo\ALICES ADVENTURES IN WONDERLAND.txt 0.0440605 Repo\MOBY-DICK or, THE WHALE.txt 0.046679 Repo\THE ADVENTURES OF SHERLOCK HOLMES.txt 0.0472574 Repo\The Iliad of Homer.txt 0.0511793 Repo\The Romance of Lust.txt 0.053746 Repo\PRIDE AND PREJUDICE.txt 0.0543531 Repo\BEOWULF - AN ANGLO-SAXON EPIC POEM.txt 0.0557194 Repo\Frankenstein; or, the Modern Prometheus.txt 

Wie aus den Ergebnissen hervorgeht, waren Märchenbücher am ähnlichsten und das Horrorbuch am wenigsten ähnlich.

Für kommerzielle Zwecke ist es möglich, ein solches Programm zu verwenden, um die am besten geeignete Werbung für eine bestimmte Webseite zu finden, indem der Text der vom Benutzer gelesenen Seite mit den Texten der Seiten verglichen wird, auf denen die vorhandenen Anzeigen führen.

Eine andere Anwendung besteht darin, einen Lebenslauf aus der Datenbank zu finden, der dem Beispiel eines Kandidaten entspricht, der für diese Position geeignet ist, aber nicht in das Unternehmen eintreten oder es verlassen möchte. Einen Ersatz für einen Mitarbeiter zu finden, ist kein so seltener Geschäftsfall. Sie können die Lebenslaufdatenbank auch nach Ähnlichkeit mit der Jobbeschreibung sortieren.

PS Übrigens produziert Habr in der Liste ähnlicher Artikel etwas nicht sehr Ähnliches. Kann Habru diese Methode auch anwenden?

Source: https://habr.com/ru/post/de422407/


All Articles