Wir haben die alten Briefe aussortiert und sind auf einen Artikel gestoĂen, den Ilya Segalovich iseg bereits 2002 fĂŒr die Zeitschrift âWorld of Internetâ geschrieben hat. Darin vergleicht er das Internet und Suchmaschinen mit den Wundern der Welt, reflektiert Suchtechnologien und erinnert sich an deren Geschichte. Trotz der Arbeitsbelastung schrieb Ilya in Rekordzeit einen Artikel und lieferte sogar ein ausreichend detailliertes Glossar mit Begriffen, das heute besonders interessant zu lesen ist. Wir konnten keine elektronische Version des Magazins mit dem Artikel finden, deshalb veröffentlichen wir ihn heute in unserem Blog, dessen erster Autor ĂŒbrigens Ilya war.
Hunderte von
Suchmaschinen wurden auf der Welt geschrieben. Wenn Sie die Suchfunktionen zĂ€hlen, die in einer Vielzahl von Programmen implementiert sind, mĂŒssen Sie Tausende im Auge behalten. UnabhĂ€ngig davon, wie der Suchprozess implementiert ist und auf welchem ââmathematischen Modell er basiert, sind die Ideen und Programme, die die Suche implementieren, recht einfach. Obwohl diese Einfachheit anscheinend zu der Kategorie gehört, von der sie sagen "einfach, aber funktioniert". Auf die eine oder andere Weise, aber es waren Suchmaschinen, die zu einem von zwei neuen Weltwundern wurden und Homo Sapiens uneingeschrĂ€nkten und sofortigen Zugang zu Informationen ermöglichten. Das erste Wunder kann natĂŒrlich als das Internet als solches mit seinen FĂ€higkeiten zur universellen Kommunikation betrachtet werden.
Historische Suchmaschinen
Es ist weit verbreitet, dass jede neue Generation von Programmen perfekter ist als die vorherige. Sagen wir, bevor alles unvollkommen war, herrscht jetzt ĂŒberall fast
kĂŒnstliche Intelligenz . Ein weiterer extremer Gesichtspunkt ist, dass "alles Neue gut vergessen ist, alt". Ich denke, dass in Bezug auf Suchmaschinen die Wahrheit irgendwo dazwischen liegt.
Aber was hat sich in den letzten Jahren wirklich geĂ€ndert? Keine Algorithmen oder Datenstrukturen, keine mathematischen Modelle. Obwohl sie auch. Das Paradigma der Verwendung von Systemen hat sich geĂ€ndert. Einfach ausgedrĂŒckt, eine Hausfrau, die nach einem gĂŒnstigeren BĂŒgeleisen suchte, und ein Absolvent eines Hilfsinternats in der Hoffnung, einen Automechaniker zu finden, waren mit der Suchzeile auf dem Bildschirm sĂŒchtig. Neben dem Auftreten eines Faktors, der in der Zeit vor dem Internet unmöglich war - ein Faktor fĂŒr die Gesamtnachfrage nach Suchmaschinen - wurden einige weitere Ănderungen sichtbar. ZunĂ€chst wurde klar, dass Menschen nicht nur âmit Worten denkenâ, sondern auch ânach Worten suchenâ. In der Antwort des Systems erwarten sie, dass das in die Abfragezeichenfolge eingegebene Wort angezeigt wird. Und zweitens: Es ist schwierig, einen Suchenden neu zu schulen, um zu suchen, genauso wie es schwierig ist, zu sprechen oder zu schreiben. Die TrĂ€ume der 60er und 80er Jahre ĂŒber die iterative Verfeinerung von Abfragen, ĂŒber das Verstehen der natĂŒrlichen Sprache, ĂŒber das Suchen nach Bedeutungen, ĂŒber das Generieren einer kohĂ€renten Antwort auf eine Frage können den grausamen Test der RealitĂ€t derzeit kaum bestehen.
Algorithmus + Datenstruktur = Suchmaschine
Wie jedes Programm arbeitet die Suchmaschine mit Datenstrukturen und fĂŒhrt einen Algorithmus aus. Die Vielfalt der Algorithmen ist nicht sehr groĂ, aber es ist. Abgesehen von Quantencomputern, die uns einen magischen Durchbruch in der "algorithmischen KomplexitĂ€t" der Suche versprechen und von denen der Autor fast nichts weiĂ, gibt es vier Klassen von Suchalgorithmen. Drei von vier Algorithmen erfordern eine "Indizierung", eine vorlĂ€ufige Verarbeitung von Dokumenten, wodurch eine Hilfsdatei erstellt wird, dh der "Index", der die Suche selbst vereinfachen und beschleunigen soll. Dies sind Algorithmen fĂŒr
invertierte Dateien, SuffixbĂ€ume und Signaturen . In einem entarteten Fall gibt es keinen vorlĂ€ufigen Indizierungsschritt, und die Suche wird durch sequentielles Anzeigen von Dokumenten durchgefĂŒhrt. Eine solche Suche nennt man
direkt .
Direkte Suche
Die einfachste Version ist vielen bekannt, und es gibt keinen Programmierer, der solchen Code nicht mindestens einmal in seinem Leben schreiben wĂŒrde:
Trotz ihrer offensichtlichen Einfachheit hat sich die direkte Suche in den letzten 30 Jahren intensiv entwickelt. Es wurde eine betrĂ€chtliche Anzahl von Ideen vorgebracht, die die Suchzeit zeitweise verkĂŒrzen. Diese Algorithmen werden in einer Vielzahl von Literaturstellen ausfĂŒhrlich beschrieben, es gibt ihre Zusammenfassungen und Vergleiche. Gute Bewertungen direkter Suchmethoden finden sich in LehrbĂŒchern wie
Sedgwick oder
Cormen . Es sollte berĂŒcksichtigt werden, dass stĂ€ndig neue Algorithmen und ihre verbesserten Optionen erscheinen.
Obwohl das direkte Betrachten aller Texte eine eher langsame Aufgabe ist, sollten Sie nicht glauben, dass im Internet keine direkten Suchalgorithmen verwendet werden. Die norwegische Suchmaschine Fast (www.fastsearch.com) verwendete einen
Chip , der die direkte Suchlogik vereinfachter regulĂ€rer AusdrĂŒcke implementiert, und platzierte 256 dieser Chips auf einer Karte. Dies ermöglichte es Fast, eine ziemlich groĂe Anzahl von Anfragen pro Zeiteinheit zu bedienen.
DarĂŒber hinaus gibt es viele Programme, die die Indexsuche kombinieren, um einen Textblock mit einer weiteren direkten Suche innerhalb des Blocks zu finden. Zum Beispiel ist ein
Blick sehr beliebt, auch bei Runet.
Im Allgemeinen weisen direkte Algorithmen grundsĂ€tzlich Win-Win-Besonderheiten auf. Zum Beispiel unbegrenzte Möglichkeiten fĂŒr die ungefĂ€hre und unscharfe Suche. In der Tat ist jede Indizierung immer mit der Vereinfachung und Normalisierung von Begriffen und folglich mit dem Verlust von Informationen verbunden. Die direkte Suche funktioniert direkt auf den Originaldokumenten ohne Verzerrung.
Invertierte Datei
Diese einfache Datenstruktur ist trotz ihres mysteriösen Fremdnamens jeder gebildeten Person und jedem Datenbankprogrammierer, der sich noch nicht einmal mit der Volltextsuche befasst hat, intuitiv vertraut. Die erste Kategorie von Menschen weiĂ, was es ist, nach "Konkordanzen" - alphabetisch geordnete erschöpfende Listen von Wörtern aus einem Text oder von einem Autor (zum Beispiel "Konkordanz zu Versen von A. S. Puschkin", "Wörterbuch-Konkordanz des Journalismus von F. M. Dostoevsky"). ) Letztere behandeln die eine oder andere Form der invertierten Liste, wenn sie den "Datenbankindex nach SchlĂŒsselfeld" erstellen oder verwenden.
Wir werden diese Struktur mit Hilfe der wunderbaren russischen Konkordanz
âSymphonieâ veranschaulichen, die vom Moskauer Patriarchat zum Text der synodalen Ăbersetzung der Bibel herausgegeben wurde.

Dies ist eine alphabetische Liste von Wörtern. FĂŒr jedes Wort werden alle âPositionenâ aufgelistet, an denen dieses Wort vorkommt. Der Suchalgorithmus besteht darin, das richtige Wort zu finden und eine bereits erweiterte Liste von Positionen in den Speicher zu laden.
Um Speicherplatz zu sparen und die Suche zu beschleunigen, greifen Sie normalerweise auf zwei Tricks zurĂŒck. Erstens können Sie die Details der Position selbst speichern. Je detaillierter eine solche Position festgelegt ist, z. B. bei âSymphonyâ (Buch + Kapitel + Vers), desto mehr Speicherplatz wird zum Speichern der invertierten Datei benötigt.
In der detailliertesten Version können Sie in der invertierten Datei die Wortnummer und den Versatz in Bytes vom Anfang des Textes sowie die Farbe und GröĂe der Schriftart und vieles mehr speichern. HĂ€ufiger geben sie einfach nur die Nummer des Dokuments an, beispielsweise ein Buch der Bibel, und die Anzahl der Verwendungen dieses Wortes darin. Es ist eine solche vereinfachte Struktur, die in der klassischen Theorie des Information Retrieval - Information Retrieval (IR) als grundlegend angesehen wird.
Die zweite (nicht mit der ersten verwandte) Komprimierungsmethode: Ordnen Sie die Positionen fĂŒr jedes Wort in aufsteigender Reihenfolge der Adressen an und speichern Sie fĂŒr jede Position nicht ihre vollstĂ€ndige Adresse, sondern den Unterschied zur vorherigen. So sieht diese Liste fĂŒr unsere Seite unter der Annahme aus, dass wir uns an die Position bis zur Kapitelnummer erinnern:
: [.1],[+11],[0],[+2],[+4],[+2],[+4],..
DarĂŒber hinaus wird der Differenzmethode zum Speichern von Adressen eine einfache Art des Packens auferlegt: Warum sollte einer kleinen Ganzzahl eine feste "groĂe" Anzahl von Bytes zugewiesen werden, da Sie ihr fast so viele Bytes geben können, wie sie verdient? Hier ist es angebracht, die Golomb-Codes oder die eingebaute Funktion der beliebten Perl-Sprache zu erwĂ€hnen:
pack(âwâ)
.
In der Literatur gibt es auch eine schwerere Artillerie von Verpackungsalgorithmen des breitesten Bereichs: Arithmetik, Huffman, LZW usw. Die Fortschritte in diesem Bereich sind kontinuierlich. In der Praxis werden sie in Suchmaschinen selten verwendet: Der Gewinn ist gering und die Prozessorleistung wird ineffizient verbraucht.
Aufgrund aller beschriebenen Tricks betrĂ€gt die GröĂe der invertierten Datei in der Regel 7 bis 30 Prozent der GröĂe des Quelltextes, abhĂ€ngig von den Adressierungsdetails.
Im Roten Buch aufgefĂŒhrt
Wiederholt andere als invertierte und direkte Suchalgorithmen und Datenstrukturen vorgeschlagen. Dies sind zunĂ€chst SuffixbĂ€ume (siehe BĂŒcher von
Manber und
Gonnet ) sowie
Unterschriften .
Der erste von ihnen funktionierte im Internet und war ein patentierter Algorithmus des Suchsystems
OpenText . Ich bin auf Suffix-Indizes in inlĂ€ndischen Suchmaschinen gestoĂen.
Die zweite - die Signaturmethode - ist eine Dokumentkonvertierung in Blocktabellen der
Hashwerte ihrer Wörter - die "Signatur" und die sequentielle Anzeige der "Signaturen" wÀhrend der Suche.
Keine der beiden Methoden war weit verbreitet und verdiente daher keine ausfĂŒhrliche Diskussion in diesem kurzen Artikel.
Mathematische Modelle
Etwa 3 von 5 Suchmaschinen und Modulen arbeiten ohne mathematische Modelle. Genauer gesagt, ihre Entwickler stellen sich nicht die Aufgabe, ein abstraktes Modell zu implementieren, und / oder sind sich seiner Existenz nicht bewusst. Das Prinzip hier ist einfach: Wenn nur das Programm etwas findet. Jedenfalls. Und dann wird der Benutzer es herausfinden.
Sobald es jedoch darum geht, die QualitĂ€t der Suche zu verbessern, ĂŒber eine groĂe Menge an Informationen, ĂŒber den Fluss von Benutzeranfragen, zusĂ€tzlich zu empirisch festgelegten Koeffizienten, erweist es sich als nĂŒtzlich, mit einer Art einfacher theoretischer Vorrichtung zu arbeiten.
Das Suchmodell ist eine gewisse Vereinfachung der RealitĂ€t, auf deren Grundlage eine Formel erhalten wird (die von niemandem mehr benötigt wird), die es dem Programm ermöglicht, eine Entscheidung zu treffen: Welches Dokument sollte als gefunden betrachtet werden und wie es zu bewerten ist. Nach der Ăbernahme des Modells erhalten die Koeffizienten hĂ€ufig eine physikalische Bedeutung und werden fĂŒr den Entwickler selbst verstĂ€ndlicher, und es wird interessanter, sie auszuwĂ€hlen.
Die gesamte Vielfalt der Modelle des traditionellen Information Retrieval (IR) wird normalerweise in drei Typen unterteilt: satztheoretisch (Boolesche, Fuzzy-Mengen, erweiterte Boolesche Werte),
algebraisch (Vektor, generalisierter Vektor, latent-semantisches, neuronales Netzwerk) und probabilistisch.
Die boolesche Modellfamilie ist in der Tat die erste, die einem Programmierer in den Sinn kommt, der die Volltextsuche implementiert. Es gibt ein Wort - ein Dokument gilt als gefunden, nein - nicht gefunden. TatsĂ€chlich ist das klassische Boolesche Modell eine BrĂŒcke, die die Theorie des Informationsabrufs mit der Theorie der Suche und Datenmanipulation verbindet.
Die Kritik am ziemlich fairen Booleschen Modell besteht in seiner extremen Starrheit und Ungeeignetheit fĂŒr das Ranking. Daher
schlugen Joyce und Needham (Joyce und Needham) 1957 vor, die Frequenzcharakteristika von Wörtern zu berĂŒcksichtigen, damit "... die Vergleichsoperation das VerhĂ€ltnis des Abstands zwischen den Vektoren ist ...".
Das Vektormodell wurde 1968 vom GrĂŒndungsvater der Wissenschaft des Informationsabrufs Gerard Salton (Gerard Salton)
* in der Suchmaschine SMART (Saltons Magical Automatic Retriever of Text) erfolgreich implementiert. Die Rangfolge in diesem Modell basiert auf einer natĂŒrlichen statistischen Beobachtung, dass das Gewicht dieses Dokuments in Bezug auf den Begriff umso höher ist, je gröĂer die lokale HĂ€ufigkeit eines Begriffs in einem Dokument (TF) und je âseltenerâ (dh das
Auftreten von RĂŒckgaben in Dokumenten ) eines Begriffs in einer Sammlung (IDF) ist .
* Gerard Salton (Sahlman) 1927-1995. Er ist Selton, er ist Zalton und sogar Zalman, er ist Gerard, Gerard, Gerard oder sogar Gerald, je nach Geschmack des Ăbersetzers und den gemachten Tippfehlern.
http://www.cs.cornell.edu/Info/Department/Annual95/Faculty/Salton.html
http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/s/Salton:Gerald.html
http://www.cs.virginia.edu/~clv2m/salton.txt
Die IDF-Bezeichnung wurde 1972 von Karen Sparck-Jones (Karen Spark-Jones) in einem
Artikel ĂŒber den
Begriff SpezifitĂ€t eingefĂŒhrt . Von nun an wird die Bezeichnung TF * IDF hĂ€ufig als Synonym fĂŒr das Vektormodell verwendet.
SchlieĂlich begrĂŒndeten und implementierten Robertson und Sparck-Jones (
Robertson und Spark-Jones) 1977 ein
probabilistisches Modell (bereits 1960
vorgeschlagen ), das auch den Grundstein fĂŒr eine ganze Familie legte.
Die Relevanz in diesem Modell wird als die Wahrscheinlichkeit angesehen, dass dieses Dokument fĂŒr den Benutzer von Interesse ist. Dies impliziert das Vorhandensein eines bereits vorhandenen anfĂ€nglichen Satzes relevanter Dokumente, die vom Benutzer ausgewĂ€hlt oder unter einer vereinfachten Annahme automatisch empfangen wurden. Die Wahrscheinlichkeit, fĂŒr jedes nachfolgende Dokument relevant zu sein, wird basierend auf dem VerhĂ€ltnis des Auftretens von Begriffen in der relevanten Menge zum Rest des âirrelevantenâ Teils der Sammlung berechnet. Obwohl probabilistische Modelle einen gewissen theoretischen Vorteil haben, weil sie Dokumente in absteigender Reihenfolge der âWahrscheinlichkeit, relevant zu seinâ anordnen, haben sie in der Praxis nicht viel Verbreitung erhalten.
Ich werde nicht auf Details eingehen und sperrige Formeln fĂŒr jedes Modell schreiben. Ihre Zusammenfassung umfasst zusammen mit der Diskussion 35 Seiten in komprimierter Form im Buch
âModern Information Searchâ . Es ist nur wichtig zu beachten, dass in jeder der Familien das einfachste Modell von der Annahme der WortunabhĂ€ngigkeit ausgeht und eine einfache Filterbedingung aufweist: Dokumente, die keine Abfragewörter enthalten, werden nie gefunden. Erweiterte ("alternative") Modelle jeder Familie betrachten das Abfragewort nicht als unabhĂ€ngig, sondern ermöglichen es Ihnen auĂerdem, Dokumente zu finden, die kein einziges Wort aus der Abfrage enthalten.
Suche "nach Sinn"
Die FĂ€higkeit, Dokumente zu finden und zu bewerten, die keine Wörter aus der Abfrage enthalten, wird hĂ€ufig als Zeichen kĂŒnstlicher Intelligenz oder als Suche nach Bedeutung angesehen, und a priori beziehen sie sich auf die Vorteile des Modells. Die Frage, ob dies so ist oder nicht, werden wir auĂerhalb des Geltungsbereichs dieses Artikels belassen.
Zum Beispiel werde ich nur ein, vielleicht das beliebteste Modell beschreiben, das nach Bedeutung funktioniert. In der Theorie des Informationsabrufs wird dieses Modell als
latent-semantische Indizierung bezeichnet (mit anderen Worten, um verborgene Bedeutungen aufzudecken). Dieses algebraische Modell basiert auf der singulĂ€ren Zerlegung einer rechteckigen Matrix, die Wörter mit Dokumenten verknĂŒpft. Das Element der Matrix ist ein Frequenzgang, der den Grad der Verbindung des Wortes und des Dokuments widerspiegelt, beispielsweise TF * IDF. Anstelle der ursprĂŒnglichen millionstel-dimensionalen Matrix schlugen die Autoren der
Furnas- und
Deerwester-Methode vor,
50-150 âversteckte Bedeutungenâ zu verwenden, die den ersten
Hauptkomponenten ihrer singulÀren Zerlegung entsprechen .
Eine singulĂ€re Zerlegung einer reellen Matrix A der GröĂen m * n heiĂt jede Zerlegung der Form A = USV, wobei U die orthogonale Matrix der GröĂen m * m ist, V die orthogonale Matrix der GröĂen n * n ist, S die diagonale Matrix der GröĂen m * n ist, deren Elemente s ij sind = 0, wenn i nicht gleich j ist und s ii = s i > = 0. Die GröĂen si heiĂen Singularzahlen der Matrix und sind gleich den arithmetischen Werten der Quadratwurzeln der entsprechenden Eigenwerte der Matrix AA T. In der englischen Literatur wird die singulĂ€re Zerlegung ĂŒblicherweise als SVD-Zerlegung bezeichnet .
Es wurde vor langer Zeit
bewiesen , dass wir, wenn wir die ersten k Singularzahlen in Betracht ziehen (den Rest mit Null gleichsetzen), die bestmögliche AnnĂ€herung an die anfĂ€ngliche Matrix von Rang k erhalten (in gewissem Sinne ihre âengste semantische Interpretation von Rang kâ). Indem wir den Rang verringern, filtern wir irrelevante Details heraus. Zunehmend versuchen wir, alle Nuancen der Struktur realer Daten widerzuspiegeln.
Das Suchen oder Finden
Ă€hnlicher Dokumente wird erheblich vereinfacht, da jedem Wort und jedem Dokument ein relativ kurzer Vektor von k Bedeutungen (Zeilen und Spalten der entsprechenden Matrizen) zugeordnet ist. Aufgrund der geringen Aussagekraft der âBedeutungenâ oder
aus einem anderen Grund ist die Verwendung von LSI in der Stirn fĂŒr die Suche jedoch noch nicht weit verbreitet. Obwohl diese Methode fĂŒr Hilfszwecke (automatische Filterung, Klassifizierung, Trennung von Sammlungen, vorlĂ€ufige Absenkung der Abmessungen fĂŒr andere Modelle) Anwendung zu finden scheint.
QualitÀtsbewertung
Die KonsistenzprĂŒfung hat gezeigt, dass die Ăberlappung relevanter Dokumente zwischen zwei beliebigen Assesoren im Durchschnitt in der GröĂenordnung von 40% liegt ... Cross-Assesor-RĂŒckruf und Genauigkeit von etwa 65% ... Dies impliziert eine praktische Obergrenze fĂŒr die Leistung des Abrufsystems von 65% ...
Donna Harman
Was wir von TREC gelernt und nicht gelernt haben
Ăbersetzung"... eine StabilitĂ€tsprĂŒfung ergab, dass die Ăberlappung relevanter Dokumente zwischen zwei beliebigen Bewertern durchschnittlich etwa 40% betrĂ€gt ... die zwischen den Bewertern gemessene Genauigkeit und VollstĂ€ndigkeit betrĂ€gt etwa 65% ... Dies legt eine praktische Obergrenze fĂŒr die QualitĂ€t der Suche in der Region von 65% fest ..."
UnabhĂ€ngig vom Modell muss die Suchmaschine âoptimiertâ werden - eine Bewertung der QualitĂ€t der Suche und der Optimierung der Parameter. Die QualitĂ€tsbewertung ist eine grundlegende Idee fĂŒr die Suchtheorie. Dank der QualitĂ€tsbewertung können wir ĂŒber die Anwendbarkeit oder Nichtanwendbarkeit eines bestimmten Modells sprechen und sogar deren theoretische Aspekte diskutieren.
Eine der natĂŒrlichen EinschrĂ€nkungen der SuchqualitĂ€t ist insbesondere die im Epigraph gemachte Beobachtung: Die Meinungen von zwei âGutachternâ (Experten, die ein Urteil ĂŒber die Relevanz abgeben) stimmen im Durchschnitt nicht sehr stark ĂŒberein! Dies impliziert auch die natĂŒrliche Obergrenze der SuchqualitĂ€t, da die QualitĂ€t durch Vergleich mit der Meinung des Bewerters gemessen wird.
Normalerweise werden zwei Parameter gemessen, um die QualitÀt einer Suche zu beurteilen:
- PrÀzision - der Anteil des relevanten Materials in einer Suchmaschinenantwort
- VollstĂ€ndigkeit (RĂŒckruf) - Der Anteil der relevanten Dokumente an der Gesamtzahl der relevanten Sammlungsdokumente
Diese Parameter wurden verwendet und werden regelmĂ€Ăig verwendet, um Modelle und ihre Parameter im Rahmen der vom American Institute of Standards (NIST) erstellten Text Retrieval Evaluation Conference (TREC)
* auszuwĂ€hlen. Ab 1992, einem Konsortium aus 25 Gruppen, hat die Konferenz bis zum 12. Jahr ihres Bestehens bedeutendes Material gesammelt, an dem Suchmaschinen noch immer weiterentwickelt werden. FĂŒr jede regulĂ€re Konferenz wird in jedem der interessierenden Bereiche neues Material vorbereitet (der sogenannte âTrackâ). Der âTrackâ enthĂ€lt eine Sammlung von Dokumenten und Anfragen. Ich werde Beispiele geben:
- Verfolgen Sie zufÀllige Anfragen (
ad hoc ) - bei allen Konferenzen vorhanden
- Mehrsprachige Suche
- Routing und Filterung
- HochprĂ€zise Suche (mit einer einzigen Antwort, pĂŒnktlich durchgefĂŒhrt)
- Benutzerinteraktion
- Pfad in natĂŒrlicher Sprache
- Antworten auf Fragen"
- Suchen Sie in "schmutzigen" (gerade gescannten) Texten
- Sprachsuche
- Suchen Sie in einem sehr groĂen Fall (20 GB, 100 GB usw.)
- WEB Corps (auf den letzten Konferenzen wird es durch eine Auswahl fĂŒr die .gov-Domain vertreten)
- Verteilte Suche und ZusammenfĂŒhren von Suchergebnissen aus verschiedenen Systemen
* Konferenzmaterialien sind unter trec.nist.gov/pubs.html öffentlich verfĂŒgbar.Nicht nur suchen
Wie aus den TREC- âPfadenâ ersichtlich ist, sind eine Reihe von Aufgaben eng mit der Suche selbst verbunden, entweder mit einer gemeinsamen Ideologie (Klassifizierung, Routing, Filterung, Annotation) oder als integraler Bestandteil des Suchprozesses (Clustering von Ergebnissen, Erweitern und Eingrenzen von Abfragen, Feedback, "AbfrageabhĂ€ngige" Annotation, SuchoberflĂ€che und Abfragesprachen). Es gibt keine einzige Suchmaschine, die in der Praxis mindestens eine dieser Aufgaben nicht lösen mĂŒsste.
Oft ist das Vorhandensein der einen oder anderen zusÀtzlichen Eigenschaft ein entscheidendes Argument im Wettbewerb der Suchmaschinen. Beispielsweise helfen kurze Anmerkungen, die aus informativen Zitaten eines Dokuments bestehen, mit denen einige Suchmaschinen die Ergebnisse ihrer Arbeit begleiten, ihnen, der Konkurrenz einen halben Schritt voraus zu sein.
Es ist unmöglich, ĂŒber alle Aufgaben zu erzĂ€hlen und wie man sie löst. Betrachten Sie beispielsweise die "Abfrageerweiterung", die normalerweise durch die Suche nach zugehörigen Begriffen durchgefĂŒhrt wird. Die Lösung fĂŒr dieses Problem ist in zwei Formen möglich - lokal (dynamisch) und global (statisch). Lokale Techniker verlassen sich auf den Abfragetext und analysieren nur die darauf gefundenen Dokumente. Globale âErweiterungenâ können mit Thesauri betrieben werden, sowohl a priori (sprachlich) als auch automatisch in der gesamten Dokumentensammlung erstellt. Nach allgemeiner Meinung funktionieren globale Abfragemodifikationen durch Thesauri ineffizient und verringern die Genauigkeit der Suche. Ein erfolgreicher globaler Ansatz basiert auf manuell erstellten statischen Klassifizierungen wie WEB-Verzeichnissen. Dieser Ansatz wird in Internet-Suchmaschinen hĂ€ufig bei Eingrenzungs- oder Abfrageerweiterungen verwendet.
HĂ€ufig basiert die Implementierung zusĂ€tzlicher Funktionen auf denselben oder sehr Ă€hnlichen Prinzipien und Modellen wie die Suche selbst. , , , ( â TF*IDF), .
(relevance feedback),
() , .
, ,
«Term Vector Database» , «» ( ).
Sprachwissenschaft
, . . , (, , ), . , (,
) , . , , :
â
â
( ): ,
â (
- )
â
(,
):
«», ,
â () (, )
â
:
â
,
. - (LSI, ), - , .
âThings that work well on TREC often do not produce good results on the web⊠Some argue that on the web, users should specify more accurately what they want and add more words to their query. We disagree vehemently with this position. If a user issues a query like «Bill Clinton» they should get reasonable results since there is a enormous amount of high quality information available on this topicâ
Sergei Brin, Larry Page
The Anatomy of a Large-Scale Hypertextual Web Search Engine
Ăbersetzung«, TREC, ⊠, , , . . « », , ...»
«I was struck when a Google person told me at SIGIR that the most recent Google ranking algorithm completely ignores anything discovered at TREC, because all the good Ad Hoc ranking algorithms developed over the 10 years of TREC get trashed by spam»
Mark Sanderson
Ăbersetzung« , - Google , TREC, , « » ...»
, : ?
, , , - , ( , . .) .
(off-page) , Ì , . , , , , â .
C , -. , «» , .
, ,
, « » , , .
, , , , , . (
â ), . .
.
. , 1999-2000 . ( ) , .
( ) , . ,
. 1998 .
, , . 1998
PageRank â , , . , (, , 80- ), .
, PageRank, ( , ) â
HITS ,
- . , (. . ) , .
, , , . , , : , . . , : (,
www.teoma.com ), ..,
.
.
, . , Google Fast, . : «» , , 100 , 30% â . .
, , : , .. , , , « ».
. : ; â .
â , , , . . : , , , , . . , .
, , , : , , .
, , . - .
Udi Manber ( ) ( agrep) 1994
, Andrei Broder ( ) 1997-
«» ( shingles, «», «»). .

(
). , , , . (, , 9) , , , 25. , . , â , , , , ( ) : ! 25 !
, , .. : « » ! . ( ; , 0%; .)
,
,
- ,
. , (
), -.
. , . .
, , . , 1997 ( Inktomi) 32- (Linux, Solaris, FreeBSD, Win32) . AltaVista, «» 64- Alpha.
(, , c)
. . , , , , . Pruning ( . , ) , . pruning, , .
â , , . , .
, (, - )
. , , , , : , .
, , , . , , , . , , , 2-4 , , , , . .
(assesor, ) â , , .
(boolean, , , ) â , , .
â , , â .
â , .
(off-page, ) â , , .
(doorways, hallways) â , ( ). .
(tagging, part of speech disambiguation, ) â c ; « ».
(duplicates) â , , ; (near duplicates, -), , .
â , , .
(inverted file, , , ) â , , , .
(index, ) â . .
(citation index) â () , , , .
(indexing, ) â ( ) â , .
(Information Retrieval, IR) â , . , . , . « », , . , , (), , , .
(cloaking) â , ( ) , , .
â . .
- â , . .
(lemmatization, ) â , .
â . .
â , .
(inverted document frequency, IDF, , ) â ( ); «» , , .
â , , , , . â , .
â . .
â , () .
â , , .
(similar document search) â , , .
(search engine, SE, - , , , , «», «») â , , .
(query, ) â .
(polysemy, homography, , , ) â .
(recall, ) â , , .
- (near-duplicates, ) â . .
(pruning) â .
â , ( ).
- â . .
(term specificity, term discriminating power, , ) â . , . , .
(regualr expression, pattern, «», «», «») â , , , . . â , .
(relevance, relevancy) â .
(signature, ) â - . - .
(inflection) â , , (), . , . (declension), â (conjugation).
(derivation) â . , .
â . .
(spam, , ) â .
â . PageRank .
â .
- (stop-words) â , , / .
, (suffix trees, suffix arrays, PAT-arrays) â , , (trie). «», ( ) . , â , . , , .
(tokenization, lexical analysis, , ) â , , , , .
(precision) â .
- (hash-value) â - (hash-function), (, ) .
() (document frequency, , ) â , .
(term frequency, TF) â .
â (shingle) â - .
PageRank â () , â . .
TF*IDF â ; , â .
Referenzliste
Modern Information Retrieval
Baezo-Yates R. and Ribeiro-Neto B.
ACM Press Addison Wesley, 1999
The Connectivity Server: fast access to linkage information on the Web
K. Bharat, A. Broder, M. Henzinger, P. Kumara, and S. Venkatasubramanian
WWW7, 1998
http://www7.scu.edu.au/programme/fullpapers/1938/com1938.htm
The Anatomy of a Large-Scale Hypertextual Web Search Engine
S.Brin and L. Page
WWW7, 1998
http://www7.scu.edu.au/programme/fullpapers/1921/com1921.htm
Syntactic Clustering of the Web
Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse
WWW6, 1997
Indexing by Latent Semantic Analysis
S. Deerwester, ST Dumais, GW Furnas, TK Landauer, R. Harshman
JASIS, 1990
http://citeseer.nj.nec.com/deerwester90indexing.html
The approximation of one matrix by another of lower rank
C. Eckart, G. Young
Psychometrika, 1936
Description and performance analysis of signature file methods
C. Faloutsos, S. Christodoulakis
ACM TOIS 1987
FAST PMC â The Pattern Matching Chip
http://www.fast.no/product/fastpmc.html
www.idi.ntnu.no/grupper/KS-grp/microarray/slides/heggebo.pdf ( , web.archive.org â . .)
Information retrieval using a Singular Value Decomposition Model of Latent Semantic Structure
GW Furnas, S. Deerwester, ST Dumais, TK Landauer, RA Harshman, LA Streeter, and KE Lochbaum
ACM SIGIR, 1988
Glimpse, Webglimpse, Unix-based search softwareâŠ
http://webglimpse.org
Examples of PAT applied to the Oxford English Dictionary
Gonnet G.
University of Waterloo, 1987
What we have learned, and not learned, from TREC
Donna Harman
http://irsg.eu.org/irsg2000online/papers/harman.htm
The Thesaurus Approach to Information Retrieval
T. Joyce and RM Needham
American Documentation, 1958
Authoritative Sources in a Hyperlinked Environment
Jon M. Kleinberg
JACM, 1998
http://citeseer.nj.nec.com/87928.html
An efficient method to detect duplicates of Web documents with the use of inverted index
S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich
WWW2002, 2002
Suffix Arrays: A New Method for On-line String Searches
U. Manber, G. Myers
1st ACM-SIAM Symposium on Discrete Algorithms, 1990
Finding similar files in a large file system
U. Manber
USENIX Conference, 1994
ME Maron and JL Kuhns
On relevance, probabilistic indexing and information retrieval
Journal of the ACM, 1960
Open Text Corporation
http://www.opentext.com
SE Robertson and Sparck Jones K.
Relevance Weighting of Search Terms
JASIS, 1976
Algorithms in C++, Robert Sedgewick
Addison-Wesley, 1992
A Statistical Interpretation of Term Specificity and Its Application in Retrieval
Karen Sparck Jones
Journal of Documentation, 1972
The Term Vector Database: fast access to indexing terms for Web pages
R. Stata, K. Bharat, F. Maghoul
WWW9, 2000
http://www9.org/w9cdrom/159/159.html
Natural Language Information Retrieval
Tomek Strzalkowski (ed.)
Kluwer Academic Publishers, 1999
: , . , . , .
, 2000
https://www.ozon.ru/context/detail/id/33769775/
- . .. , .., ..
- , 1995