Wie große Textmengen google-mäßig durchsuchen?
Verfasst: 24.08.2010 08:17
Ich habe ein paar 10tausend kleine Textdateien, Länge so im Schnitt zwischen 5 und 15 normalen Zeilen (Es handelt sich um kurze Gesprächsprotokolle). Funktionieren soll das Programm so: Man gibt einige (zwei bis höchstens vier) Suchwörter ein und in einer Maske erscheinen die Texte, die diese Suchwörter enthalten. Das ganze muß sehr flott gehen, die Antwortzeiten müssen also nahezu "null" sein. Sinn der Sache soll sein: In den Dateien steckt eine Menge Fachwissen, auf das zur Beantwortung einer aktuellen Frage schnell zugegriffen werden können soll.
Wie macht man so etwas? Überlegt habe ich mir bislang: Ich extrahiere alle verschiedenen Wörter und speichere diese Wörter als Schlüsselworte in einer Map zusammen mit der Nr. der Datei, in der sie vorkommen (Irrelevante Wörter wie Artikel pp. werden aussortiert, gleichfalls anhand einer wie auch immer generierten Liste), zB:
Abnahme
10/500/1339/5528/29835/
Ich schätze, daß dies einige tausend (oder 10tausende?) Einträge ergibt.
Anschließend wird der zweite Suchbegriff aufgerufen und die Dateinummern auf Übereinstimmungen beim ersten Suchbegriffs untersucht (Wie macht man das schnellstmöglich, wenn es zu einem Begriff schlimmstenfalls hunderte von Dateieinträgen gibt?) und die Datei dann bei einem Treffer angezeigt usw.
Hat jemand Erfahrung mit einem solchen System, ist so etwas praktisch sinnvoll anwendbar und wie sieht es mutmaßlich mit der Laufzeit aus?
Ist es (etwa wegen Rechtschreibfehlern oder Wortflexionen) erfahrungsgemäß sinnvoll oder notwendig, die Suchwörter nicht im Original zu speichern und zu durchsuchen, sondern in einer gewichteten Form (z.B: Ersetzung von ie durch i, von Umlauten durch Vokale, Streichung von Doppelbuchstaben, Streichung von Flexionsendungen)?
Noch 'was: Die wichtigste Funktion wäre möglicherweise, die Suchwörter auf Knopfdruck (Button) an den IE oder Firefox & Google zu übergeben (wenn man nichts findet
), wie macht man denn so etwas?
Wie macht man so etwas? Überlegt habe ich mir bislang: Ich extrahiere alle verschiedenen Wörter und speichere diese Wörter als Schlüsselworte in einer Map zusammen mit der Nr. der Datei, in der sie vorkommen (Irrelevante Wörter wie Artikel pp. werden aussortiert, gleichfalls anhand einer wie auch immer generierten Liste), zB:
Abnahme
10/500/1339/5528/29835/
Ich schätze, daß dies einige tausend (oder 10tausende?) Einträge ergibt.
Anschließend wird der zweite Suchbegriff aufgerufen und die Dateinummern auf Übereinstimmungen beim ersten Suchbegriffs untersucht (Wie macht man das schnellstmöglich, wenn es zu einem Begriff schlimmstenfalls hunderte von Dateieinträgen gibt?) und die Datei dann bei einem Treffer angezeigt usw.
Hat jemand Erfahrung mit einem solchen System, ist so etwas praktisch sinnvoll anwendbar und wie sieht es mutmaßlich mit der Laufzeit aus?
Ist es (etwa wegen Rechtschreibfehlern oder Wortflexionen) erfahrungsgemäß sinnvoll oder notwendig, die Suchwörter nicht im Original zu speichern und zu durchsuchen, sondern in einer gewichteten Form (z.B: Ersetzung von ie durch i, von Umlauten durch Vokale, Streichung von Doppelbuchstaben, Streichung von Flexionsendungen)?
Noch 'was: Die wichtigste Funktion wäre möglicherweise, die Suchwörter auf Knopfdruck (Button) an den IE oder Firefox & Google zu übergeben (wenn man nichts findet
