Weitere Applikationen aus dem Bereich Textmining und -Klassifikation für die Forschungs- und Technologieplanung
 

Fraunhofer INT

Jaccard's Coefficient Comparator - Vergleich von Technologien und Projekten

Der Jaccard's Coefficient Comparator vergleicht Texte unter Anwendung des Jaccard's Coefficient Maß, ein Standardmaß im Information Retrieval. Bei der Berechnung des Jaccard-Koeffizient wird die Anzahl der gemeinsamer Terme (Schnittmenge) zweier Texte durch die Anzahl aller unterschiedlicher Terme (Vereinigungsmenge) beider Texte dividiert. Der Jaccard's Coefficient Comparator ist opimiert für den Vergleich von Elementen aus Taxonomien. So können Technologien, Projekte etc. untereinander verglichen werden. Die Eingabe von Texten erfolgt im XML-Format (siehe hierfür die Beispieldatei: Science Citation Index (SCI) - Scope Notes.

Kontextbasierte Internetsuche

Ein wesentliches Problem bei der Internetsuche ist die richtige Bestimmung der Suchwörter. Hierbei kann der Nutzer durch eine kontextbasierte Internetsuche unterstützt werden.

Die kontextbasierte Internetsuche stellt eine alternative spezifische Art der Internetsuche über eine Baumstruktur vor. Zunächst wird eine Internetsuche über die Suchmaschine Google ausgeführt. Neben den standardisierten Ergebnissen, bestehend aus Titel, Abstract und Verlinkung, werden alle Wörter, die in der Umgebung der gesuchten Begriffe vorkommen aufgelistet. Durch Auswahl eines solchen aufgelisteten Terms wird dieser den Suchbegriffen hinzugefügt oder – falls er schon als Suchbegriff existiert – wieder entfernt.

Web-Kontextbasierte Textanalyse

Bei der Analyse von Texten sind oft Hintergrundinformationen aus dem Internet hilfreich. Mit dem Web Context based Text Analyzer lassen sich Texte vor dem Hintergrund von Suchergebnissen der Suchmaschine Google betrachten. Die Suchabfragen werden dabei an die betrachtete Textphrase angepasst.