Automatische Klassifikation

Dienste zur automatischen (Fach-)Klassifikation bilden das Rückrat vieler moderner Datamining- und Library-Dienste, wie beispielsweise dem Scientific Trendscouting!

Ziel ist ein weitgehend automatischer Algorithmus, der englischsprachige Publikationen (Journal-Artikel, Websites, Konferenzbeiträge etc.) anhand ihrer Volltexte oder Abstracts fachlich einordnet. Dazu wird ein Dienst eingesetzt, der multiple Algorithmen kombiniert, darunter linguistische Analysen von Wortgruppen und verwendeten Akronymen. Die Komplexität möglicher Anforderungen und die Diversität der Fachdisziplinen erfordern fast immer eine individuelle Anpassung der Software, um Trefferraten zu erreichen, die jenen ohne elektronische Unterstützung wenigstens gleichwertig sind.

Classifier - Symbolbild

Letztlich galt es ein System zu entwickeln, das bei einer Kosten-Nutzen-Abwägung gegenüber einer händischen Klassifikation durch Bibliothekare besser abschneidet.

Je feiner und eindeutiger dabei die Klassifikation der Publikationen werden soll, umso mehr Information über den Volltext ist zu dessen Einordnung erforderlich, unabhängig davon, welcher Algorithmus technisch oder durch Bibliothekare hier verwendet wird. Meist liegen verschiedene Metadaten für eine Fachzuordnung eines Artikels vor. Diese sind in der Regel: Der Wortlaut des Titels, die Namen der Autoren, Keywords, bibliografische Angaben zu zitierten und idealerweise auch zu zitierenden Publikationen, sowie ein Abstract.

Derzeit basiert der Klassifizierungs-Dienst im Wesentlichen auf einer Klassifikation nach Phrasen- und Abkürzungen in Titel und Abstract: Dieser Algorithmus sucht gezielt nach bestimmten Phrasen (mehrwortige Ausdrücke) im Text des Abstracts (oder Volltext). Er nimmt an, dass je nach Fachdisziplin bestimmte Formulierungen immer wieder auftreten. Gezielt werden dabei allgemeinsprachliche Ausdrücke durch Auswahl einer geeigneten Trainingsmenge aus der Betrachtung ausgeschlossen. Im Kompetenzzentrum Bibliometrie hat das ISN bereits im Rahmen eines Auftrages gezeigt, dass dieser Algorithmus nicht nur auf Volltexten, sondern auch auf Abstracts zur fachlichen Unterscheidung von Artikeln sehr gut einsetzbar ist. Die wesentlichen technischen Herausforderungen (schnelle Algorithmen, große Datenmengen) wurden hier bereits gelöst. Wesentliche Erkenntnis dabei war auch, dass ein Algorithmus basierend allein auf Phrasen nicht hinreichend trennscharf ist, weil die Abstracts in der Regel zu kurz sind. Fachspezifische Abkürzungen hingegen erlauben es, die entsprechende Fachzuordnung zu schärfen. Einmal für ein Fachgebiet trainiert und kalibriert lässt sich dieser Algorithmus in diversen Szenarien einsetzen.

Ergänzen lässt sich dieser Algorithmus durch weitere Algorithmen, die die Co-Autorenschaft, Zitationen und Referenzen berücksichtigen. Damit kann weitgehend auf die Datenschutz-rechtlich kritischen webometrischen Verfahren verzichtet werden bei gleichzeitig meist besserem Ergebnis.

Da dieses Produkt bereits in sehr verschiedene Anwendungen integriert wurde, dabei laufend weiterentwickelt wurde und in der Regel im Hintergrund ohne Nutzerschnittstelle läuft, kontaktieren Sie uns doch einfach unverbindlich, dann stellen wir Ihnen gerne einen angepassten Dienst zum selbst ausprobieren zur Verfügung oder präsentieren Ihnen die Möglichkeiten und Grenzen dieses Produktes.