Automatisiertes Clustering von Texten mit Self-Organizing Maps

Thesis Type Bachelor
Thesis Status
Finished
Student Yusuf Ipek
Init
Final
Start
Thesis Supervisor
Contact
Research Field

Durch die Extraktion verschiedenster Merkmale eines Textes können u.a. Autoren zugeordnet, Plagiate erkannt aber auch Ähnlichkeiten zwischen Texten bestimmt werden.

Ziel dieser Arbeit ist es, sämtliche Bücher, die in der Project Gutenberg - Bibliothek frei zugänglich sind, zu analysieren und nach Ähnlichkeit zu gruppieren. Die zu verwendende Methode dabei basiert auf sog. Self-Organizing Maps (SOM), die das Gruppieren aufgrund der gelieferten Merkmale semiautomatisch durchführen. Die berechneten SOM's sollen schlussendlich grafisch ansprechend in einer Web-Applikation interaktiv präsentiert werden.