Seminar: Clustering

Grundlagen des Data Minings: Clustering

Seminar

(0808565)

Beim Clustern wird eine Menge von Objekten in Gruppen aufgeteilt, so dass zwischen den Objekten in den einzelnen Gruppen eine möglichst große Ähnlichkeit besteht, die Gruppen selbst aber möglichst unterschiedlich sind. Clustering ist eine wichtige Technik im Data Mining, da es erlaubt, versteckte Muster in Daten zu finden, die meist intuitiv verständlich sind. Mit der Menge an elektronisch vorhandenen Daten und der Vielfalt der konkreten Anwendungen (CRM, Web 2.0 Applikationen, Text Mining, Marketing etc.) hat auch das Interesse an Clusterverfahren zugenommen und es sind eine Vielzahl von verschiedenen Clustering Methoden entstanden. Diese wollen wir im Rahmen des Seminars genauer untersuchen. Ausgangspunkt ist der Artikel von Pavel Berkhin (Survey of Clustering Data Mining Techniques), der einen Überblick über die in den letzten Jahren entstandenen Verfahren gibt. Jeder Seminarteilnehmer wird eines dieser Verfahren näher vorstellen.

Veranstalter:

Prof. Dr. Andreas Hotho, Wi.-Inf. Beate Krause

Vorbesprechung/Einstieg:

Eine Vorbesprechung zu Beginn des Semesters für Studenten, findet in der ersten Vorlesungswoche, am 23.10.2009 von 14:00 - 15:00 Uhr statt.

Es ist möglich, sich während der Semesterferien bei Prof. Dr. Andreas Hotho oder Wi.-Inf. Beate Krause zu melden, um ggf. nachträglich in das Seminar einzusteigen und dabei die Semesterferien noch zu nutzen.

Die Vorbesprechungen finden jeweils im Raum B015 (Besprechungsraum des Lehrstuhl 6) statt.

Leistungsnachweis:

Drei (3!) Tage vor dem geplanten Vortrag sind per Email als PDF abzugeben:

eine einseitige Zusammenfassung (die allen Teilnehmern ausgehändigt wird),
der Foliensatz
eine 11-12-seitige Ausarbeitung im unter http://www.springer.com/sgw/cda/frontpage/0,11855,1-164-2-72376-0,00.html beschriebenen Format.

Vorherige Absprachen mit dem Betreuer sind ausdrücklich erlaubt. Alle verwendeten Referenzen sind zusätzlich zum Literaturverzeichnis der Ausarbeitung in http://www.bibsonomy.org einzugeben, mit den Tags "clustering", "seminar", "2009" und weiteren sinnvollen Tags.

Die Vortragsdauer beträgt verbindlich 30 Minuten, nach dem Vortrag besteht Gelegenheit zur Diskussion. Wir empfehlen, den Vortrag vorher vor Zuhörern zu üben. Der Vortrag (inkl. Folien und Abstract) geht mit 40% in die Endnote ein, die Ausarbeitung ebenfalls mit 40%.

Ablauf des Seminars

Gefordert ist eine wissenschaftliche Auseinandersetzung mit dem Thema, die insbesondere den Bezug auf Originalliteratur einschliesst. Diese kann ggf. durch graue Literatur ergänzt, jedoch keinesfalls ersetzt werden. Es wird zu Beginn pro Thema jeweils ein Abschnitt aus dem Artikel von Pave l Berkhin (Survey of Clustering Data Mining Techniques) ausgegeben, der durch den Seminarteilnehmer im Laufe des Semesesters durch weitergehende Literatur ergänzt wird. Die Auswahl der weiteren Literatur trifft der Seminarteilnehmer in Absprache mit dem Betreuer.

Termine

Die Veranstaltungstermine (Blockseminar) werden in der Vorbesprechung diskutiert. Bei den Terminen stellen die Teilnehmer ihre Ausarbeitungen vor. Es besteht Anwesenheitspflicht.

Bearbeitungshinweise

Als Richtlinie für die Erstellung einer guten Seminararbeit (inkl. Vortrag und Ausarbeitung) wird das Buch

Markus Deininger and Horst Lichter and Jochen Ludewig and Kurt Schneider. Studien-Arbeiten: ein Leitfaden zur Vorbereitung, Durchführung und Betreuung von Studien-, Diplom- Abschluss- und Doktorarbeiten am Beispiel Informatik. 5. Auflage. vdf Hochschulverlag, Zürich, 2005.

empfohlen, welches beim Betreuer des Seminars (Prof. Dr. Andreas Hotho) ausliegt. Wir empfehlen die Anschaffung dieses Buchs (9,50 €), da es Sie bis zur Masterarbeit (und weiter) begleiten kann. Die Benotung der Seminararbeit erfolgt in Anlehnung an das dort auf Seite 77 angegebene Schema, angepasst auf die Erfordernisse einer Seminararbeit.

Literatur

Zur Einarbeitung in das Thema Clustering können folgende Referenzen helfen.Für die Ausarbeitung des eigenen Themas sollte auf die Originalreferenzen zurückgegegriffen werden. Diese können mit dem Betreuer abgesprochen werden.

Jiawei Han, Micheline Kamber: Data Mining: Concepts and Techniques, Academic Press, Morgan Kaufmarm Publishers, 2001.
M. Ester und J. Sander: Knowledge Discovery in Databases: Springer-Verlag, 2000.
U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurasamy: Advances in Knowledge Discovery and Data Mining. Cambridge , London . MIT Press, 1996.
Interessante Links können auch unter http://www.bibsonomy.org/tag/clustering gefunden werden.

Hubland Süd, Geb. M2