Information Retrieval
In dieser Vorlesung geht es um Algorithmen und Methoden, wie sie etwa bei Suchmaschinen wie Google und Bing zur Anwendung kommen. Allgemein versteht man unter Information Retrieval das Aufbereiten und Finden von Informationen, wobei man dies häufig auf das Finden von Dokumenten mit relevanten Inhalten beschränkt. In der Vorlesung werden neben den inhaltlichen Konzepten, die hinter bekannten Suchmaschinen wie z.B. Google stehen, auch Ideen der effizienten Implementierung solcher Systeme eingeführt. Dabei wird auch mit Konzepten wie MapReduce und deren Implementierungen Apache Hadoop oder Apache Spark zur Analyse von Big Data auf verteilten Rechenclustern gearbeitet. Insgesamt werden unter anderem folgende Themen behandelt:
- Boolesches und Vektorraum-Retrieval-Modelle
- Elementares Tokenizing, Indexing, und die Implementierung von vektorraumbasiertem Retrieval
- Performanz-Bewertung von Retrieval-Systemen
- Anfrage-Operationen (Relevance Feedback, Anfrageerweiterung)
- Anfragesprachen und –paradigmen
- Strukturelle Anfragen
- Texteigenschaften
- Web-Suche: Einführung, Crawling, Interfaces, Link-Analyse
- Implementierung von PageRank (Google Ranking) mit Apache Spark
Organisatorisches
- Vorlesung:
Mo, 10:15 - 11:45
Informatik - Übungsraum I (ÜR I)
Erster Veranstaltungstag: 29.04.2019
- Übung:
Do, 8:15 - 09:45 und 10:00 - 11:30
Informatik - Seminarraum II
Erster Veranstaltungstag: wird in der ersten Vorlesung angekündigt
- WueCampus-Kurs:
https://wuecampus.uni-wuerzburg.de/moodle/course/view.php?id=31905
- Angesprochener HörerInnenkreis:
Informatik / Wirtschaftsinformatik (Diplom / Master (ab 5. Semester))
- Vorkenntnisse:
Informatik Grundstudium, Grundkenntnisse in linearer Algebra
Literatur
- Introduction to Information Retrieval.
Christopher D. Manning and Prabhakar Raghavan and Hinrich Schütze.
Cambridge University Press, 2008. - Modern Information Retrieval.
Ricardo A. Baeza-Yates and Berthier A. Ribeiro-Neto.
ACM Press / Addison-Wesley, 1999. - Information Retrieval: Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web.
Reginald Ferber.
dpunkt Verlag,Heidelberg, 2003. - Weitere Ressourcen