Text-Indexierung
- Typ: Vorlesung (V)
- Semester: WS 22/23
-
Ort:
Geb. 50.34, Raum 236
-
Zeit:
Montag 14:00 - 15:30
- Dozent:
- SWS: 3
- LVNr.: 2400005
- Hinweis: Präsenz
Übersicht
Inhalt
In dieser Vorlesung beschäftigen wir uns mit Algorithmen und Datenstrukturen für Texte, speziell Text-Indizes. Text-Indizes sind Datenstrukturen, die Zusatzinformationen über einen Text bereitstellen, um Anfragen hinsichtlich dieses Texts zu beschleunigen. Hierbei kann es sich um einfache Pattern-Matching-Anfragen („Kommt ein Suchmuster im Text vor?“) oder komplexere Data-Mining-Anfragen („Welches Muster einer bestimmten Länge kommt am häufigsten im Text vor?“) handeln.
Darüber hinaus beschäftigen wir uns mit der Textkompression. Hierbei möchten wir einen Text möglichst platzeffizient darstellen. Allerdings müssen wir sicherstellen, dass der originale Text vollständig rekonstruiert werden kann. Wir sprechen hierbei von verlustfreier Kompression. In der Vorlesung lernen wir Techniken kennen, die unter anderem in Kompressionsprogrammen wie gzip verwendet werden.
Die Vortragssprache ist deutsch.
Wichtige Informationen
- Prüfungsanmeldung bitte per Mail an Anja Blancani (blancani∂kit.edu).
- Die Prüfungs- und Projektanmeldung ist ab dem 16.01. möglich. Prüfungstermine sind der 24.02. und der 20.03.
- Am 31.10.2022 fällt die Vorlesung aus. Am 07.11.2022 geht die Vorlesung normal weiter.
- Die Veranstaltung nutzt den folgenden Matrix-Raum als zusätzlichen Kommunikationskanal. Bitte melden Sie sich dort an, wenn Sie an der Veranstaltung teilnehmen (der Raum ist seit dem 07.11. öffentlich und sollte nun auffindbar sein).
- Informationen zur Vorlesung aus dem Wintersemester 2021/22 finden Sie hier.
Folien
- Kapitel 00 Einführung: Folien, Folien ohne Animationen und Video
- Kapitel 01 Trie: Folien, Folien ohne Animationen und Video
- Kapitel 02 Suffix-Array und Suffix-Tree: Folien, Folien ohne Animationen, Handout und Video
- Kapitel 03 LCP-Array: Folien und Folien ohne Animationen
- Kapitel 04 Kompression: Folien und Folien ohne Animationen
- Kapitel 05 Burrows-Wheeler-Transformation: Folien und Folien ohne Animationen
- Kapitel 06 Wavelet-Tree: Folien und Folien ohne Animationen
- Kapitel 07 FM-Index und r-Index: Folien und Folien ohne Animationen
- Kapitel 08 LZ- und BWT-komprimierte Indizes: Folien und Folien ohne Animationen
- Kapitel 09 Suffix-Array-Konstruktion im Verteilten und Externen Speicher: Folien und Folien ohne Animationen
- Kapitel 10 Top-k Dokumenten-Retrieval: Folien und Folien ohne Animationen
- Kapitel 11 Invertierter Index: Folien und Folien ohne Animationen
- Kapitel 12 Longest-Common-Extensions: Folien und Folien ohne Animationen
- Kapitel 13 Große Zusammenfassung und Q&A: Folien (ohne Animationen)
Projekt