Text-Indexierung
- Typ: Vorlesung (V)
-
Ort:
50.34 Raum 236
-
Zeit:
Montag 14:00 - 15:30
- Dozent: Dr. Florian Kurpicz
- SWS: 3
- LVNr.: 2400005
- Hinweis: Präsenz
Inhalt | In dieser Vorlesung beschäftigen wir uns mit Algorithmen und Datenstrukturen für Texte, speziell Text-Indizes. Text-Indizes sind Datenstrukturen, die Zusatzinformationen über einen Text bereitstellen, um Anfragen hinsichtlich dieses Texts zu beschleunigen. Hierbei kann es sich um einfache Pattern-Matching-Anfragen („Kommt ein Suchmuster im Text vor?“) oder komplexere Data-Mining-Anfragen („Welches Muster einer bestimmten Länge kommt am häufigsten im Text vor?“) handeln.
Darüber hinaus beschäftigen wir uns mit der Textkompression. Hierbei möchten wir einen Text möglichst platzeffizient darstellen. Allerdings müssen wir sicherstellen, dass der originale Text vollständig rekonstruiert werden kann. Wir sprechen hierbei von verlustfreier Kompression. In der Vorlesung lernen wir Techniken kennen, die unter anderem in Kompressionsprogrammen wie gzip verwendet werden. |
Vortragssprache | Deutsch |
Übersicht
Wichtige Informationen
- 20.01.2025: Projektbeschreibung aktualisiert (Parameter für Auswahl der Variant hinzugefügt)
- Am 23.12.2024 findet die Vorlesung nicht statt!
- Alte Vorlesungsaufzeichnungen finden Sie hier und hier.
Folien
- Kapitel 00 Einführung: Folien und Folien ohne Animationen
- Kapitel 01 Tries: Folien und Folien ohne Animationen
- Kapitel 02 Invertierter Index: Folien und Folien ohne Animationen
- Kapitel 03 Suffix Tree und Suffix Array: Folien, Folien ohne Animationen und Handout
- Kapitel 04 LCP-Array: Folien und Folien ohne Animationen
- Kapitel 05 LZ-Kompression: Folien und Folien ohne Animationen
- Kapitel 06 Block Trees: Folien und Folien ohne Animationen
- Kapitel 07 Burrows-Wheeler Transform: Folien und Folien ohne Animationen
- Kapitel 08 Wavelet Trees: Folien und Folien ohne Animationen
- Kapitel 09 FM-Index und r-Index: Folien und Folien ohne Animationen
- Kapitel 10 Top-k Dokumenten Retrieval: Folien und Folien ohne Animationen
- Kapitel 11 Longest Common Extensions: Folien und Folien ohne Animationen