Empirical Numerical Properties of Maximum Likelihood Phylogenetic Inference

  • Forschungsthema:Phylogenetische Inferenz, Effiziente Bioinformatikalgorithmen
  • Typ:Masterarbeit
  • Datum:Oktober 2020
  • Betreuung:

    Lukas Hübner, Alexandros Stamatakis

  • Bearbeitung:

    Julia Haag

  • Links:PDF
  • Phylogenetische Bäume repräsentieren hypothetische evolutionäre Beziehungen zwischen Organismen. Ein Ansatz zur Berechnung phylogenetischer Bäume ist die Maximum Likelihood (ML) Methode. Implementierungen zur Baumsuche anhand der ML Methode nutzen numerische Optimierungsverfahren, die interne numerische Schwellenwerte benutzen. In dieser Arbeit untersuchen wir den Einfluss dieser numerischen Schwellenwerte auf die Güte und Laufzeit von Baumsuchen dreier ML Programme RAxML-NG, IQ-Tree und FastTree. Wir analysieren 22 empirische Datensätze und zeigen, dass wir die Baumsuche von RAxML-NG und IQ-Tree durch Verändern zweier numerischer Schwellenwerte beschleunigen können. Unter Verwendung von 15 zusätzlichen, simulierten Datensätzen zeigen wir, dass diese Änderungen keinen Einfluss auf die Genauigkeit der berechneten phylogenetischen Bäume haben. Für RAxML-NG empfehlen wir, den Schwellenwert lh_epsilon auf 10 zu erhöhen und den Schwellenwert spr_lh_epsilon auf 10^3 . Unter diesen Änderungen beobachten wir eine durchschnittliche Laufzeitbeschleunigung von 1.9 ± 0.6 auf den empirischen Datensätzen. Für IQ-Tree empfehlen wir, den Schwellenwert lh_epsilon ebenfalls auf 10 zu erhöhen. Auf den empirischen Datensätzen beobachten wir durch diese Änderung eine durchschnittliche Beschleunigung von 1.3 ± 0.4. Zusätzlich zu dieser numerischen Analyse, versuchen wir vorherzusagen, ob ein Datensatz schwer oder einfach zu analysieren ist. Das Ziel dabei ist es, für einfache Datensätze eine unnötig hohe Anzahl von Baumsuchen zu vermeiden. In der vorliegenden Arbeit präsentieren wir unsere Experimente zur Vorhersage der Schwierigkeit und diskutieren, warum sich diese Aufgabe als herausfordernder erwies als erwartet.