Page 84 - Tequio 11
P. 84

82    Métodos de reconstrucción filogenética II/Duchen/81-89






                  y del uso de métodos markovianos (cadenas markovianas). De manera general, las cadenas markovianas son
                  procesos estocásticos que describen una secuencia de eventos donde la probabilidad de un evento actual
                  depende únicamente del anterior. En la inferencia bayesiana las cadenas markovianas se emplean para
                  explorar el espacio de filogenias posibles.
                       La inferencia filogenética por medio de métodos bayesianos fue introducida por Rannala & Yang (1996),
                  mientras que las extensiones markovianas fueron agregadas independientemente por Yang & Rannala

                (1997); Mau & Newton (1997) y Li, Pearl & Doss (2000). La base fundamental de toda inferencia bayesiana

                radica en el teorema de Bayes, el cual describimos a continuación.

                Teorema de Bayes

                Se debe iniciar por definir nuestros datos y parámetros a estimar. Dado un alineamiento D de secuencias de
                ADN para un número n de especies, el objetivo es encontrar el árbol T que mejor describa a dicho alineamiento.
                En esta revisión se usarán los términos filogenia y árbol indistintamente para referirse a T, al igual que los
                términos alineamiento o datos para aludir a D.
                     El teorema de Bayes en inferencia filogenética se presta fácilmente para calcular T dado un alineamiento D.
                Bajo este teorema, la probabilidad posterior de T es:


                                                         ()(|)                   (1)
                                                 (|) =  ,
                                                            ()

                donde P(T) es la probabilidad a priori del árbol, P(D|T) es la verosimilitud (también conocida como likelihood) y
                P(D)  es la probabilidad del alineamiento. Para fines prácticos,  P(D)  constituye la sumatoria del numerador
                P(T)P(D|T) sobre todas las posibles topologías T:

                                                          ()(|)                  (2)
                                                (|) =    .
                                                        ∑ ()(|)
                                                          *

                En otras palabras, al sumar P(T)P(D|T) para todos los T posibles obtenemos P(D).

                Aplicación del teorema de Bayes en filogenética
                En la práctica no es posible calcular el denominador de la ecuación (2), ya que la cantidad de topologías posibles
                (la manera en que las especies se agrupan) incrementa exponencialmente con el número de especies  n.
                Repitiendo  el  mismo  ejemplo  de la primera parte,  un alineamiento con tres especies tiene tres topologías
                posibles; cuatro especies, 15 topologías posibles; cinco especies tienen 105 topologías, y si hablamos de un
                alineamiento de 50 especies –muy común en estudios biológicos– tendríamos 2,75×10  topologías posibles.
                                                                                          76
                Por tanto, computacionalmente no es realista calcular la verosimilitud de tal cantidad de árboles.

                Metropolis-Hastings
                Para solucionar este problema se usa el algoritmo de Metropolis-Hastings (Metropolis et al., 1953; Hastings,
                1970), el cual  se basa en una cadena markoviana de Monte Carlo (MCMC, por sus siglas en inglés). Dicho
                algoritmo explora en el espacio de topologías y toma una muestra representativa de la distribución P(T|D), que
                es la distribución posterior de la cual queremos obtener  T.  En otras palabras, con Metropolis-Hastings se



                                                 Tequio, enero-abril 2021, vol. 4, no. 11
   79   80   81   82   83   84   85   86   87   88   89