Page 84 - Tequio 11
P. 84
82 Métodos de reconstrucción filogenética II/Duchen/81-89
y del uso de métodos markovianos (cadenas markovianas). De manera general, las cadenas markovianas son
procesos estocásticos que describen una secuencia de eventos donde la probabilidad de un evento actual
depende únicamente del anterior. En la inferencia bayesiana las cadenas markovianas se emplean para
explorar el espacio de filogenias posibles.
La inferencia filogenética por medio de métodos bayesianos fue introducida por Rannala & Yang (1996),
mientras que las extensiones markovianas fueron agregadas independientemente por Yang & Rannala
(1997); Mau & Newton (1997) y Li, Pearl & Doss (2000). La base fundamental de toda inferencia bayesiana
radica en el teorema de Bayes, el cual describimos a continuación.
Teorema de Bayes
Se debe iniciar por definir nuestros datos y parámetros a estimar. Dado un alineamiento D de secuencias de
ADN para un número n de especies, el objetivo es encontrar el árbol T que mejor describa a dicho alineamiento.
En esta revisión se usarán los términos filogenia y árbol indistintamente para referirse a T, al igual que los
términos alineamiento o datos para aludir a D.
El teorema de Bayes en inferencia filogenética se presta fácilmente para calcular T dado un alineamiento D.
Bajo este teorema, la probabilidad posterior de T es:
()(|) (1)
(|) = ,
()
donde P(T) es la probabilidad a priori del árbol, P(D|T) es la verosimilitud (también conocida como likelihood) y
P(D) es la probabilidad del alineamiento. Para fines prácticos, P(D) constituye la sumatoria del numerador
P(T)P(D|T) sobre todas las posibles topologías T:
()(|) (2)
(|) = .
∑ ()(|)
*
En otras palabras, al sumar P(T)P(D|T) para todos los T posibles obtenemos P(D).
Aplicación del teorema de Bayes en filogenética
En la práctica no es posible calcular el denominador de la ecuación (2), ya que la cantidad de topologías posibles
(la manera en que las especies se agrupan) incrementa exponencialmente con el número de especies n.
Repitiendo el mismo ejemplo de la primera parte, un alineamiento con tres especies tiene tres topologías
posibles; cuatro especies, 15 topologías posibles; cinco especies tienen 105 topologías, y si hablamos de un
alineamiento de 50 especies –muy común en estudios biológicos– tendríamos 2,75×10 topologías posibles.
76
Por tanto, computacionalmente no es realista calcular la verosimilitud de tal cantidad de árboles.
Metropolis-Hastings
Para solucionar este problema se usa el algoritmo de Metropolis-Hastings (Metropolis et al., 1953; Hastings,
1970), el cual se basa en una cadena markoviana de Monte Carlo (MCMC, por sus siglas en inglés). Dicho
algoritmo explora en el espacio de topologías y toma una muestra representativa de la distribución P(T|D), que
es la distribución posterior de la cual queremos obtener T. En otras palabras, con Metropolis-Hastings se
Tequio, enero-abril 2021, vol. 4, no. 11