Page 86 - Tequio 11
P. 86
84 Métodos de reconstrucción filogenética II/Duchen/81-89
1. Proponer una topología inicial.
2. A partir del alineamiento observado D y la topología propuesta en el paso 1, calcular la verosimilitud para
cada posición (o columna) de D utilizando el algoritmo “prunning”. Para conocer las probabilidades de
sustitución nucleotídica utilizadas en dicho algoritmo, referirse a la sección “Modelos de mutación de
ADN” en la primera parte de esta revisión.
3. Una vez obtenida la verosimilitud en cada posición de D, calcular la verosimilitud total por medio de la
ecuación (2) de la primera parte de esta revisión.
4. Teniendo la verosimilitud de T, proponer una topología candidata (similar a la topología actual), calcular
su verosimilitud de forma similar siguiendo los pasos 2 y 3, y calcular la relación A con la ecuación (5).
5. Si A > 1, aceptar la topología candidata como nuevo árbol actual. Caso contrario, aceptar la topología
candidata con probabilidad A.
6. Repetir los pasos 2 a 5 hasta haber obtenido una muestra representativa de árboles de P(T|D).
Generación de la topología final a partir de la muestra de P(T|D)
Es importante describir un paso más para finalizar la reconstrucción de una filogenia con el método bayesiano
descrito aquí. Hasta ahora hemos logrado una muestra representativa de árboles de la distribución P(T|D), pero
¿cuál de todas esas topologías se reporta al final? Una forma de abordar este problema consiste en estimar
distancias entre todos los árboles de la muestra y tomar como representante al que se encuentre al medio (Li
et al., 2000; Critchlow, Pearl & Qian, 1996). Otra posibilidad consiste en observar la frecuencia de cada clado en
la muestra total de topologías y reportar todas las especies en los clados donde estén más frecuentes
(Huelsenbeck, Ronquist, Nielsen & Bollback, 2001; Larget & Simon, 1999).
Finalmente, en cuanto a las especificaciones del Metropolis-Hastings MCMC, es conveniente prestar atención
a la frecuencia con que se toman las muestras de P(T|D). Como primer punto, es bueno descartar la primera parte
de muestras, ya que no todas ellas pertenecerán a P(T|D) (éstas corresponden al burn-in). En segundo lugar, no
conviene mantener a todas las topologías candidatas aceptadas, ya que en muchos casos serán muy parecidas;
es mejor guardar los árboles cada cierto número de repeticiones del algoritmo de Metropolis-Hastings, para así
obtener una muestra más representativa de P(T|D) (Huelsenbeck et al., 2001; Felsenstein, 2004). Es importante
notar que para la inferencia bayesiana de filogenias no es necesario utilizar bootstrapping como medida de
incertidumbre, ya que la probabilidad posterior P(T|D) cumple con esta función. La filogenia final reportada
contiene probabilidades posteriores para cada clado de la filogenia y cada uno de estos valores describe la
probabilidad del clado en cuestión.
Ejemplo de algoritmo para inferencia bayesiana
Enseguida se desarrolla un ejemplo muy sencillo para inferir una filogenia usando el algoritmo de Metropolis-
Hastings para inferencia bayesiana. Al igual que en la primera parte de esta revisión, utilizaremos el
alineamiento del ejemplo 1.1.1 del artículo "Modelo de estimación de pesos de árbol filogenético para un
cuartet, aplicando conjugación de Hadamard" (publicado también en este número). Dicho alineamiento contiene
cuatro especies y 16 posiciones. Convertimos dicho alineamiento a formato FASTA y lo guardamos en un archivo
denominado “alineamiento.fas”:
>E1
CCATCAAACGTGTGAC
Tequio, enero-abril 2021, vol. 4, no. 11