Page 86 - Tequio 11
P. 86

84    Métodos de reconstrucción filogenética II/Duchen/81-89






                  1.  Proponer una topología inicial.
                  2.  A partir del alineamiento observado D y la topología propuesta en el paso 1, calcular la verosimilitud para
                      cada posición (o columna) de D utilizando el algoritmo “prunning”. Para conocer las probabilidades de
                      sustitución nucleotídica utilizadas en dicho algoritmo, referirse a la sección “Modelos de mutación de
                      ADN” en la primera parte de esta revisión.
                  3.  Una vez obtenida la verosimilitud en cada posición de D, calcular la verosimilitud total por medio de la
                      ecuación (2) de la primera parte de esta revisión.
                  4.  Teniendo la verosimilitud de T, proponer una topología candidata (similar a la topología actual), calcular
                      su verosimilitud de forma similar siguiendo los pasos 2 y 3, y calcular la relación A con la ecuación (5).
                  5.  Si A > 1, aceptar la topología candidata como nuevo árbol actual. Caso contrario, aceptar la topología
                      candidata con probabilidad A.
                  6.  Repetir los pasos 2 a 5 hasta haber obtenido una muestra representativa de árboles de P(T|D).

                Generación de la topología final a partir de la muestra de P(T|D)
                Es importante describir un paso más para finalizar la reconstrucción de una filogenia con el método bayesiano
                descrito aquí. Hasta ahora hemos logrado una muestra representativa de árboles de la distribución P(T|D), pero
                ¿cuál de todas esas topologías se reporta al final? Una forma de abordar este problema consiste en estimar
                distancias entre todos los árboles de la muestra y tomar como representante al que se encuentre al medio (Li
                et al., 2000; Critchlow, Pearl & Qian, 1996). Otra posibilidad consiste en observar la frecuencia de cada clado en
                la muestra total de topologías y reportar todas las  especies en los clados donde estén más frecuentes
                (Huelsenbeck, Ronquist, Nielsen & Bollback, 2001; Larget & Simon, 1999).
                     Finalmente, en cuanto a las especificaciones del Metropolis-Hastings MCMC, es conveniente prestar atención
                a la frecuencia con que se toman las muestras de P(T|D). Como primer punto, es bueno descartar la primera parte
                de muestras, ya que no todas ellas pertenecerán a P(T|D) (éstas corresponden al burn-in). En segundo lugar, no
                conviene mantener a todas las topologías candidatas aceptadas, ya que en muchos casos serán muy parecidas;
                es mejor guardar los árboles cada cierto número de repeticiones del algoritmo de Metropolis-Hastings, para así
                obtener una muestra más representativa de P(T|D) (Huelsenbeck et al., 2001; Felsenstein, 2004). Es importante
                notar que para la inferencia bayesiana de filogenias no es necesario utilizar bootstrapping como medida de
                incertidumbre, ya que la probabilidad posterior P(T|D) cumple con esta función. La filogenia final reportada
                contiene probabilidades posteriores para cada clado de la filogenia y cada uno de estos valores describe la
                probabilidad del clado en cuestión.

                Ejemplo de algoritmo para inferencia bayesiana
                Enseguida se desarrolla un ejemplo muy sencillo para inferir una filogenia usando el algoritmo de Metropolis-
                Hastings para inferencia bayesiana.  Al igual que en la primera parte de esta revisión, utilizaremos el
                alineamiento del ejemplo 1.1.1 del artículo  "Modelo de estimación de pesos de árbol filogenético  para un
                cuartet, aplicando conjugación de Hadamard" (publicado también en este número). Dicho alineamiento contiene
                cuatro especies y 16 posiciones. Convertimos dicho alineamiento a formato FASTA y lo guardamos en un archivo
                denominado “alineamiento.fas”:

                >E1
                CCATCAAACGTGTGAC



                                                 Tequio, enero-abril 2021, vol. 4, no. 11
   81   82   83   84   85   86   87   88   89   90   91