Page 74 - Tequio 11
P. 74

72    Métodos de reconstrucción filogenética I/Duchen/69-79






                     En general, y para cualquier filogenia, asumiendo que el clado en cuestión tiene como  nucleótido s (s ∈
                {A,C,G,T}) y tiene dos descendientes con nucleótidos x (x ∈ {A,C,G,T}) y y (y ∈ {A,C,G,T}), con longitudes de rama
                tx   y ty, entonces cada VE está dada por:


                                              I = B5 (|,  F ) F GK5 (|,  M ) M N
                                                    F              M

                De esta manera, comenzando por la punta del árbol, se calculan las verosimilitudes condicionales descendiendo
                por cada nodo hasta llegar a la raíz. Al final, la verosimilitud total de la filogenia T en la posición k (retomando
                la notación original) es:


                                                  (+)  = * (+) ,- = 5 F  (+)  (),
                                                                      I PQíS
                                                                  F

                donde  πx  es la probabilidad  a  priori  del nucleótido  x  –la cual se puede estimar por su frecuencia en el
                alineamiento– y   Eraíz es el nucleótido en la raíz del árbol, correspondiente a E123   en el ejemplo de la Figura 1.
                Finalmente, todas las probabilidades P(x|s,t) o P(y|s,t) se calculan con diversos modelos de mutación de ADN,
                los cuales se describen en la sección “Modelos de mutación de ADN”.

                Inferencia filogenética
                La inferencia por ML funciona de la siguiente manera: dadas las topologías candidatas para un alineamiento D
                particular, se pueden calcular las verosimilitudes de cada una (utilizando el algoritmo “prunning”). Luego, la
                topología con la mayor verosimilitud será la filogenia correspondiente a D. Hay dos aspectos importantes para
                tomar en cuenta al realizar la inferencia por ML: el bootstrapping y la búsqueda de topologías.

                Bootstrapping. En inferencia por ML se recurre al bootstrap para obtener una medida de incertidumbre para el
                árbol con la máxima verosimilitud. El bootstrap en filogenética consiste en: 1) tomar muestras con reemplazo
                de las columnas de un alineamiento, 2) formar un nuevo alineamiento con dichas columnas, y 3) volver a inferir
                la topología con el nuevo alineamiento. Para ser más preciso, si D tiene m columnas, entonces se toman m
                muestras con reemplazo y se infiere la filogenia. Este proceso se repite múltiples veces. Estudios que utilizan
                hasta 2 500 secuencias muestran que 100 a 500 repeticiones de bootstrap son suficientes, pero para criterios
                más conservadores se llegan a hacer varios miles de repeticiones (Pattengale, Alipour, Bininda-Emonds, Moret
                & Stamatakis, 2010). En la filogenia final (aquella con la máxima verosimilitud) se reporta el porcentaje de
                ocasiones que cada clado se mantiene en las repeticiones del bootstrapping. Clados con valores de bootstrap
                mayores a 75% se consideran con buen soporte estadístico.

                Búsqueda de topologías. Otro aspecto importante constituye la búsqueda de topologías. Para alineamientos
                con pocas especies es posible calcular la verosimilitud de todas las topologías posibles, lo que se conoce como
                una búsqueda exhaustiva. Sin embargo, para alineamientos con muchas especies la cantidad de topologías para
                analizar es muy grande, por lo que se emplea la búsqueda heurística (aproximada). Para dar un ejemplo, un
                alineamiento con tres especies tiene tres topologías posibles; cuatro especies, 15 topologías posibles (Fig. 2);



                                                 Tequio, enero-abril 2021, vol. 4, no. 11
   69   70   71   72   73   74   75   76   77   78   79