Page 74 - Tequio 11
P. 74
72 Métodos de reconstrucción filogenética I/Duchen/69-79
En general, y para cualquier filogenia, asumiendo que el clado en cuestión tiene como nucleótido s (s ∈
{A,C,G,T}) y tiene dos descendientes con nucleótidos x (x ∈ {A,C,G,T}) y y (y ∈ {A,C,G,T}), con longitudes de rama
tx y ty, entonces cada VE está dada por:
I = B5 (|, F ) F GK5 (|, M ) M N
F M
De esta manera, comenzando por la punta del árbol, se calculan las verosimilitudes condicionales descendiendo
por cada nodo hasta llegar a la raíz. Al final, la verosimilitud total de la filogenia T en la posición k (retomando
la notación original) es:
(+) = * (+) ,- = 5 F (+) (),
I PQíS
F
donde πx es la probabilidad a priori del nucleótido x –la cual se puede estimar por su frecuencia en el
alineamiento– y Eraíz es el nucleótido en la raíz del árbol, correspondiente a E123 en el ejemplo de la Figura 1.
Finalmente, todas las probabilidades P(x|s,t) o P(y|s,t) se calculan con diversos modelos de mutación de ADN,
los cuales se describen en la sección “Modelos de mutación de ADN”.
Inferencia filogenética
La inferencia por ML funciona de la siguiente manera: dadas las topologías candidatas para un alineamiento D
particular, se pueden calcular las verosimilitudes de cada una (utilizando el algoritmo “prunning”). Luego, la
topología con la mayor verosimilitud será la filogenia correspondiente a D. Hay dos aspectos importantes para
tomar en cuenta al realizar la inferencia por ML: el bootstrapping y la búsqueda de topologías.
Bootstrapping. En inferencia por ML se recurre al bootstrap para obtener una medida de incertidumbre para el
árbol con la máxima verosimilitud. El bootstrap en filogenética consiste en: 1) tomar muestras con reemplazo
de las columnas de un alineamiento, 2) formar un nuevo alineamiento con dichas columnas, y 3) volver a inferir
la topología con el nuevo alineamiento. Para ser más preciso, si D tiene m columnas, entonces se toman m
muestras con reemplazo y se infiere la filogenia. Este proceso se repite múltiples veces. Estudios que utilizan
hasta 2 500 secuencias muestran que 100 a 500 repeticiones de bootstrap son suficientes, pero para criterios
más conservadores se llegan a hacer varios miles de repeticiones (Pattengale, Alipour, Bininda-Emonds, Moret
& Stamatakis, 2010). En la filogenia final (aquella con la máxima verosimilitud) se reporta el porcentaje de
ocasiones que cada clado se mantiene en las repeticiones del bootstrapping. Clados con valores de bootstrap
mayores a 75% se consideran con buen soporte estadístico.
Búsqueda de topologías. Otro aspecto importante constituye la búsqueda de topologías. Para alineamientos
con pocas especies es posible calcular la verosimilitud de todas las topologías posibles, lo que se conoce como
una búsqueda exhaustiva. Sin embargo, para alineamientos con muchas especies la cantidad de topologías para
analizar es muy grande, por lo que se emplea la búsqueda heurística (aproximada). Para dar un ejemplo, un
alineamiento con tres especies tiene tres topologías posibles; cuatro especies, 15 topologías posibles (Fig. 2);
Tequio, enero-abril 2021, vol. 4, no. 11