Page 73 - Tequio 11
P. 73
Métodos de reconstrucción filogenética I/Duchen/69-79 71
(k)
De esta manera, en vez de multiplicar todas las verosimilitudes, se suman los logaritmos de P(D |T) para cada
posición. El problema con multiplicar verosimilitudes es que éstas representan probabilidades con valores entre
0 y 1. Al multiplicar valores menores a 1 varias veces, los ceros decimales aumentan y se pierden rápidamente
las cifras no periódicas durante la multiplicación. Por este motivo se debe usar la versión logarítmica.
Para calcular la verosimilitud en una posición se emplea frecuentemente el método o algoritmo de “pruning”
de Felsenstein (1973), el cual se describirá a continuación.
Algoritmo “prunning”
Este algoritmo es muy eficiente para calcular la verosimilitud de una filogenia y está basado en verosimilitudes
condicionales para cada clado de T. Se llama “condicional” a dicha verosimilitud porque su valor depende de los
(k)
nucleótidos que estén en el extremo de cada clado. Aquí se denomina V a la verosimilitud condicional de cada
clado en una filogenia en la posición k de un alineamiento. Para no sobrecargar la notación vamos a dejar
momentáneamente de lado la indicación de la posición k; por ejemplo, el árbol de la Figura 1 tiene las especies
E1, E2 y E3, las cuales, en esa posición del alineamiento, muestran las bases A, G y G, respectivamente. Por el
contrario, las bases de las especies ancestrales E12 y E123 se desconocen y pueden tomar cualquier valor entre
los nucleótidos A, C, G, T.
Las bases de ADN en los extremos del árbol son datos observados, por tanto, los valores de V en los extremos
serían: VE1(A,C,G,T)= (1,0,0,0), ya que se observa al nucleótido A en la especie E1; VE2(A,C,G,T)= (0,0,1,0), porque
se observa al nucleótido G en la especie E2; y VE3(A,C,G,T)= (0,0,1,0). Una vez calculadas las Vs en los extremos
del árbol, se van a calcular las Vs en los nodos internos.
La verosimilitud condicional del nodo interno E12 está dada por dos posibilidades: la de cambiar del estado de
E12 a A, y de E12 a G, a lo largo de la rama t12 que separa a ambos nodos. Por tanto,
= ((|E 0= , 0= × 1)((|E 0= , 0= × 1).
)
)
8 9:
En esta ecuación, el primer factor corresponde a la probabilidad de cambiar del estado de E12 a A, y el segundo
factor a la probabilidad de cambiar del estado de E12 a G. Nótese aquí que multiplicamos ambos factores por 1,
que corresponden a las probabilidades de observar las bases A y G en las puntas de dicho árbol, respectivamente
(estas probabilidades corresponden a VE1 y VE2, calculados anteriormente).
Se procede ahora a calcular la verosimilitud condicional en la raíz del árbol. Si se define x como el nucleótido
que corresponde a E12, entonces la verosimilitud condicional en la raíz del árbol de la Figura 1 está dada por:
G (|E 0=D , 0=D × 1.
)
8 9: = B5(|E 0=D , 0=D − 0= ) 8 9:
F
El primer factor muestra la probabilidad de cambiar del estado de E123 al nucleótido x, a lo largo de la rama de
longitud t123-t12 dada la probabilidad VE12 (calculada en el paso anterior). Nótese que aquí se suman todas las
probabilidades de x (x ∈ {A,C,G,T}), ya que se desconoce el nucleótido correspondiente a E12. El segundo factor
atañe a la probabilidad de cambiar del estado de E123 a G a lo largo de la rama t123. Dicho factor igualmente se
multiplica por 1, que refiere a la probabilidad de observar una G en el extremo del árbol.
Tequio, enero-abril 2021, vol. 4, no. 11