Page 73 - Tequio 11
P. 73

Métodos de reconstrucción filogenética I/Duchen/69-79  71






                                                                                                (k)
                De esta manera, en vez de multiplicar todas las verosimilitudes, se suman los logaritmos de P(D |T) para cada
                posición. El problema con multiplicar verosimilitudes es que éstas representan probabilidades con valores entre
                0 y 1. Al multiplicar valores menores a 1 varias veces, los ceros decimales aumentan y se pierden rápidamente
                las cifras no periódicas durante la multiplicación. Por este motivo se debe usar la versión logarítmica.
                     Para calcular la verosimilitud en una posición se emplea frecuentemente el método o algoritmo de “pruning”
                de Felsenstein (1973), el cual se describirá a continuación.


                Algoritmo “prunning”
                Este algoritmo es muy eficiente para calcular la verosimilitud de una filogenia y está basado en verosimilitudes
                condicionales para cada clado de T. Se llama “condicional” a dicha verosimilitud porque su valor depende de los
                                                                            (k)
                nucleótidos que estén en el extremo de cada clado. Aquí se denomina V a la verosimilitud condicional de cada
                clado en una filogenia en la posición k de un alineamiento. Para no sobrecargar la notación vamos a dejar
                momentáneamente de lado la indicación de la posición k; por ejemplo, el árbol de la Figura 1 tiene las especies
                E1, E2 y E3, las cuales, en esa posición del alineamiento, muestran las bases A, G y G, respectivamente. Por el
                contrario, las bases de las especies ancestrales E12   y E123   se desconocen y pueden tomar cualquier valor entre
                los nucleótidos A, C, G, T.
                     Las bases de ADN en los extremos del árbol son datos observados, por tanto, los valores de V en los extremos
                serían: VE1(A,C,G,T)= (1,0,0,0), ya que se observa al nucleótido A en la especie E1; VE2(A,C,G,T)= (0,0,1,0), porque
                se observa al nucleótido G en la especie E2; y VE3(A,C,G,T)= (0,0,1,0). Una vez calculadas las Vs en los extremos
                del árbol, se van a calcular las Vs en los nodos internos.
                     La verosimilitud condicional del nodo interno E12   está dada por dos posibilidades: la de cambiar del estado de
                E12   a A, y de E12   a G, a lo largo de la rama t12   que separa a ambos nodos. Por tanto,


                                                = ((|E 0= ,  0= × 1)((|E 0= ,  0= × 1).
                                                            )
                                                                           )
                                             8 9:
                En esta ecuación, el primer factor corresponde a la probabilidad de cambiar del estado de E12   a A, y el segundo
                factor a la probabilidad de cambiar del estado de E12   a G. Nótese aquí que multiplicamos ambos factores por 1,
                que corresponden a las probabilidades de observar las bases A y G en las puntas de dicho árbol, respectivamente
                (estas probabilidades corresponden a VE1 y VE2, calculados anteriormente).
                     Se procede ahora a calcular la verosimilitud condicional en la raíz del árbol. Si se define x como el nucleótido
                que corresponde a E12, entonces la verosimilitud condicional en la raíz del árbol de la Figura 1 está dada por:



                                                                    G (|E 0=D ,  0=D × 1.
                                                                                 )
                                        8 9:  = B5(|E 0=D ,  0=D −  0= ) 8 9:
                                               F
                El primer factor muestra la probabilidad de cambiar del estado de E123 al nucleótido x, a lo largo de la rama de
                longitud t123-t12 dada la probabilidad VE12 (calculada en el paso anterior). Nótese que aquí se suman todas las
                probabilidades de x (x ∈ {A,C,G,T}), ya que se desconoce el nucleótido correspondiente a E12. El segundo factor
                atañe a la probabilidad de cambiar del estado de E123 a G a lo largo de la rama t123. Dicho factor igualmente se
                multiplica por 1, que refiere a la probabilidad de observar una G en el extremo del árbol.







                                                 Tequio, enero-abril 2021, vol. 4, no. 11
   68   69   70   71   72   73   74   75   76   77   78