Empecemos por encontrar la forma de calcular posibles repeticiones en una secuencia aleatoria cualquiera de ADN.

Partimos de una secuencia sencilla de 10 nucleótidos y consideramos inicialmente una sola cadena.

En este caso ATGTCGAACC, y por la cuenta de la vieja, observamos lo siguiente:

 

Podríamos añadir que en una secuencia de 10, habría 4 secuencias posibles de 7; 3 de 8; 2 de 9 y 1 de 10.

Para cualquier secuencia de” n” nucleótidos, el nº de secuencias posibles de “m” nucleótidos, vendría dado por la fórmula   n – (m-1); y, por ejemplo, en unas secuencia de 100 nucleótidos, las secuencias posibles tomadas  de 10 en 10 nucleótidos en ese tramo serían: 100 –(10-1)= 91 secuencias.

Pero esas  91 secuencias, en realidad, serían el doble de las mismas, ya que en la otra hebra de la misma secuencia sucedería lo mismo. 91 secuencias y 91 secuencias de 10 nucleótidos a considerar: 2 (n-(m-1)) = 2 (100-(10-1)) = 2 x 91 = 182 posibles secuencias simples de 10 bases en un tramo de 100 pares de bases.

Este sencillo cálculo – realizado por la cuenta de la vieja-  nos permite calcular, a su vez, la posibilidad de encontrar repeticiones de secuencias en un tramo del ADN, pongamos , por ejemplo, un cromosoma,; o incluso en todo el genoma.

Para ello es necesario tener en cuenta otro dato: el nº de secuencias diferentes posibles de “m” pares de bases. Su número se calcula por la fórmula “4m “, ya que cada posición de la secuencia “m” puede estar ocupada por uno de los 4 nucleótidos posibles.

Por lo tanto y, por ejemplo, para calcular la probabilidad de encontrar una repetición de la misma secuencia de 3 pares de bases en un tramo de 10 pares de bases ( y suponiendo que la secuencia sea aleatoria) sería = secuencias de 3 posibles existentes en ese tramo de ADN/ total de secuencias de 3 pb posibles = 2(10-(3-1))/ 43 = 16/64 =  ¼; o sea un 25% de probabilidad. En una de cada 4 ocasiones encontraremos otra igual.

Lógicamente, a medida que aumenta la longitud de la posible secuencia repetida, la probabilidad de que se repita se va haciendo menor ya que el denominador se incrementa exponencialmente frente al numerador que sólo aumenta de forma aritmética. Pero un cromosoma, o el genoma,  tienen cientos o miles de millones de pares de bases, por lo que la probabilidad de repetición de secuencias concretas aumenta considerablemente si el tamaño de la repetición de secuencia es bajo.

Por ejemplo, ¿qué probabilidad existe de que en un cromosoma de 250 millones de pares de bases, se repita la secuencia “ATTGCT” en cualquiera de sus tramos?.  Aplicamos la fórmula 2(250.000.000 –(6-1))/ 46 = 2 x 249.999.995/4096 = 499.999.990/ 4096 = 122.070,3. Lo que quiere decir que, por probabilidad nos encontraremos con 122.000 secuencias repetidas en ese cromosoma que contengan esa misma secuencia concreta  de 6 pares de bases. Y si esa secuencia es de 10 pares de bases “ATTGCTGTAT” u otra cualquiera de 10 pb,?. Al aplicar la fórmula  499.999.990/410= 499.999.990/1.048.576= 47,7. Nos encontraríamos con cerca de 50 repeticiones de la misma secuencia de 10 pb en ese mismo cromosoma, bien en una o en la otra hebra del ADN o en ambas (en este caso invertidas).

Como se ve, y como puede deducirse, el nº de secuencias repetidas  ( o repeticiones de secuencia) es relativamente frecuente si la secuencia considerada es corta, pero, a medida que la secuencia se alarga, la frecuencia de repeticiones se va haciendo progresiva y considerablemente menor. Así, por ejemplo, si la secuencia es de 20 pares de bases, la probabilidad de encontrárnosla repetida en algún otro tramo del genoma humano = 2(3.200.000.000 – (20-1))/ 420 y, haciendo el cálculo 6.399.999.962 /  1.099.511.627.776 = 0,005820. O sea, un 0,58% de encontrar 2 secuencias iguales de 20 pb en todo el genoma humano. Ni siquiera llegaríamos a la posibilidad de encontrar otra igual (aunque sólo fuese una).

Todos los cálculos anteriores se han realizado con la premisa de que la secuencia de un cromosoma, o del genoma completo fuese aleatoria. Es decir que el orden en que los pares de bases se dispusieran al azar unos a continuación de los otros.

Lo paradójico de este asunto es que, en la realidad,  las repeticiones de secuencia en el genoma humano son extraordinariamente abundantes y, no sólo de pocos pares de bases , o  de decenas de pares de bases,……… sino también de centenares o incluso miles de pares de bases. Las encontramos en ocasiones dispersas en diferentes tramos del genoma y otras repetidas a continuación unas de otras. Este es un hecho que entra en contradicción de lo que cabría esperar si el genoma humano fuese exclusivamente azaroso.

Estos cálculos nos obligan a considerar que la evolución del genoma humano no sólo no es aleatoria, sino que la repetición de sus secuencias debe tener algún significado evolutivo y, por tanto deben existir mecanismos que “prejuzguen” de algún modo la necesidad de dichas repeticiones con los consiguientes mecanismos “genómicos” para realizarlas.

También nos lleva plantearnos las propias teorías de la evolución biológica, o al menos a matizarlas.