Se conoce que el genoma humano tiene aproximadamente 6.400 millones de pares de bases (6.400 megabases Mb; 1Mb= 1.000.000 de pares de bases).

En realidad  son  2 genomas de ADN , envasados cada uno de ellos en el conjunto de uno de los cromosomas de cada pareja que poseemos.

Cada uno de esos 2 genomas, en sus 23 cromosomas, suponen un total de 3.200 Mb

En secuencias de hebras aisladas -ya que cada ADN contiene 2 hebras- serían 4 secuencias de 6.400 Mb, que haría 25.600 millones de bases letra tras letra (nucleótido tras nucleótido).

Al comparar los genomas de personas, cuyas secuencias ya se conocen, se ha comprobado que existe una diferencia entre unos y otros que alcanza sólo un 0,3% en cuanto al número de letras en que difieren. Estas diferencias se localizan en casi todos los lugares de la larga fila de letras, pero nunca superan un 0,3%. Podríamos decir que somos iguales en casi 25.000 millones de letras y diferentes en 75 millones de letras, ni siquiera en 100 millones de los 25.000 millones (un 99,7% común e iguales). ¿tendíamos que tener todos los humanos un parecido de un 99,7%?. No, ya que las diferencias ocurren en todas las partes de la gran secuencia genómica y, unos difieren más en unas con respecto a otras y aquellas en otras partes diferentes respecto a otro individuo, aunque, en conjunto y estadísticamente, tengamos tanto genoma común.

Si tuviésemos que almacenar los datos del genoma completo de un individuo, necesitaríamos una memoria descomunal. Y si lo hiciéramos  de muchos individuos, imagínese usted.

Una estrategia de almacenamiento de tales datos que, además, irán incrementándose sucesivamente a medida del mayor nº de nuevas secuenciaciones, convertirían la base de datos almacenada en poco menos que imposible. O, al menos, en costosísima.

Una estrategia factible para almacenar tan ingente cantidad de datos en el mínimo espacio posible, puede ser la que exponemos a continuación con un sencillo ejemplo, reflejado en la tabla siguiente.

En la tabla pueden observar una pequeña secuencia de ADN en 10 personas en un tramo genómico concreto de 10 nucleótidos. En la mayoría de las 10 personas las coincidencias en la secuencia  son mayoría y existen pequeñas diferencias, tal como sucede realmente en la secuencia total ( 99,7 % igual y 0,3% de diferencia)

Podemos tomar una secuencia estándar concreta entre esas 10 (tengámosla almacenada) y expresemos, en el resto de secuencias de otras personas, sólo las diferencias  respecto a la secuencia que hemos tomada como estándar o referencia a todas ellas.

Si la secuencia de la persona 1 es la escogida como referente estándar, bastaría con indicar que la persona 2 es 3G, la persona 3 es 8C, la persona 4 es 10 A, la 5 es 5G, la 6 es 0, la 7 es 4C, la 8 es 8T, la 9 es 7T y la 10 es 2T, tal y como nos muestra la tabla.

Como se habrá dado cuenta, el número hace referencia a la posición del nucleótido en la secuencia y la letra es el nucleótido concreto diferente del de la secuencia estándar. Lo mismo podría hacerse con otras posibles diferencias que pudiesen afectar a un mayor número de bases o letras.

Incluso, para una mayor seguridad y evitar posibles errores. podrían tomarse  no sólo una sino varias secuencias diferentes como estándar-referentes, y así,  al comparar un genoma concreto con todas ellas observar si concuerda su resultado. Se evitaría de este modo los posibles errores que pudieran cometerse al compararlo con sólo una de ellas.

Todo ello reduciría el espacio de almacenamiento y facilitaría, en caso necesario, obtener cualquier secuencia individual completa solicitada con más facilidad y mayor rapidez.

Otro aspecto importante a tener en cuenta referente a las bases de datos genómicos es  el de su privacidad y seguridad que tendrá que reglamentarse y  protegerse adecuadamente. Pero esto es otro tema.