The Protein Folding Problem

Javier Viaña
Ph.D. Explainable AI
Publicado Enero 27, 2020

El  reto

Las proteínas son los constituyentes esenciales de las células vivas. Entre otras funciones, se encargan de la creación de tejidos, enzimas, hormonas y anticuerpos. Pero aun siendo un elemento tan básico, su forma es altamente compleja.

Cada proteína puede representarse como una cadena de aminoácidos, una secuencia de datos. Según esta información, la cadena tiene una forma u otra. Es decir, los aminoácidos pliegan, estiran y enroscan la estructura tridimensional de las proteínas. Cuanto más larga es la secuencia de datos, mayor es la complejidad del aspecto final que adopta.

El verdadero reto es predecir con exactitud qué forma tiene una proteína en función de los aminoácidos que componen a ésta.

La historia

El problema se remonta a 1972, cuando Christian Anfinsen, premio Nobel de Química, postuló que esto era posible.

Durante los últimos 50 años, los métodos de predicción han sido, en su mayoría, experimentales. Cuyo coste computacional era excesivo en algunos casos. De hecho, se ha estimado que existen alrededor de 10^300 posibles configuraciones para una proteína típica. Un cálculo que duraría más que la edad de nuestro universo.

Pero hace 3 meses, este gran reto cambió radicalmente. AlphaFold, el algoritmo creado por DeepMind, ha sido capaz de obtener un resultado casi perfecto en comparación con los anteriores métodos. La startup inglesa que ya hizo historia con AlphaGo derrotando al famoso jugador de Go profesional, Lee Sedol.

El método

AlphaFold, ha sido entrenado con la base de datos Protein Data Bank. El algoritmo utiliza tanto la secuencia de aminoácidos como la estructura final de la proteína para optimizar sus parámetros.

En primer lugar, calcula una matriz de covariación de la cadena de aminoácidos (el input) con respecto a secuencias de aminoácidos homólogas (obtenidas de la base de datos). La imagen resultante, se inserta en una Red Neuronal Convolucional para su procesamiento.

El output de esta arquitectura, es un mapa de características propias de la cadena de la proteína. Con este nuevo resultado, se puede obtener una primera aproximación de la estructura tridimensional.

Llegados a esta fase, la forma de la proteína se caracteriza por dos distribuciones. La distribución de distancias y la de rotaciones. Básicamente, la primera indica en qué lugar del espacio hay fragmentos de la proteína, y la segunda cuál es el ángulo o cómo de retorcida está en ese punto.

Utilizando la información de éstas dos, el algoritmo obtiene una variable específica para cada proteína, el potencial. Se trata de un modelo matemático que puede derivarse. Por lo tanto, es posible aplicar las reglas de aprendizaje del gradiente de la función potencial. La geometría final, refinada, se compara con la solución experimental obtenida mediante cristalografía de rayos X o crio-microscopia electrónica de alta resolución.

Las consecuencias

Estos resultados marcan un nuevo hito en la carrera de la Inteligencia Artificial. Sus aplicaciones son múltiples, desde ayudar en el descubrimiento de nuevas medicinas, o en la comprensión de ciertas enfermedades, hasta proporcionar las claves para degradar el plástico contenido en los océanos.

Nos encontramos a las puertas de una era de investigación en la evolución de las proteínas. Una nueva etapa en la biología molecular repleta de descubrimientos.