Dibujar un boceto exacto de la cara de una persona es un arte que resulta difícil de dominar para la mayoría de la gente. Pero es relativamente fácil para los ordenadores. Existen varios programas para convertir imágenes en dibujos. Aunque suelen generar un punto de partida decente, pueden flaquear a la hora de lidiar con sombras y altos contrastes.
Un enfoque más prometedor consiste en utilizar algoritmos de visión de máquinas que dependen de redes neuronales para extraer rasgos exactos de una imagen y generar un boceto. En este área, las máquinas han empezado a igualar, e incluso superar, el rendimiento humano al dibujar bocetos veraces.
Pero ¿qué pasa con el problema inverso? Es decir, por coger un boceto o dibujo y generar una foto realista en color de la cara original. Está claro que representa una tarea mucho más difícil, tanto que los humanos rara vez lo intentan.
Ahora las máquinas han resuelto este problema. Yagmur Gucluturk, Umut Guclu y sus compañeros de la Universidad Radboud en Dinamarca han enseñado a una red neuronal a convertir bocetos de caras dibujadas a mano en retratos fotorrealistas. El trabajo representa otra demostración más del modo en que las máquinas inteligentes, y las redes neuronales en particular, empiezan a superar el rendimiento humano en un abanico cada vez más amplio de tareas.
El equipo de la Universidad de Radboud empezó con un conjunto de datos de 200.000 imágenes de caras recogidas de internet. Las convirtió en bocetos, en color y con escala de grises, con algoritmos de procesamiento de imágenes convencionales. Esto generó un conjunto de datos de tamaño considerable con el que entrenar una red neuronal convolucional profunda (DCCN, por sus siglas en inglés) de 11 capas para realizar la tarea inversa: convertir un boceto en una fotografía fotorrealista en color de una cara.
Tras entrenar la red, el equipo la probó con otro conjunto de datos. La tarea asignada a la red neuronal era empezar con el boceto y generar una imagen fotorrealista.
Los resultados son impresionantes, especialmente cuando la red neuronal parte de dibujos a línea, como lo de los cómics sin colorear. “Encontramos que el modelo lineal rindió de forma impresionante en cuanto a acertar con el color del pelo y tono de piel de los individuos incluso cuando los dibujos carecían de cualquier información de color”, escribió el equipo.
La razón parece estar clara. “Esto podría indicar que, además de aprovechar las diferencias de luminosidad en los bocetos para inferir los colores, el modelo fue capaz de aprender las características del color usualmente asociado con los rasgos genéricos de diferentes etnias”, sugieren los autores.
Después, el equipo probó la red neuronal con otro conjunto totalmente distinto de datos: bocetos dibujados a mano que obviamente fueron generados de una forma completamente distinta de las que se utilizaron para entrenar la red. “De nuevo, el modelo sintetizó imágenes fotorrealistas de caras”, afirman.
La red no fue perfecta, por supuesto. En particular, le resultó difícil rendir bien cuando los trazos de lápiz no estaban sombreados, lo que dio paso a unos resultados menos realistas. “Esto puede explicarse por la falta de ese tipo de características en los datos de entrenamiento del modelo del dibujo lineal”, escriben. Sin embargo, piensan que este déficit puede superarse fácilmente “al incluir ejemplos en el conjunto de datos de entrenamiento que guarden un mayor parecido con el estilo de los dibujantes”.
Por último, el equipo permitió que su red neuronal probara con la producción de imágenes fotorrealistas de artistas como Rembrant y Van Gogh a partir de ejemplos de autorretratos hechos por los propios artistas.
Es un trabajo impresionante que demuestra cómo las redes neuronales profundas empiezan a superar rápidamente el rendimiento humano en tareas de visión. La aplicación inmediata más obvia de este trabajo será en el campo forense, en el que los dibujantes de la policía tienen que realizar imágenes precisas de los sospechosos.
Y esta sólo representa una de las muchas maneras en las que estas máquinas están demostrando su supremacía. Los algoritmos de visión de máquinas también pueden ejecutar tareas como copiar y pegar el estilo artístico de una imagen a otra, añadir color de forma veraz a imágenes en escala de grises y transformar imágenes con baja resolución en otras con alta.
Todo esto sucede tras pocos años de desarrollo. A las redes neuronales profundas aún les queda mucho camino por recorrer. Es difícil predecir de lo que serán capaces en tan sólo, digamos, un año.