La problemática de la clasificación de objetos en imágenes dentro del área de la visión por ordenador lleva años presente. La clasificación consiste en determinar categorías de objetos dentro una imagen a partir de clases predefinidas. En las últimas décadas se han investigado muchos enfoques para encontrar soluciones óptimas, entre éstas Deep Learning nos ofrece grandes avances en la actualidad.   

Deep learning permite enseñar a los ordenadores el aspecto que poseen diferentes objetos, permitiendo identificar posteriormente objetos similares. Una de las técnicas más utilizadas en el reconocimiento, clasificación y detección en imágenes son las Convolutional Neural Networks llamadas CNNs. Las redes neuronales están formadas por capas (layers) encargadas de extraer características de las propias imágenes.

El aprendizaje de las redes neuronales precisa de una gran cantidad de datos, en nuestro caso imágenes, para obtener altos ratios de fiabilidad. En el caso de la clasificación se utiliza un aprendizaje supervisado. Nos tenemos que asegurar de que las imágenes están correctamente etiquetadas de manera que el ordenador sea capaz de encontrar patrones en todas las imágenes etiquetadas igualmente.

El entrenamiento y posterior análisis de imágenes a partir de una red neuronal generada requiere de una alta capacidad computacional. Infraestructuras en el cloud en donde podemos aprovechar la escalabilidad y la utilización de GPUs nos puede ayudar a reducir costes en el despliegue y posterior explotación.