Google Cloud Vision API es una fantástica herramienta en la nube de Google que permite analizar gran cantidad de imágenes y extraer información valiosa para comprender su contenido.

Vision API proporciona una interfaz RESTful que facilita la tarea de tener que desarrollar algoritmos de procesamiento de imágenes. Vision API soporta formatos de archivo de imagen como JPEG, BMP, RAW, PNG. Para un análisis lo más preciso posible, la resolución de imagen mínima recomendada es VGA (640 × 480 píxeles), y el tamaño de los ficheros no debe superar los 4 MB.

Mediante peticiones a la API para que analice una imagen concreta, podemos extraer diferentes tipos de características explicadas a continuación.

  • La característica Face Detection tiene como objetivo detectar caras humanas en imágenes. Se debe tener en cuenta que no es lo mismo detección de caras y reconocimiento de caras. El reconocimiento de caras intenta hacer coincidir información biométrica asociada a una cara detectada con información biométrica de caras almacenadas y etiquetadas.

Esta característica funciona principalmente con la detección de caras vistas frontalmente. Además, es importante la distancia en píxeles entre pupilas para obtener una detección precisa. En ese sentido, la API ofrece buenos resultados cuando las distancia en píxeles entre pupilas es de un mínimo de 32 pixeles. Además, información como las coordenadas de la posición de la cara o caras detectadas, puntos de referencia (ojos, pupilas, nariz, boca, labios y otros), orientación de la cara (ángulos roll, pan y tilt) y emociones (sorpresa, enojo, alegría y otros) son algunas de las características que podemos obtener.

  • Landmark detection gira en torno a la identificación de estructuras populares ya sean naturales o construidas dentro de una imagen. La API nos devolverá la longitud y la latitud del punto de referencia identificado. Logo detection intenta identificar logotipos de productos dentro de una imagen. Así, la API de Google devuelve el logotipo de la marca del producto identificado y sus coordenadas dentro de la imagen.
  • Label detection agrega semántica a las imágenes de un conjunto de categorías predefinidas de objetos. La API devuelve una estructura JSON con todas las etiquetas encontradas y su tanto por ciento de acierto. Safe search detection intenta detectar contenido inapropiado en imágenes usando un modelo de red neuronal “deep learning” previamente entrenada.
  • Text detection extrae texto de una imagen mediante reconocimiento óptico de caracteres (OCR, del inglés Optical Character Recognition) siendo compatible con varios idiomas. Los algoritmos de OCR combinados con reglas semánticas son utilizados para el reconocimiento de matrículas, y de este modo, la API de Google Vision devuelve una cadena de texto y sus coordenadas.