
Los sistemas de visión por computadora basados en inteligencia artificial son cada vez más comunes y asequibles. No solamente eso, sino que la tecnología actual de redes de computadora y protocolos de comunicación permiten una integración transparente entre cámaras convencionales de video vigilancia y software que puede analizar este video en tiempo real y generar datos sobre los procesos productivos u operativos de un negocio.
Es decir, no es necesario adquirir e instalar cámaras inteligentes para analizar y generar datos de manera automatizada, continua y en tiempo real a partir de video.
Aunque las cámaras inteligentes son una excelente opción para generar datos sobre la detección e identificación de personas y vehículos, la integración de los datos que estas cámaras generan con los sistemas productivos de una empresa no es sencilla.
Además, estas cámaras son costosas y, si la necesidad llama para detectar cualquier otra cosa que no sea una persona o un vehículo, entonces las opciones de cámaras inteligentes se ven muy limitadas y difícilmente ofrecen una solución.
El protocolo de transmisión en tiempo real (RTSP, por sus siglás en inglés de Real Time Streaming Protocol) se utiliza para transferir datos de audio y video digital, por lo que hoy en día es utilizado casi de manera estándar por los fabricantes de equipos de video vigilancia.
Prácticamente todas las cámaras de vigilancia, administradores y grabadores de video (DVR o NVR) modernos utilizan este protocolo de comunicacion.

Este protocolo hace posible, y de manera muy sencilla, enviar vídeo desde una cámara o un grabador de video hacia una computadora que contiene y ejecuta modelos de inteligencia artificial.
Así, el video puede ser procesado por el modelo de inteligencia artificial para generar datos sobre personas y objetos de interés que aparecen en el video que generan las cámaras del sistema ya instalado —todo esto sin necesidad de adquirir e instalar nuevas y costosas cámaras inteligentes.
Una vez que el video se envía a una computadora, y para poder ser procesado, éste se descompone en frames o fotogramas.
Los modelos de inteligencia artificial aplicados a la visión por computadora se dividen en dos grandes categorías:

Los modelos de inteligencia artificial más ampliamente utilizados en el tratamiento de videos son los detectores.
Un modelo de inteligencia artificial para visión por computadora es una gran función matemática que resulta de combinar miles o millones de funciones simples (basadas en sumas y multiplicaciones de matrices).
Para ser procesado por la computadora y por el modelo de inteligencia artificial, un fotograma de video es representado matemáticamente mediante una matriz numérica de tres dimensiones (alto, ancho, color).
A estas matrices se les denomina tensores en lenguaje matemático. De hecho, los desarrollos de software para inteligencia artificial prefieren utilizar el concepto de tensor, y algunos de ellos lo toman como parte de su nombre (por ejemplo, TensorFlow).
Finalmente, una computadora procesa un tensor con la representación numérica de un fotograma usando el modelo de inteligencia artificial. Con esto se detectan patrones en los valores del tensor que indican la ubicación y categoría de los objetos de interés en cada fotograma.
Hoy en día existen repositorios o plataformas en donde es posible encontrar y descargar modelos de inteligencia artificial tanto para la detección, como para la clasificación.
Algunas de las plataformas más conocidas son:
Vale la pena resaltar que siempre debemos tomar en cuenta el tipo de licencia de uso de los modelos descargados de estos repositorios. Es común que la licencia no permita su uso comercial.
Cuando se descarga un modelo, lo que se obtiene es:

En este punto, aún hace falta tener el software que puede interpretar el modelo de inteligencia artificial descargado para utilizarlo sobre un fotograma.
A este proceso de interpretar un modelo de inteligencia artificial y generar datos a partir de un fotograma se le llama inferencia. Hoy en día existe software especializado para esta tarea y se les denomina servidores de inferencia. Algunos ejemplos son Open Vino Model Server, de Intel, Triton Inference Server de Nvidia, y ONNX Runtime de Microsoft.
Finalmente, y para generar valor, es necesario incorporar los resultados que genera el servidor de inferencia y combinarlos con los datos que genera la operación de su negocio. De esta manera, será posible conocer si el negocio está operando conforme a las reglas de operación definidas o descubrir comportamientos fuera de norma y levantar alertas o enviar notificaciones.
Como hemos descrito anteriormente, en la actualidad existen muchos desarrollos tecnológicos que facilitan la incorporación de la inteligencia artificial en los procesos de cualquier empresa y permiten el análisis en tiempo real del vídeo de cámaras convencionales de video vigilancia. En esta ocasión hemos descrito, aunque de manera breve y superficial, desarrollos de software que pueden analizar video y detectar objetos de interés tan bien o mejor de lo que un humano puede hacerlo. En posteriores ediciones de este blog estaremos hablando de los grandes avances en hardware que hacen posible el análisis de video en tiempo real y que ponen esta tecnología al alcance de todos.