White Paper: Transforma tu sistema de video seguridad en un sistema inteligente de monitoreo de tus procesos

El Dr. Inés Vega explica cómo usar RTSP y modelos de IA para obtener datos operativos en tiempo real, sin invertir en cámaras costosas. ¡Transforma tu video en valor de negocio!
Dr Ines Vega
October 27, 2025

Resumen ejecutivo

Los sistemas de visión por computadora basados en inteligencia artificial son cada vez más comunes y asequibles. No solamente eso, sino que la tecnología actual de redes de computadora y protocolos de comunicación permiten una integración transparente entre cámaras convencionales de video vigilancia y software que puede analizar este video en tiempo real y generar datos sobre los procesos productivos u operativos de un negocio.

Es decir, no es necesario adquirir e instalar cámaras inteligentes para analizar y generar datos de manera automatizada, continua y en tiempo real a partir de video.

Aunque las cámaras inteligentes son una excelente opción para generar datos sobre la detección e identificación de personas y vehículos, la integración de los datos que estas cámaras generan con los sistemas productivos de una empresa no es sencilla.

Además, estas cámaras son costosas y, si la necesidad llama para detectar cualquier otra cosa que no sea una persona o un vehículo, entonces las opciones de cámaras inteligentes se ven muy limitadas y difícilmente ofrecen una solución.

1. La tecnología de comunicación que lo hace posible

El protocolo de transmisión en tiempo real (RTSP, por sus siglás en inglés de Real Time Streaming Protocol) se utiliza para transferir datos de audio y video digital, por lo que hoy en día es utilizado casi de manera estándar por los fabricantes de equipos de video vigilancia.

Prácticamente todas las cámaras de vigilancia, administradores y grabadores de video (DVR o NVR) modernos utilizan este protocolo de comunicacion.

Este protocolo hace posible, y de manera muy sencilla, enviar vídeo desde una cámara o un grabador de video hacia una computadora que contiene y ejecuta modelos de inteligencia artificial.

Así, el video puede ser procesado por el modelo de inteligencia artificial para generar datos sobre personas y objetos de interés que aparecen en el video que generan las cámaras del sistema ya instalado —todo esto sin necesidad de adquirir e instalar nuevas y costosas cámaras inteligentes.

Una vez que el video se envía a una computadora, y para poder ser procesado, éste se descompone en frames o fotogramas.

  • Usualmente hay entre 10 y 25 fotogramas por cada segundo de video, dependiendo de la configuración y características de la cámara.
  • Mientras la percepción humana de movimiento continuo en un video surge cuando el cerebro fusiona los patrones observados en fotogramas contiguos, en una computadora cada fotograma es procesado individualmente.
  • De manera que el análisis del movimiento de los objetos en el video requiere de algoritmos especializados de seguimiento.

2. Modelos de inteligencia artificial aplicados a la visión por computadora

Los modelos de inteligencia artificial aplicados a la visión por computadora se dividen en dos grandes categorías:

  • Detectores: encuentran (o detectan) todos los objetos de interés que ocurren en un frame o fotograma de vídeo. El resultado de estos modelos indica tanto la ubicación (demarcada por un rectángulo) como la categoría de los objetos detectados.
  • Clasificadores: determinan a qué clase o categoría corresponde el objeto principal en un fotograma. El resultado de estos modelos es una sola categoría que se asocia a la imagen completa.

Los modelos de inteligencia artificial más ampliamente utilizados en el tratamiento de videos son los detectores.

Un modelo de inteligencia artificial para visión por computadora es una gran función matemática que resulta de combinar miles o millones de funciones simples (basadas en sumas y multiplicaciones de matrices).

Para ser procesado por la computadora y por el modelo de inteligencia artificial, un fotograma de video es representado matemáticamente mediante una matriz numérica de tres dimensiones (alto, ancho, color). 

A estas matrices se les denomina tensores en lenguaje matemático. De hecho, los desarrollos de software para inteligencia artificial prefieren utilizar el concepto de tensor, y algunos de ellos lo toman como parte de su nombre (por ejemplo, TensorFlow).

Finalmente, una computadora procesa un tensor con la representación numérica de un fotograma usando el modelo de inteligencia artificial. Con esto se detectan patrones en los valores del tensor que indican la ubicación y categoría de los objetos de interés en cada fotograma.

3. Plataformas y modelos disponibles

Hoy en día existen repositorios o plataformas en donde es posible encontrar y descargar modelos de inteligencia artificial tanto para la detección, como para la clasificación.
Algunas de las plataformas más conocidas son:

  • Hugging Face
  • Roboflow
  • TensorFlow Hub

Vale la pena resaltar que siempre debemos tomar en cuenta el tipo de licencia de uso de los modelos descargados de estos repositorios. Es común que la licencia no permita su uso comercial.

Cuando se descarga un modelo, lo que se obtiene es:

  • La función matemática del modelo (coeficientes numéricos, también llamados pesos)
  • Una tabla de etiquetas, que permite asociar los valores numéricos con textos comprensibles para el usuario humano.

En este punto, aún hace falta tener el software que puede interpretar el modelo de inteligencia artificial descargado para utilizarlo sobre un fotograma.

A este proceso de interpretar un modelo de inteligencia artificial y generar datos a partir de un fotograma se le llama inferencia. Hoy en día existe software especializado para esta tarea y se les denomina servidores de inferencia. Algunos ejemplos son Open Vino Model Server, de Intel, Triton Inference Server de Nvidia, y ONNX Runtime de Microsoft.

Finalmente, y para generar valor, es necesario incorporar los resultados que genera el servidor de inferencia y combinarlos con los datos que genera la operación de su negocio. De esta manera, será posible conocer si el negocio está operando conforme a las reglas de operación definidas o descubrir comportamientos fuera de norma y levantar alertas o enviar notificaciones.

Conclusiones

Como hemos descrito anteriormente, en la actualidad existen muchos desarrollos tecnológicos que facilitan la incorporación de la inteligencia artificial en los procesos de cualquier empresa y permiten el análisis en tiempo real del vídeo de cámaras convencionales de video vigilancia. En esta ocasión hemos descrito, aunque de manera breve y superficial, desarrollos de software que pueden analizar video y detectar objetos de interés tan bien o mejor de lo que un humano puede hacerlo. En posteriores ediciones de este blog estaremos hablando de los grandes avances en hardware que hacen posible el análisis de video en tiempo real y que ponen esta tecnología al alcance de todos.

Comparte este artículo
Dr Ines Vega
ines.vega@intellion.ai