Proyecto ARgos

ARgos: Sistema de Ayuda a al Gestión Documental basado en Visión por Computador y Realidad Aumentada

Descripción General

El proyecto ARgos se basa en la utilización de técnicas de Visión por Computador y de Realidad Aumentada para la ayuda a la gestión documental. Mediante técnicas de visión por computador, el sistema identifica el documento con el que está trabajando el usuario, así como la interacción directa que se realiza sobre el mismo. Un sistema de cómputo analiza la entrada y muestra información ampliada multimodal (visual y auditiva) sobre el nodo de información de trabajo actual. La Figura 1 muestra los componentes funcionales necesarios en el sistema:

  1. Cámara USB: El sistema emplea una cámara de bajo coste como entrada al módulo de visión por computador.
  2. Cañón de proyección: El sistema empleará un cañón de proyección para mostrar información visual directamente alineada sobre el documento del mundo físico. El sistema responderá a las peticiones que el usuario realice directamente sobre el espacio físico ampliando información relacionada que sea relevante a la acción que quiera realizar.
  3. Sistema de cómputo: El sistema de cómputo se encargará de tomar como entrada las imágenes obtenidas por la cámara USB y generar la salida para el cañón de proyección. Esta salida deberá tener en cuenta el posicionamiento 3D relativo entre el documento y el cañón para que el registro de la amplificación visual sea perfecto. El documento podrá moverse dentro de una región del escritorio y la amplificación deberá quedar perfectamente alineada en el espacio físico. El sistema de cómputo además deberá generar información auditiva relevante al documento que está siendo tratado (por ejemplo, sintetizando voz o generando alertas sonoras), así como mostrar información adicional en una pantalla.

Figura 1. Esquema de componentes funcionales de ARgos. Todos los componentes serán integrados en un prototipo de tamaño reducido (12x12cm)

Para facilitar la identificación del documento y el registro en el espacio físico, el sistema contará con marcas de posicionamiento pasivo (que facilitarán el tracking 3D del documento en el escritorio físico), así como códigos de identificación opcionales que podrán aparecer en los márgenes del documento físico.

El objetivo principal del proyecto ARgos es la construcción de un sistema de ayuda a la gestión de documentos mediante el uso de técnicas de visión por computador y síntesis visual y auditiva en el espacio físico, empleando técnicas de realidad aumentada.

A partir de este objetivo general se pueden identificar los siguientes objetivos específicos y resultados esperados:

  1. Sistema de identificación de documentos. ARgos contará con un sistema de identificación rápida de documentos empleando algoritmos específicos de visión por computador. A partir de una imagen 2D, el sistema calculará la distorsión debida a la proyección en perspectiva (a partir de los parámetros extrínsecos e intrínsecos de la cámara), y comparará el documento que está siendo analizado con una base de datos de documentos conocidos por el sistema.
  2. Interacción en el espacio físico. El usuario podrá interactuar directamente en el espacio físico señalando con el dedo sobre el papel. El sistema podría aceptar igualmente órdenes de voz, de modo que no sea necesario tocar el ratón o el teclado del ordenador para la utilización del mismo.
  3. Amplificación multimodal. ARgos contará con diferentes modos de amplificación de la información del mundo real. Por un lado, la información visual se amplificará empleando el cañón de proyección que mostrará información relevante al contexto directamente sobre el espacio del papel. El sistema de cómputo generará a la vez información auditiva relevante a la operación que se está realizando (síntesis de voz y alertas sonoras). La pantalla del sistema de cómputo podrá mostrar información 3D perfectamente alineada en el espacio del documento, así como otras fuentes de información visual adicionales.
  4. Componentes de bajo coste. Para facilitar la implantación real en el entorno de trabajo, ARgos deberá funcionar con componentes de bajo coste incorporando mecanismos de corrección de distorsión y registro 3D totalmente software.

El proyecto ARgos facilitará la integración laboral de cualquier persona con discapacidad que tenga que gestionar documentación impresa. En concreto, se pueden definir multitud de escenarios de implantación:

  • En el ámbito de la discapacidad visual: La amplificación auditiva puede sintetizar voz que lea total o parcialmente el documento impreso. Si la discapacidad visual es parcial, el cañón de proyección puede mostrar el texto convenientemente ampliado, tanto en el espacio físico del documento como sobre la pantalla del sistema de cómputo.
  • En el ámbito de la discapacidad intelectual: ARgos puede facilitar la gestión documental incorporando ayudas sensibles al contexto que guíen al usuario sobre los pasos que tiene que realizar para tramitar el documento (gestionar una solicitud, o enviar el documento a un determinado departamento). Estos pasos, a modo de asistente, pueden mostrarse directamente sobre el espacio del documento físico apoyados con información auditiva o sintética en la pantalla.
  • En el ámbito de la discapacidad auditiva: Sería posible utilizar algún servicio de síntesis de lengua de signos o contactar automáticamente online con un intérprete humano que traduzca el documento total o parcialmente a lengua de signos. Esta traducción podría representarse directamente en el espacio físico del documento (sobre el escritorio) o en la pantalla del sistema de cómputo.