Cómo funcionan los gestos tridimensionales

Feb 10 2012
Antes de la interfaz gráfica de usuario, necesitábamos comandos de texto para operar nuestras computadoras. Pero puede que no pase mucho tiempo antes de que podamos hacer nuestro trabajo gesticulando con las manos. ¿Qué herramientas lo hacen posible?
La cámara ZCam de 3DV System fue un predecesor sensible al movimiento de la tecnología de sistema de gestos 3-D actual.

¿Cómo se redefine una interfaz de usuario? ¿Qué pasos debe tomar para cambiar la forma en que las personas interactúan con la tecnología? No se trata sólo de desarrollar las herramientas adecuadas. También debe tener en cuenta la forma en que la gente quiere usar los dispositivos. La interfaz tecnológicamente más avanzada no significa nada si simplemente no se siente bien cuando lo sacas a dar una vuelta.

Pero estamos entrando en una era en la que necesitamos revisar las interfaces de usuario. Las computadoras aparecen en más dispositivos y aplicaciones cada año. Dentro de una década, incluso el aparato más básico podría albergar un tipo de computadora. Y con un énfasis creciente en el video 3-D, una nueva forma de aprovechar esta tercera dimensión requiere un enfoque innovador.

Un sistema de gestos en 3D es una forma de abordar este desafío. En su nivel más básico, un sistema de gestos en 3D interpreta los movimientos dentro de un espacio físico como comandos. Las aplicaciones de dicha tecnología se encuentran en el espectro de la informática, desde los videojuegos hasta la gestión de datos. Pero la creación de un sistema de gestos tridimensionales viable presenta una serie de desafíos.

Varios ingenieros han intentado crear sistemas que puedan interpretar nuestros movimientos como comandos de computadora. Pero, ¿qué tipo de aplicaciones harán posibles estos sistemas? ¿Y qué tipo de componentes son necesarios para armar un sistema de gestos en 3D?

Contenido
  1. Las dimensiones de un sistema de gestos tridimensionales
  2. Detección y Proyección
  3. Ir a fondo
  4. Un pequeño gesto de luz
  5. Más allá de la lente
  6. Nota del autor

Las dimensiones de un sistema de gestos tridimensionales

Xbox Kinect usa luz infrarroja para proyectar una cuadrícula frente a la vista de la cámara: los sensores miden la cuadrícula a medida que se deforma y registran los datos como movimiento.

Puede dividir las partes de un sistema de gestos 3D en dos categorías principales: hardware y software. Juntos, estos elementos interpretan tus movimientos y los traducen en comandos. Es posible que puedas acabar con los zombis en un videojuego, navegar por los menús mientras buscas el próximo éxito de taquilla para ver una noche de cine o incluso ponerte a trabajar en la próxima gran novela estadounidense con solo moverte.

En cuanto al hardware, necesitará un sistema de cámara , una computadora y una pantalla. El sistema de la cámara puede tener elementos adicionales incorporados para detectar la profundidad; es común usar un proyector de infrarrojos y un sensor de infrarrojos. La computadora toma los datos recopilados por la cámara y los sensores, procesa los números y muestra la imagen en la pantalla para que pueda ver los resultados. La pantalla presenta los datos de una manera que le permite juzgar qué tan lejos necesita moverse para manipular lo que está sucediendo.

Por el lado del software, necesitará aplicaciones que realmente conviertan la información recopilada por el software en resultados significativos. No todos los movimientos se convertirán en un comando, a veces puede hacer un movimiento accidental que la computadora confunde con una instrucción. Para evitar comandos no deseados, el software de gestos 3D tiene algoritmos de corrección de errores .

¿Por qué preocuparse por la corrección de errores? Es posible que un gesto deba alcanzar un umbral de confianza antes de que el software lo registre como un comando. De lo contrario, usar el sistema podría ser un ejercicio de frustración. Imagina que estás trabajando en un importante dibujo tridimensional moviendo las manos para cambiar su tamaño y forma. De repente, estornudas y el delicado trabajo que has hecho hasta ahora se arruina ya que tus acciones involuntarias hacen que el dibujo se distorsione dramáticamente.

Los algoritmos de corrección de errores requieren que sus acciones coincidan con los gestos preasignados dentro de un cierto nivel de confianza antes de que se lleve a cabo la acción. Si el software detecta que sus movimientos no alcanzan el nivel de confianza requerido, podría ignorar esos movimientos y no traducirlos en comandos. Esto también significa que es posible que deba realizar un gesto de una manera muy específica antes de que el sistema lo reconozca.

Algunos comandos pueden no ser tan sensibles como otros. Estos tendrían un umbral de confianza mucho más bajo. Por ejemplo, pasar de una imagen a otra moviendo la mano hacia la izquierda o hacia la derecha no es realmente un comando de misión crítica. Con un requisito de confianza más bajo, el sistema aceptará comandos más fácilmente.

Detección y Proyección

Reconocer gestos es solo una parte del trabajo del software. También tiene que interactuar con las aplicaciones para que los gestos que realice se traduzcan en acciones significativas en la pantalla. Con algunas aplicaciones, esto es bastante sencillo. Hojear un álbum de fotos puede depender solo de unos pocos gestos para navegar por las imágenes y acercar o alejar las vistas. Cada uno de esos gestos puede ser bastante simple.

Pero otros programas pueden requerir una mayor variedad de gestos complejos. Digamos que acaba de llegar a casa con la versión más nueva de "Extreme Table Tennis Pro Elite" y está listo para probar sus habilidades contra los oponentes informáticos más duros que jamás hayan levantado una paleta. Pones tu juego en un sistema de consola que tiene un componente de gestos en 3D y tomas una paleta real propia. ¿Qué pasa después?

El sistema analiza la escena frente a él. Detecta la presencia de la pala en tu mano. Cuando comienza el juego, miras la pantalla y esperas a que tu oponente haga una volea para servir. A medida que la pelota digital grita hacia usted, el sistema de gestos tridimensionales determina dónde iría realmente la pelota dentro del contexto de su espacio físico si fuera un objeto sólido real.

Haces tu jugada, preparando un malvado regreso con un loco efecto de retroceso. Ahora el sistema 3-D tiene que analizar su reacción, trazarla contra la trayectoria de vuelo de la pelota y determinar si hizo contacto o si la olfateó por completo. Suponiendo que tus asombrosas habilidades en el tenis de mesa no te hayan fallado, golpeas la pelota con éxito. Ahora el sistema tiene que determinar dónde iría la pelota digital en función de sus movimientos físicos reales. El software proyecta una trayectoria de vuelo y la pelota la sigue.

Es posible que algunos juegos no impliquen un accesorio físico. Tu progreso en el juego dependerá completamente de los movimientos que hagas con tu cuerpo. El trabajo del sistema es asegurarse de que las acciones que realice tengan un impacto adecuado en la progresión del juego. Y todas estas acciones deben tenerse en cuenta dentro del propio juego. ¡Es un gran trabajo! Es por eso que algunas aplicaciones requieren que se mueva de una manera específica para calibrar el sistema antes de comenzar.

Ir a fondo

Una cámara típica captura el mundo como una imagen bidimensional. La lente única dirige la luz a un sensor y un dispositivo de grabación captura los datos. Si bien podemos inferir qué tan lejos o cerca está un objeto de la cámara en función de su tamaño, en realidad no podemos distinguir una imagen tridimensional de un sistema de cámara bidimensional.

Esta limitación crea un problema con las interfaces basadas en gestos. Si te paras frente a una cámara normal y agitas los brazos, la cámara puede capturar el movimiento horizontal y vertical. Una computadora con el software adecuado podría interpretar esos movimientos como comandos. Pero, ¿y si acercas las manos a la cámara? Un sistema 2-D no puede interpretar estos movimientos. Y los sistemas 2-D pueden tener dificultades para distinguir entre un usuario y el fondo.

Entonces, ¿cómo se puede enseñar a una cámara a ver en tres dimensiones? Una forma es agregar una segunda cámara; esto se denomina sistema de cámara estéreo . Cada cámara captura imágenes dentro del mismo espacio físico. Los flujos de datos de las dos cámaras viajan a una sola computadora, que compara las imágenes y saca conclusiones sobre la profundidad en función de la información. Las dos cámaras no tienen que estar una al lado de la otra; puede colocar una para mirar una habitación de frente y la segunda cámara podría colocarse mirando hacia el piso desde el techo.

En cierto modo, esto imita cómo los humanos perciben la profundidad. Tendemos a juzgar qué tan lejos está algo de nosotros en función de varias señales visuales. Uno de ellos proviene del paralaje . Esto se refiere a cómo ambos ojos perciben la misma escena desde ángulos ligeramente diferentes. Si tuviera que dibujar líneas rectas desde sus ojos hasta un objeto dentro de su marco de visión, vería que las dos líneas convergen. Nuestros cerebros combinan la información de nuestros ojos para crear una imagen dentro de nuestras mentes.

¡Entendido!

Los cineastas se han aprovechado de las limitaciones de las cámaras 2-D para crear efectos especiales. Por ejemplo, la perspectiva forzada puede hacer que un objeto parezca más grande o más pequeño de lo que realmente es colocándolo a una distancia adecuada de la cámara. Varias tomas de la serie "El señor de los anillos" aprovecharon este efecto para hacer que los hobbits parecieran seres diminutos en un mundo del tamaño de un humano.

Un pequeño gesto de luz

¿Qué viaja a 299.792.458 metros por segundo en el vacío? No, no es un conejo de polvo. es ligero _ Puede parecerle trivial, pero la velocidad de la luz es útil cuando está construyendo un sistema de gestos en 3D, especialmente si se trata de un arreglo de tiempo de vuelo.

Este tipo de sistema de gestos 3D combina un sensor de profundidad y un proyector con la cámara. El proyector emite luz en pulsos, generalmente es luz infrarroja, que está fuera del espectro de luz visible para los humanos. El sensor detecta la luz infrarroja reflejada en todo lo que se encuentra frente al proyector. Un temporizador mide cuánto tarda la luz en salir del proyector, reflejarse en los objetos y volver al sensor. A medida que los objetos se mueven, la cantidad de tiempo que tarda la luz en viajar variará y la computadora interpreta los datos como movimientos y comandos.

Imagina que estás jugando un videojuego de tenis con un sistema de gestos en 3D. Estás listo, esperando recibir un servicio de tu oponente de la computadora altamente sembrado. El sistema de gestos tridimensionales toma nota de dónde se encuentra en relación con su entorno: la luz infrarroja lo golpea y se refleja de regreso al sensor, lo que le brinda a la computadora todos los datos que necesita para conocer su posición.

Tu oponente saca la pelota y tú te pones en movimiento, balanceando tu brazo hacia adelante para interceptar la pelota. Durante este tiempo, el proyector continúa emitiendo pulsos de luz infrarroja millones de veces por segundo. A medida que su mano se aleja y luego se acerca a la cámara , la cantidad de tiempo que tarda la luz infrarroja en llegar al sensor cambia. Estos cambios son interpretados por el software de la computadora como movimiento y luego interpretados como comandos de videojuegos. Tu representación de videojuegos devuelve el servicio, gana un punto y la multitud virtual se vuelve loca.

Otra forma de trazar un cuerpo tridimensional es usar un método llamado luz estructurada. Con este enfoque, un proyector emite luz, nuevamente fuera del espectro de luz visible, en un patrón de cuadrícula. A medida que la cuadrícula encuentra objetos físicos, se distorsiona. Un sensor detecta esta distorsión y envía los datos a una computadora, que mide la distorsión. A medida que te mueves, tus movimientos harán que la cuadrícula se distorsione de diferentes maneras. Estas diferencias crean los datos que la computadora necesita para interpretar sus movimientos como comandos.

Un sistema de gestos 3-D no tiene que depender de un solo enfoque tecnológico. Algunos sistemas podrían usar una combinación de múltiples tecnologías para saber dónde estás y qué estás haciendo.

Controlar los gestos

Algunos sistemas de gestos usan uno o más controladores en lugar de cámaras para detectar movimiento. El control remoto Nintendo Wii y el controlador Sony Move son ejemplos. Estos dispositivos contienen sensores adicionales que detectan la orientación y la aceleración.

Más allá de la lente

Kinect es probablemente el sistema de gestos 3-D más reconocible en el mercado de consumo en este momento, pero pronto se le unirán muchos más productos.

¿Es el control de gestos 3-D la interfaz del futuro? Eso dependerá del ingenio de los ingenieros, la eficiencia de los diversos sistemas y el comportamiento de los usuarios. Diseñar una interfaz de usuario funcional no es una tarea fácil: hay cientos de productos fallidos que en un momento u otro iban a revolucionar la forma en que interactuamos con las máquinas. Para que los sistemas de gestos en 3D eviten el mismo destino, tendrán que ser útiles y fiables. Eso no solo depende de la tecnología sino de la psicología del usuario.

Si un gesto en particular no tiene sentido para un usuario, es posible que no esté dispuesto a usar el sistema en su totalidad. Probablemente no querrás tener que realizar el "Hokey Pokey" solo para cambiar el canal, pero si lo haces, está bien, no te juzgamos. Crear un buen sistema significa no solo perfeccionar la tecnología, sino también predecir cómo la gente querrá usarla. Eso no siempre es fácil.

Ya hay algunos sistemas de gestos 3-D en el mercado. Kinect de Microsoft es probablemente el sistema más familiar para el consumidor medio. Te permite controlar tu Xbox 360 con gestos y comandos de voz. En 2012, Microsoft anunció planes para incorporar una funcionalidad similar a Kinect en las máquinas con Windows 8. Y la comunidad de hackers realmente ha adoptado Kinect, manipulándolo para proyectos que van desde la tecnología de escaneo 3-D hasta la robótica.

En CES 2012, varias empresas exhibieron dispositivos que incluían reconocimiento de gestos en 3D. Una empresa, SoftKinetic, demostró un sistema de tiempo de vuelo que se mantuvo preciso incluso cuando los objetos estaban a solo unos centímetros de la cámara. Un sistema de tiempo de vuelo mide las distancias en función de la rapidez con la que la luz se refleja en un objeto, en función de la velocidad de la luz. Si las empresas quieren incluir funciones de reconocimiento de gestos en una computadora o tableta, deberán confiar en sistemas que puedan manejar gestos realizados cerca de la lente.

En el futuro, podemos ver tabletas con una forma de este software de reconocimiento de gestos. Imagine apoyar una tableta en su escritorio y colocar sus manos frente a ella. La cámara y los sensores de la tableta detectan la ubicación de tus manos y trazan un teclado virtual. Luego, puede simplemente escribir en su escritorio como si tuviera un teclado real debajo de la punta de sus dedos, y el sistema rastrea cada movimiento de los dedos.

La verdadera prueba para los sistemas de gestos en 3D viene con las pantallas en 3D. Agregar profundidad a nuestras pantallas nos brinda la oportunidad de explorar nuevas formas de manipular datos. Por ejemplo, imagine una pantalla en 3D que muestre datos dispuestos en forma de cajas apiladas que se extienden en tres dimensiones. Con una pantalla de gestos en 3D, puede seleccionar un cuadro específico, incluso si no se encuentra en la parte superior de una pila, con solo acercar la cámara. Estos sistemas de visualización y gestos podrían crear un mundo virtual tan inmersivo como flexible.

¿Estos sistemas reemplazarán las interfaces comprobadas a las que nos hemos acostumbrado? Si lo hacen, probablemente tomará algunos años. Pero con la ingeniería y la investigación adecuadas, podrían ayudar a cambiar la imagen estereotipada del nerd informático estacionario en un mago de datos activo.

Nota del autor

Se me ocurrió la idea de este artículo después de mi visita a CES 2012. Parece que hay una nueva tendencia emergente en la feria cada año. En 2012, esa tendencia fue la reinvención de la interfaz de usuario. Parecía que todas las empresas estaban tratando de agregar sistemas de control de voz y gestos a los productos. Pero no se entusiasme demasiado: esas innovaciones pueden tardar uno o dos años en llegar a los productos electrónicos de consumo comunes.

Artículos relacionados

  • Cómo funciona Microsoft Kinect
  • Los 5 mejores hacks de Kinect
  • Cómo funciona la Wii
  • Cómo funciona Playstation Move
  • ¿Cómo interactuarán los humanos con las computadoras en el futuro?

Más enlaces geniales

  • SoftKinetic
  • gestotek

Fuente

  • Bodker, Susanne. "A través de la interfaz: un enfoque de la actividad humana para el diseño de la interfaz de usuario". Prensa CRC. 1990.
  • Iddan, Gavriel J., et al. "Sistema de imágenes 3D". Patente de la Oficina de Patentes y Marcas Registradas de los Estados Unidos # 7,224,384. http://patft.uspto.gov/netacgi/nph-Parser?Sect2=PTO1&Sect2=HITOFF&p=1&u=/netahtml/PTO/search-bool.html&r=1&f=G&l=50&d=PALL&RefSrch=yes&Query=PN/7224384
  • Krah, Christoph H. "Sistema de visualización e imágenes tridimensionales". Solicitud de patente n.° 20110298798 de la Oficina de Patentes y Marcas de los Estados Unidos. 50&s1=20110298798
  • Krzeslo, Eric, et al. "Sistema de videojuegos por computadora con detector de posición del cuerpo que requiere que el usuario asuma varias posiciones del cuerpo". Solicitud de patente n.º 20100210359 de la Oficina de Patentes y Marcas de los Estados Unidos. 50&s1=20100210359
  • Latta, Stephen G., et al. "Teclado de gestos". Solicitud de patente de la Oficina de Patentes y Marcas de Estados Unidos n.° 20100199228. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=20100199228
  • Latta, Stephen G. et al. "Arquitectura del sistema de reconocimiento de gestos". Patente de la Oficina de Patentes y Marcas de los Estados Unidos #7,996,793. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=7996793
  • Pinault, Gilles y otros. "Registro y Sistema de Reconocimiento de Volumen". Solicitud de patente n.° 20100208035 de la Oficina de Patentes y Marcas de los Estados Unidos. 50&s1=20100208035
  • Ringbeck, Thorsten. "Una cámara 3D de tiempo de vuelo para la detección de objetos". PMD Technologies GmbH. 12 de julio de 2007. (10 de febrero de 2012) http://www.ifm.com/obj/O1D_Paper-PMD.pdf
  • Plata, William, et al. "Método y aparato para la interfaz humana a un sistema de visión artificial". Patente de la Oficina de Patentes y Marcas Registradas de los Estados Unidos # 7,957,554. http://patft.uspto.gov/netacgi/nph-Parser?Sect2=PTO1&Sect2=HITOFF&p=1&u=/netahtml/PTO/search-bool.html&r=1&f=G&l=50&d=PALL&RefSrch=yes&Query=PN/7957554
  • Wallack, Aaron, et al. "Métodos y aparatos para el sistema práctico de visión 3D". Solicitud de patente de la Oficina de Patentes y Marcas de los Estados Unidos n.º 20100303337. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l= 50&s1=20100303337