Fonctionnement des gestes 3D

Feb 10 2012
Avant l'interface utilisateur graphique, nous avions besoin de commandes textuelles pour faire fonctionner nos ordinateurs. Mais il ne faudra peut-être pas longtemps avant que nous puissions faire notre travail en faisant des gestes avec nos mains. Quels outils le permettent ?
La caméra ZCam de 3DV System était un prédécesseur sensible au mouvement de la technologie de système gestuel 3D d'aujourd'hui.

Comment redéfinir une interface utilisateur ? Quelles mesures devez-vous prendre pour changer la façon dont les gens interagissent avec la technologie ? Il ne s'agit pas seulement de développer les bons outils. Vous devez également tenir compte de la façon dont les gens veulent utiliser les gadgets. L'interface la plus avancée sur le plan technologique ne signifie rien si elle ne se sent pas bien lorsque vous la sortez pour un tour.

Mais nous entrons dans une ère où nous devons revoir les interfaces utilisateur. Les ordinateurs apparaissent dans plus de gadgets et d'applications chaque année. Dans une décennie, même l'appareil le plus basique pourrait abriter un type d'ordinateur. Et avec l'importance croissante de la vidéo 3D, une nouvelle façon de tirer parti de cette troisième dimension nécessite une approche innovante.

Un système gestuel 3D est un moyen de relever ce défi. À son niveau le plus élémentaire, un système gestuel 3D interprète les mouvements dans un espace physique comme des commandes. Les applications de cette technologie couvrent tout le spectre de l'informatique, des jeux vidéo à la gestion des données. Mais la création d'un système gestuel 3D fonctionnel présente une multitude de défis.

Plusieurs ingénieurs ont tenté de créer des systèmes capables d'interpréter nos mouvements comme des commandes informatiques. Mais quels types d'applications ces systèmes rendront-ils possibles ? Et quels types de composants sont nécessaires pour assembler un système gestuel 3D ?

Contenu
  1. Les dimensions d'un système gestuel 3D
  2. Détection et Projection
  3. Aller en profondeur
  4. Un petit geste léger
  5. Au-delà de l'objectif
  6. Note de l'auteur

Les dimensions d'un système gestuel 3D

La Xbox Kinect utilise la lumière infrarouge pour projeter une grille devant la vue de la caméra - des capteurs mesurent la grille lorsqu'elle se déforme et enregistrent les données en tant que mouvement.

Vous pouvez diviser les parties d'un système gestuel 3D en deux catégories principales : le matériel et le logiciel. Ensemble, ces éléments interprètent vos mouvements et les traduisent en commandes. Vous pourrez peut-être faire exploser des zombies dans un jeu vidéo, naviguer dans les menus tout en cherchant le prochain blockbuster à regarder lors d'une soirée cinéma ou même vous mettre au travail sur le prochain grand roman américain simplement en vous déplaçant.

Côté matériel, vous aurez besoin d'un système de caméra , d'un ordinateur et d'un écran. Le système de caméra peut avoir des éléments supplémentaires intégrés pour détecter la profondeur - il est courant d'utiliser un projecteur infrarouge et un capteur infrarouge. L'ordinateur prend les données recueillies par la caméra et les capteurs, croque les chiffres et pousse l'image à l'écran afin que vous puissiez voir les résultats. L'affichage présente les données d'une manière qui vous permet de juger jusqu'où vous devez vous déplacer pour manipuler ce qui se passe.

Du côté logiciel, vous aurez besoin d'applications qui convertissent réellement les informations recueillies par le logiciel en résultats significatifs. Tous les mouvements ne deviendront pas une commande - parfois vous pourriez faire un mouvement accidentel que l'ordinateur confond avec une instruction. Pour éviter les commandes involontaires, le logiciel gestuel 3D dispose d' algorithmes de correction d'erreurs .

Pourquoi s'inquiéter de la correction des erreurs ? Un geste peut devoir atteindre un seuil de confiance avant que le logiciel ne l'enregistre en tant que commande. Sinon, l'utilisation du système pourrait être un exercice frustrant. Imaginez que vous travaillez sur un dessin tridimensionnel important en déplaçant vos mains pour modifier sa taille et sa forme. Soudain, vous éternuez et le travail délicat que vous avez fait jusqu'à présent est ruiné car vos actions involontaires provoquent une déformation spectaculaire du dessin.

Les algorithmes de correction d'erreurs exigent que vos actions correspondent à des gestes pré-assignés dans un certain niveau de confiance avant que l'action ne soit effectuée. Si le logiciel détecte que vos mouvements ne répondent pas au niveau de confiance requis, il peut ignorer ces mouvements et ne pas les traduire en commandes. Cela signifie également que vous devrez peut-être effectuer un geste d'une manière très spécifique avant que le système ne le reconnaisse.

Certaines commandes peuvent ne pas être aussi sensibles que d'autres. Celles-ci auraient un seuil de confiance beaucoup plus bas. Par exemple, passer d'une image à l'autre en déplaçant votre main vers la gauche ou la droite n'est pas vraiment une commande essentielle. Avec une exigence de confiance plus faible, le système acceptera plus facilement les commandes.

Détection et Projection

Reconnaître les gestes n'est qu'une partie du travail du logiciel. Il doit également s'interfacer avec les applications pour que les gestes que vous faites se traduisent par des actions significatives à l'écran. Avec certaines applications, c'est assez simple. Feuilleter un album photo ne peut reposer que sur quelques gestes pour parcourir les images et effectuer un zoom avant ou arrière sur les vues. Chacun de ces gestes peut être assez simple.

Mais d'autres programmes peuvent nécessiter une plus grande variété de gestes complexes. Disons que vous venez de rentrer à la maison avec la dernière version de "Extreme Table Tennis Pro Elite" et que vous êtes prêt à tester vos compétences contre les adversaires informatiques les plus coriaces à avoir jamais ramassé une pagaie. Vous insérez votre jeu dans un système de console doté d'un composant gestuel 3D et prenez votre propre pagaie. Que se passe-t-il ensuite ?

Le système analyse la scène devant lui. Il détecte la présence de la raquette dans votre main. Au début du jeu, vous regardez l'écran et attendez que votre adversaire vole pour le service. Alors que la balle numérique crie vers vous, le système gestuel 3D détermine où la balle irait vraiment dans le contexte de votre espace physique s'il s'agissait d'un objet solide réel.

Vous faites votre mouvement, préparant un retour méchant avec un backspin fou. Maintenant, le système 3-D doit analyser votre réaction, la tracer par rapport à la trajectoire de vol de la balle et déterminer si vous avez pris contact ou si vous l'avez complètement reniflé. En supposant que vos incroyables compétences en tennis de table ne vous ont pas fait défaut, vous avez réussi à frapper la balle. Maintenant, le système doit déterminer où irait la balle numérique en fonction de vos mouvements physiques réels. Le logiciel projette une trajectoire de vol et la balle la suit.

Certains jeux peuvent ne pas impliquer d'accessoire physique. Votre progression dans le jeu dépendra entièrement des mouvements que vous faites avec votre corps. Le travail du système est de s'assurer que les actions que vous entreprenez ont un impact approprié sur la progression du jeu. Et toutes ces actions doivent être prises en compte dans le jeu lui-même. C'est un gros travail ! C'est pourquoi certaines applications nécessitent que vous vous déplaciez d'une manière spécifique pour calibrer le système avant de commencer.

Aller en profondeur

Une caméra typique capture le monde sous la forme d'une image en deux dimensions. La lentille unique dirige la lumière vers un capteur et un dispositif d'enregistrement capture les données. Bien que nous puissions déduire la distance ou la proximité d'un objet par rapport à la caméra en fonction de sa taille, nous ne pouvons pas vraiment distinguer une image en trois dimensions à partir d'un système de caméra en deux dimensions.

Cette limitation crée un problème avec les interfaces basées sur les gestes. Si vous vous tenez devant une caméra normale et agitez vos bras, la caméra peut capturer le mouvement horizontal et vertical. Un ordinateur avec le logiciel approprié pourrait être en mesure d'interpréter ces mouvements comme des commandes. Mais que se passe-t-il si vous rapprochez vos mains de la caméra ? Un système 2D ne peut pas interpréter ces mouvements. Et les systèmes 2D peuvent avoir du mal à faire la distinction entre un utilisateur et l'arrière-plan.

Alors, comment apprendre à un appareil photo à voir en trois dimensions ? Une façon consiste à ajouter une deuxième caméra -- c'est ce qu'on appelle un système de caméra stéréo . Chaque caméra capture des images dans le même espace physique. Les flux de données des deux caméras sont acheminés vers un seul ordinateur, qui compare les images et tire des conclusions sur la profondeur en fonction des informations. Les deux caméras n'ont pas besoin d'être l'une à côté de l'autre - vous pouvez en positionner une pour regarder une pièce de face et la deuxième caméra peut être positionnée en regardant le sol depuis le plafond.

D'une certaine manière, cela imite la façon dont les humains perçoivent la profondeur. Nous avons tendance à juger à quelle distance quelque chose se trouve de nous en nous basant sur plusieurs repères visuels. L'un d'eux vient de la parallaxe . Cela fait référence à la façon dont les deux yeux perçoivent la même scène sous des angles légèrement différents. Si vous deviez tracer des lignes droites entre vos yeux et un objet dans votre champ de vision, vous verriez les deux lignes converger. Notre cerveau combine les informations de nos yeux pour créer une image dans notre esprit.

Je t'ai eu!

Les cinéastes ont profité des limites des caméras 2D pour créer des effets spéciaux. Par exemple, la perspective forcée peut faire paraître un objet plus grand ou plus petit qu'il ne l'est réellement en le plaçant à une distance appropriée de la caméra. Plusieurs plans de la série "Le Seigneur des Anneaux" ont profité de cet effet pour faire apparaître les hobbits comme des êtres de la taille d'une pinte dans un monde à taille humaine.

Un petit geste léger

Qu'est-ce qui se déplace à 299 792 458 mètres par seconde dans le vide ? Non, ce n'est pas un lapin de poussière. C'est léger . Cela peut vous sembler anecdotique, mais la vitesse de la lumière est pratique lorsque vous construisez un système gestuel 3D, en particulier s'il s'agit d'un arrangement en temps de vol.

Ce type de système gestuel 3D associe un capteur de profondeur et un projecteur à la caméra. Le projecteur émet de la lumière par impulsions - il s'agit généralement de lumière infrarouge, qui est en dehors du spectre de la lumière visible pour les humains. Le capteur détecte la lumière infrarouge réfléchie par tout ce qui se trouve devant le projecteur. Une minuterie mesure le temps nécessaire à la lumière pour quitter le projecteur, se refléter sur les objets et revenir au capteur. Au fur et à mesure que les objets se déplacent, le temps nécessaire à la lumière pour se déplacer varie et l'ordinateur interprète les données comme des mouvements et des commandes.

Imaginez que vous jouez à un jeu vidéo de tennis en utilisant un système gestuel en 3D. Vous vous tenez prêt, attendant de recevoir un service de votre adversaire informatique hautement classé. Le système gestuel 3D prend note de l'endroit où vous vous trouvez par rapport à votre environnement - la lumière infrarouge vous frappe et se réfléchit vers le capteur, donnant à l'ordinateur toutes les données dont il a besoin pour connaître votre position.

Votre adversaire sert le ballon et vous vous mettez en mouvement en balançant votre bras vers l'avant pour intercepter le ballon. Pendant ce temps, le projecteur continue d'émettre des impulsions de lumière infrarouge des millions de fois par seconde. Lorsque votre main s'éloigne puis se rapproche de la caméra , le temps nécessaire à la lumière infrarouge pour atteindre le capteur change. Ces changements sont interprétés par le logiciel de l'ordinateur comme un mouvement et ensuite interprétés comme des commandes de jeu vidéo. Votre représentation de jeu vidéo rend le service, gagne un point et la foule virtuelle se déchaîne.

Une autre façon de cartographier un corps tridimensionnel consiste à utiliser une méthode appelée lumière structurée. Avec cette approche, un projecteur émet de la lumière - encore une fois en dehors du spectre de la lumière visible - selon un motif en grille. Lorsque la grille rencontre des objets physiques, elle se déforme. Un capteur détecte cette distorsion et envoie les données à un ordinateur qui mesure la distorsion. Au fur et à mesure que vous vous déplacez, vos mouvements provoqueront la distorsion de la grille de différentes manières. Ces différences créent les données dont l'ordinateur a besoin pour interpréter vos mouvements comme des commandes.

Un système gestuel 3D ne doit pas reposer sur une seule approche technologique. Certains systèmes peuvent utiliser une combinaison de plusieurs technologies afin de déterminer où vous êtes et ce que vous faites.

Maîtriser les gestes

Certains systèmes gestuels utilisent un ou plusieurs contrôleurs au lieu de caméras pour détecter les mouvements. La télécommande Nintendo Wii et la manette Sony Move en sont des exemples. Ces appareils contiennent des capteurs supplémentaires qui détectent l'orientation et l'accélération.

Au-delà de l'objectif

Le Kinect est probablement le système gestuel 3D le plus reconnaissable sur le marché grand public à l'heure actuelle, mais de nombreux autres produits le rejoindront bientôt.

Le contrôle gestuel 3D est-il l'interface du futur ? Cela dépendra de l'ingéniosité des ingénieurs, de l'efficacité des différents systèmes et du comportement des utilisateurs. Concevoir une interface utilisateur fonctionnelle n'est pas une mince tâche - il existe des centaines de produits défaillants qui, à un moment ou à un autre, allaient révolutionner la façon dont nous interagissons avec les machines. Pour que les systèmes gestuels 3D évitent le même sort, ils devront être utiles et fiables. Cela ne dépend pas seulement de la technologie, mais de la psychologie de l'utilisateur.

Si un geste particulier n'a pas de sens pour un utilisateur, il se peut qu'il ne soit pas disposé à utiliser le système dans son ensemble. Vous ne voudriez probablement pas avoir à exécuter le "Hokey Pokey" juste pour changer de chaîne - mais si vous le faites, ce n'est pas grave, nous ne vous jugeons pas. Créer un bon système signifie non seulement perfectionner la technologie, mais aussi prévoir comment les gens voudront l'utiliser. Ce n'est pas toujours facile.

Il existe déjà quelques systèmes gestuels 3D sur le marché. Kinect de Microsoft est probablement le système le plus connu du consommateur moyen. Il vous permet de contrôler votre Xbox 360 avec des gestes et des commandes vocales. En 2012, Microsoft a annoncé son intention d'intégrer des fonctionnalités de type Kinect dans les machines Windows 8. Et la communauté des hackers a vraiment adopté le Kinect, le manipulant pour des projets allant de la technologie de numérisation 3D à la robotique.

Au CES 2012, plusieurs entreprises ont présenté des appareils intégrant la reconnaissance gestuelle 3D. Une entreprise, SoftKinetic, a présenté un système de temps de vol qui restait précis même lorsque les objets n'étaient qu'à quelques centimètres de la caméra. Un système de temps de vol mesure les distances en fonction de la vitesse à laquelle la lumière se réfléchit sur un objet, en fonction de la vitesse de la lumière. Si les entreprises veulent inclure des fonctions de reconnaissance gestuelle dans un ordinateur ou une tablette, elles devront s'appuyer sur des systèmes capables de gérer les gestes effectués à proximité de l'objectif.

À l'avenir, nous verrons peut-être des tablettes avec une forme de ce logiciel de reconnaissance gestuelle. Imaginez poser une tablette sur votre bureau et placer vos mains devant. La caméra et les capteurs de la tablette détectent l'emplacement de vos mains et tracent un clavier virtuel. Ensuite, vous pouvez simplement taper sur votre bureau comme si vous aviez un vrai clavier sous vos doigts, et le système suit chaque mouvement de doigt.

Le véritable test pour les systèmes gestuels 3D est livré avec des écrans 3D. L'ajout de profondeur à nos écrans nous donne l'opportunité d'explorer de nouvelles façons de manipuler les données. Par exemple, imaginez un affichage 3D montrant des données disposées sous la forme de boîtes empilées s'étendant en trois dimensions. Avec un affichage gestuel 3D, vous pouvez sélectionner une boîte spécifique même si elle n'était pas en haut d'une pile simplement en tendant la main vers la caméra. Ces systèmes gestuels et d'affichage pourraient créer un monde virtuel aussi immersif que flexible.

Ces systèmes remplaceront-ils les interfaces éprouvées auxquelles nous sommes habitués ? S'ils le font, cela prendra probablement quelques années. Mais avec la bonne ingénierie et la bonne recherche, ils pourraient aider à changer l'image stéréotypée du nerd de l'ordinateur fixe en un assistant de données actif.

Note de l'auteur

J'ai eu l'idée de cet article après ma visite au CES 2012. Il semble qu'il y ait une nouvelle tendance émergente au salon chaque année. En 2012, cette tendance était la réinvention de l'interface utilisateur. Il semblait que chaque entreprise essayait d'ajouter des systèmes de contrôle gestuel et vocal dans les produits. Mais ne vous excitez pas trop - cela pourrait prendre un an ou deux pour que ces innovations fassent leur chemin dans l'électronique grand public.

Articles Liés

  • Comment fonctionne Microsoft Kinect
  • Top 5 des piratages Kinect
  • Comment fonctionne la Wii
  • Comment fonctionne Playstation Move
  • Comment les humains s'interfaceront-ils avec les ordinateurs dans le futur ?

Plus de grands liens

  • SoftKinetic
  • GestureTek

La source

  • Bodker, Suzanne. "À travers l'interface : une approche de l'activité humaine pour la conception d'interface utilisateur." Presse CRC. 1990.
  • Iddan, Gavriel J., et al. "Système d'imagerie 3D." Brevet de l'Office des brevets et des marques des États-Unis n° 7,224,384. http://patft.uspto.gov/netacgi/nph-Parser?Sect2=PTO1&Sect2=HITOFF&p=1&u=/netahtml/PTO/search-bool.html&r=1&f=G&l=50&d=PALL&RefSrch=yes&Query=PN/7224384
  • Krah, Christoph H. "Système d'imagerie et d'affichage en trois dimensions." Demande de brevet de l'Office des brevets et des marques des États-Unis n° 20110298798. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l= 50&s1=20110298798
  • Krzeslo, Eric, et al. "Système de jeu vidéo informatique avec détecteur de position corporelle qui oblige l'utilisateur à assumer diverses positions corporelles." Demande de brevet de l'Office des brevets et des marques des États-Unis n° 20100210359. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l= 50&s1=20100210359
  • Latta, Stephen G., et al. "Saisie gestuelle au clavier." Demande de brevet de l'Office des brevets et des marques des États-Unis n° 20100199228. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=20100199228
  • Latta, Stephen G. et al. "Architecture du système de reconnaissance de gestes." Brevet de l'Office des brevets et des marques des États-Unis n° 7 996 793. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=7996793
  • Pinault, Gilles, et al. "Enregistrement et système de reconnaissance de volume." Demande de brevet de l'Office des brevets et des marques des États-Unis n° 20100208035. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l= 50&s1=20100208035
  • Ringbeck, Thorsten. "Une caméra 3D à temps de vol pour la détection d'objets." PMDTechnologies GmbH. 12 juillet 2007. (10 février 2012) http://www.ifm.com/obj/O1D_Paper-PMD.pdf
  • Argent, William et al. "Méthode et appareil pour l'interface humaine avec un système de vision industrielle." Brevet de l'Office des brevets et des marques des États-Unis n° 7,957,554. http://patft.uspto.gov/netacgi/nph-Parser?Sect2=PTO1&Sect2=HITOFF&p=1&u=/netahtml/PTO/search-bool.html&r=1&f=G&l=50&d=PALL&RefSrch=yes&Query=PN/7957554
  • Wallack, Aaron et al. "Méthodes et appareils pour un système de vision 3D pratique." Demande de brevet de l'Office des brevets et des marques des États-Unis n° 20100303337. http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l= 50&s1=20100303337