Wie 3D-Gesten funktionieren

Feb 10 2012

Vor der grafischen Benutzeroberfläche brauchten wir Textbefehle, um unsere Computer zu bedienen. Aber es kann nicht lange dauern, bis wir unsere Arbeit erledigen können, indem wir mit unseren Händen gestikulieren. Welche Tools machen es möglich?

Die ZCam-Kamera von 3DV System war ein bewegungsempfindlicher Vorgänger der heutigen 3-D-Gestensystemtechnologie.

Wie definiert man eine Benutzeroberfläche neu? Welche Schritte müssen Sie unternehmen, um die Art und Weise zu ändern, wie Menschen mit Technologie interagieren? Es geht nicht nur darum, die richtigen Tools zu entwickeln. Sie müssen auch berücksichtigen, wie die Leute Gadgets verwenden möchten. Die technologisch fortschrittlichste Benutzeroberfläche bedeutet nichts, wenn sie sich beim Drehen einfach nicht richtig anfühlt.

Aber wir treten in eine Ära ein, in der wir Benutzerschnittstellen überdenken müssen. Computer tauchen jedes Jahr in mehr Gadgets und Anwendungen auf. Innerhalb eines Jahrzehnts könnte selbst das einfachste Gerät eine Art Computer beherbergen. Und angesichts der zunehmenden Betonung von 3-D-Videos erfordert eine neue Möglichkeit, diese dritte Dimension zu nutzen, einen innovativen Ansatz.

Ein 3-D-Gestensystem ist eine Möglichkeit, diese Herausforderung anzugehen. Auf seiner grundlegendsten Ebene interpretiert ein 3-D-Gestensystem Bewegungen innerhalb eines physischen Raums als Befehle. Anwendungen für eine solche Technologie fallen über das gesamte Spektrum der Datenverarbeitung von Videospielen bis hin zur Datenverwaltung. Das Erstellen eines funktionsfähigen 3D-Gestensystems ist jedoch mit einer Vielzahl von Herausforderungen verbunden.

Mehrere Ingenieure haben versucht, Systeme zu entwickeln, die unsere Bewegungen als Computerbefehle interpretieren können. Aber welche Arten von Anwendungen werden diese Systeme ermöglichen? Und welche Komponenten sind notwendig, um ein 3-D-Gestensystem zusammenzustellen?

Inhalt

Die Dimensionen eines 3D-Gestensystems
Erkennung und Projektion
Tief gehen
Ein wenig leichtes Gestikulieren
Jenseits der Linse
Anmerkung des Verfassers

Die Dimensionen eines 3D-Gestensystems

Die Xbox Kinect verwendet Infrarotlicht, um ein Gitter vor das Kamerabild zu projizieren – Sensoren messen das Gitter, während es sich verformt, und registrieren die Daten als Bewegung.

Sie können die Teile eines 3D-Gestensystems in zwei Hauptkategorien unterteilen: Hardware und Software. Zusammen interpretieren diese Elemente Ihre Bewegungen und übersetzen sie in Befehle. Sie können vielleicht Zombies in einem Videospiel vernichten, durch Menüs navigieren, während Sie nach dem nächsten Blockbuster suchen, den Sie sich am Filmabend ansehen können, oder sogar am nächsten großen amerikanischen Roman arbeiten, indem Sie sich einfach bewegen.

Auf der Hardwareseite benötigen Sie ein Kamerasystem , einen Computer und ein Display. Das Kamerasystem kann zusätzliche Elemente eingebaut haben, um die Tiefe zu erfassen – es ist üblich, einen Infrarotprojektor und einen Infrarotsensor zu verwenden. Der Computer nimmt die von der Kamera und den Sensoren gesammelten Daten, zerkleinert die Zahlen und zeigt das Bild auf dem Display an, damit Sie die Ergebnisse sehen können. Das Display stellt die Daten so dar, dass Sie beurteilen können, wie weit Sie sich bewegen müssen, um zu manipulieren, was vor sich geht.

Auf der Softwareseite benötigen Sie Anwendungen, die die von der Software gesammelten Informationen tatsächlich in aussagekräftige Ergebnisse umwandeln. Nicht jede Bewegung wird zu einem Befehl – manchmal machen Sie vielleicht eine versehentliche Bewegung, die der Computer fälschlicherweise für eine Anweisung hält. Um unbeabsichtigte Befehle zu verhindern, verfügt die 3D-Gestensoftware über Fehlerkorrekturalgorithmen .

Warum sich Gedanken über die Fehlerkorrektur machen? Eine Geste muss möglicherweise einen Vertrauensschwellenwert erreichen, bevor die Software sie als Befehl registriert. Andernfalls könnte die Verwendung des Systems eine frustrierende Übung sein. Stellen Sie sich vor, Sie arbeiten an einer wichtigen dreidimensionalen Zeichnung, indem Sie Ihre Hände bewegen, um ihre Größe und Form zu ändern. Plötzlich niesen Sie und die bis jetzt geleistete heikle Arbeit ist ruiniert, da Ihre unfreiwilligen Handlungen dazu führen, dass die Zeichnung dramatisch verzerrt wird.

Fehlerkorrekturalgorithmen erfordern, dass Ihre Aktionen mit vorab zugewiesenen Gesten innerhalb eines bestimmten Konfidenzniveaus übereinstimmen, bevor die Aktion ausgeführt wird. Wenn die Software erkennt, dass Ihre Bewegungen nicht das erforderliche Vertrauensniveau erreichen, kann sie diese Bewegungen ignorieren und sie nicht in Befehle umsetzen. Das bedeutet auch, dass Sie eine Geste möglicherweise auf eine ganz bestimmte Weise ausführen müssen, bevor das System sie erkennt.

Einige Befehle sind möglicherweise nicht so empfindlich wie andere. Diese hätten eine viel niedrigere Vertrauensschwelle. Zum Beispiel ist das Wechseln zwischen Bildern durch Bewegen der Hand nach links oder rechts kein wirklich geschäftskritischer Befehl. Bei einer geringeren Vertrauensanforderung akzeptiert das System Befehle leichter.

Erkennung und Projektion

Das Erkennen von Gesten ist nur ein Teil der Aufgabe der Software. Es muss auch eine Schnittstelle mit Anwendungen haben, damit die Gesten, die Sie machen, sinnvolle Aktionen auf dem Bildschirm umsetzen. Bei einigen Anwendungen ist dies ziemlich einfach. Das Durchblättern eines Fotoalbums erfordert möglicherweise nur wenige Gesten, um durch Bilder zu navigieren und Ansichten zu vergrößern oder zu verkleinern. Jede dieser Gesten kann ziemlich einfach sein.

Andere Programme erfordern jedoch möglicherweise eine größere Vielfalt komplexer Gesten. Angenommen, Sie sind gerade mit der neuesten Version von „Extreme Table Tennis Pro Elite“ nach Hause gekommen und bereit, Ihre Fähigkeiten gegen die härtesten Computergegner zu testen, die jemals ein Paddel in die Hand genommen haben. Sie stecken Ihr Spiel in ein Konsolensystem, das über eine 3-D-Gestenkomponente verfügt, und nehmen ein eigenes echtes Paddel in die Hand. Was passiert als nächstes?

Das System analysiert die Szene davor. Es erkennt das Vorhandensein des Paddels in Ihrer Hand. Zu Beginn des Spiels beobachten Sie den Bildschirm und warten darauf, dass Ihr Gegner zum Aufschlag Volley spielt. Während der digitale Ball auf Sie zuschreit, bestimmt das 3-D-Gestensystem, wohin der Ball im Kontext Ihres physischen Raums wirklich gehen würde, wenn es sich um ein tatsächliches festes Objekt handeln würde.

Sie machen Ihren Zug und bereiten einen bösen Return mit verrücktem Backspin vor. Jetzt muss das 3-D-System Ihre Reaktion analysieren, sie gegen die Flugbahn des Balls aufzeichnen und feststellen, ob Sie Kontakt hatten oder ob Sie ihn vollständig gepustet haben. Angenommen, Ihre erstaunlichen Tischtennisfähigkeiten haben Sie nicht im Stich gelassen, haben Sie den Ball erfolgreich geschlagen. Jetzt muss das System basierend auf Ihren realen physischen Bewegungen bestimmen, wohin der digitale Ball gehen würde. Die Software projiziert eine Flugbahn und der Ball folgt ihr.

Einige Spiele beinhalten möglicherweise keine physische Requisite. Ihr Fortschritt im Spiel hängt vollständig von den Bewegungen ab, die Sie mit Ihrem Körper ausführen. Die Aufgabe des Systems besteht darin, sicherzustellen, dass die von Ihnen vorgenommenen Aktionen den Fortschritt des Spiels angemessen beeinflussen. Und all diese Aktionen müssen im Spiel selbst berücksichtigt werden. Es ist eine große Aufgabe! Aus diesem Grund müssen Sie sich bei einigen Anwendungen auf eine bestimmte Weise bewegen, um das System zu kalibrieren, bevor Sie beginnen.

Tief gehen

Eine typische Kamera erfasst die Welt als zweidimensionales Bild. Die einzelne Linse lenkt Licht auf einen Sensor und ein Aufzeichnungsgerät erfasst die Daten. Während wir anhand seiner Größe auf die Entfernung oder Nähe eines Objekts zur Kamera schließen können, können wir von einem zweidimensionalen Kamerasystem kein wirkliches dreidimensionales Bild erkennen.

Diese Einschränkung verursacht ein Problem mit gestenbasierten Schnittstellen. Stellt man sich vor eine normale Kamera und wedelt mit den Armen herum, kann die Kamera die horizontale und vertikale Bewegung erfassen. Ein Computer mit der richtigen Software könnte diese Bewegungen möglicherweise als Befehle interpretieren. Aber was ist, wenn Sie Ihre Hände näher an die Kamera bewegen? Ein 2D-System kann diese Bewegungen nicht interpretieren. Und 2-D-Systeme können Schwierigkeiten haben, zwischen einem Benutzer und dem Hintergrund zu unterscheiden.

Wie also bringt man einer Kamera bei, dreidimensional zu sehen? Eine Möglichkeit besteht darin, eine zweite Kamera hinzuzufügen – dies wird als Stereokamerasystem bezeichnet . Jede Kamera erfasst Bilder innerhalb desselben physischen Raums. Die Datenströme der beiden Kameras gelangen in einen einzigen Computer, der die Bilder vergleicht und anhand der Informationen Rückschlüsse auf die Tiefe zieht. Die beiden Kameras müssen nicht nebeneinander sein – Sie können eine so positionieren, dass sie direkt auf einen Raum blickt, und die zweite Kamera könnte so positioniert werden, dass sie von der Decke auf den Boden blickt.

In gewisser Weise ahmt dies nach, wie Menschen Tiefe wahrnehmen. Wir neigen dazu, anhand mehrerer visueller Hinweise zu beurteilen, wie weit etwas von uns entfernt ist. Einer davon stammt von Parallax . Dies bezieht sich darauf, wie beide Augen dieselbe Szene aus leicht unterschiedlichen Winkeln wahrnehmen. Wenn Sie gerade Linien von Ihren Augen zu einem Objekt in Ihrem Sichtfeld ziehen würden, würden Sie sehen, dass die beiden Linien zusammenlaufen. Unser Gehirn kombiniert die Informationen unserer Augen, um ein Bild in unserem Kopf zu erstellen.

Erwischt!

Filmemacher haben sich die Einschränkungen von 2-D-Kameras zunutze gemacht, um Spezialeffekte zu erzeugen. Beispielsweise kann eine erzwungene Perspektive ein Objekt größer oder kleiner erscheinen lassen, als es wirklich ist, indem es in einem angemessenen Abstand von der Kamera platziert wird. Mehrere Aufnahmen in der „Herr der Ringe“-Serie nutzten diesen Effekt, um Hobbits wie winzige Wesen in einer menschengroßen Welt erscheinen zu lassen.

Ein wenig leichtes Gestikulieren

Was bewegt sich im Vakuum mit 299.792.458 Metern pro Sekunde? Nein, es ist kein Staubhase. Es ist leicht . Es mag Ihnen trivia erscheinen, aber die Lichtgeschwindigkeit ist praktisch, wenn Sie ein 3-D-Gestensystem erstellen, insbesondere wenn es sich um eine Time-of-Flight-Anordnung handelt.

Diese Art von 3-D-Gestensystem koppelt einen Tiefensensor und einen Projektor mit der Kamera. Der Projektor sendet Licht in Impulsen aus – typischerweise ist es Infrarotlicht, das außerhalb des Spektrums des für Menschen sichtbaren Lichts liegt. Der Sensor erkennt das Infrarotlicht, das von allem vor dem Projektor reflektiert wird. Ein Timer misst, wie lange es dauert, bis das Licht den Projektor verlässt, von Objekten reflektiert wird und zum Sensor zurückkehrt. Wenn sich Objekte bewegen, variiert die Zeit, die das Licht für die Reise benötigt, und der Computer interpretiert die Daten als Bewegungen und Befehle.

Stellen Sie sich vor, Sie spielen ein Tennis-Videospiel mit einem 3-D-Gestensystem. Du stehst bereit und wartest darauf, einen Aufschlag von deinem hochgesetzten Computergegner zu erhalten. Das 3-D-Gestensystem erkennt, wo Sie sich in Bezug auf Ihre Umgebung befinden – das Infrarotlicht trifft auf Sie und wird zum Sensor zurückreflektiert, wodurch der Computer alle Daten erhält, die er benötigt, um Ihre Position zu kennen.

Ihr Gegner serviert den Ball und Sie setzen sich in Bewegung und schwingen Ihren Arm nach vorne, um den Ball abzufangen. Während dieser Zeit feuert der Projektor weiterhin millionenfach pro Sekunde Infrarotlichtimpulse ab. Wenn sich Ihre Hand von der Kamera weg und dann auf sie zu bewegt , ändert sich die Zeit, die das Infrarotlicht benötigt, um den Sensor zu erreichen. Diese Änderungen werden von der Computersoftware als Bewegung interpretiert und weiter als Videospielbefehle interpretiert. Ihre Videospiel-Repräsentation gibt den Aufschlag zurück, gewinnt einen Punkt und die virtuelle Menge tobt.

Eine andere Möglichkeit, einen dreidimensionalen Körper abzubilden, ist die Verwendung einer Methode namens strukturiertes Licht. Bei diesem Ansatz emittiert ein Projektor Licht – wiederum außerhalb des Spektrums des sichtbaren Lichts – in einem Gittermuster. Wenn das Gitter auf physische Objekte trifft, verzerrt es sich. Ein Sensor erkennt diese Verzerrung und sendet die Daten an einen Computer, der die Verzerrung misst. Wenn Sie sich bewegen, werden Ihre Bewegungen dazu führen, dass sich das Gitter auf unterschiedliche Weise verzerrt. Diese Unterschiede erzeugen die Daten, die der Computer benötigt, um Ihre Bewegungen als Befehle zu interpretieren.

Ein 3-D-Gestensystem muss sich nicht auf einen einzigen technologischen Ansatz verlassen. Einige Systeme könnten eine Kombination mehrerer Technologien verwenden, um herauszufinden, wo Sie sich befinden und was Sie tun.

Gesten in den Griff bekommen

Einige Gestensysteme verwenden einen oder mehrere Controller anstelle von Kameras, um Bewegungen zu erkennen. Beispiele sind die Nintendo Wii-Fernbedienung und der Sony Move-Controller. Diese Geräte enthalten zusätzliche Sensoren, die Orientierung und Beschleunigung erkennen.

Jenseits der Linse

Kinect ist derzeit wahrscheinlich das bekannteste 3-D-Gestensystem auf dem Verbrauchermarkt, aber viele weitere Produkte werden bald hinzukommen.

Ist 3D-Gestensteuerung das Interface der Zukunft? Das hängt vom Einfallsreichtum der Ingenieure, der Effizienz der verschiedenen Systeme und dem Verhalten der Benutzer ab. Das Entwerfen einer funktionsfähigen Benutzeroberfläche ist keine leichte Aufgabe – es gibt Hunderte von gescheiterten Produkten, die früher oder später die Art und Weise, wie wir mit Maschinen interagieren, revolutionieren würden. Damit 3-D-Gestensysteme nicht dasselbe Schicksal erleiden, müssen sie nützlich und zuverlässig sein. Das hängt nicht nur von der Technologie ab, sondern auch von der Benutzerpsychologie.

Wenn eine bestimmte Geste für einen Benutzer keinen Sinn ergibt, ist er oder sie möglicherweise nicht bereit, das System als Ganzes zu verwenden. Sie möchten wahrscheinlich nicht den "Hokey Pokey" ausführen müssen, nur um den Kanal zu wechseln - aber wenn Sie dies tun, ist es in Ordnung, wir verurteilen Sie nicht. Ein gutes System zu schaffen bedeutet nicht nur, die Technologie zu perfektionieren, sondern auch vorherzusagen, wie die Leute es verwenden wollen. Das ist nicht immer einfach.

Es gibt bereits einige 3-D-Gestensysteme auf dem Markt. Kinect von Microsoft ist dem Durchschnittsverbraucher wahrscheinlich das bekannteste System. Sie können Ihre Xbox 360 mit Gesten und Sprachbefehlen steuern. Im Jahr 2012 kündigte Microsoft Pläne an, Kinect-ähnliche Funktionen in Windows 8-Computer zu integrieren. Und die Hacker-Community hat Kinect wirklich angenommen und für Projekte manipuliert, die von der 3-D-Scantechnologie bis zur Robotik reichen.

Auf der CES 2012 präsentierten mehrere Unternehmen Geräte mit 3-D-Gestenerkennung. Ein Unternehmen, SoftKinetic, demonstrierte ein Time-of-Flight-System, das genau blieb, selbst wenn Objekte nur wenige Zentimeter von der Kamera entfernt waren. Ein Laufzeitsystem misst Entfernungen basierend darauf, wie schnell Licht von einem Objekt reflektiert wird, basierend auf der Lichtgeschwindigkeit. Wenn Unternehmen Gestenerkennungsfunktionen in einen Computer oder ein Tablet einbauen möchten, müssen sie sich auf Systeme verlassen, die Gesten verarbeiten können, die in der Nähe des Objektivs ausgeführt werden.

In Zukunft könnten wir Tablets mit einer Form dieser Gestenerkennungssoftware sehen. Stellen Sie sich vor, Sie stellen ein Tablet auf Ihren Schreibtisch und legen Ihre Hände davor. Die Kamera und die Sensoren des Tablets erkennen die Position Ihrer Hände und bilden eine virtuelle Tastatur ab. Dann können Sie einfach auf Ihrem Desktop tippen, als hätten Sie eine echte Tastatur unter Ihren Fingerspitzen, und das System verfolgt jede Fingerbewegung.

Der wahre Test für 3-D-Gestensysteme kommt mit 3-D-Displays. Das Hinzufügen von Tiefe zu unseren Displays gibt uns die Möglichkeit, neue Wege zur Manipulation von Daten zu erkunden. Stellen Sie sich zum Beispiel eine 3-D-Anzeige vor, die Daten zeigt, die in Form von gestapelten Kästen angeordnet sind, die sich in drei Dimensionen erstrecken. Mit einer 3-D-Gestenanzeige könnten Sie ein bestimmtes Kästchen auswählen, selbst wenn es sich nicht ganz oben auf einem Stapel befindet, indem Sie einfach in Richtung der Kamera greifen. Diese Gesten- und Anzeigesysteme könnten eine virtuelle Welt schaffen, die ebenso immersiv wie flexibel ist.

Werden diese Systeme die bewährten Schnittstellen ersetzen, an die wir uns gewöhnt haben? Wenn sie das tun, wird es wahrscheinlich ein paar Jahre dauern. Aber mit der richtigen Technik und Forschung könnten sie dazu beitragen, das stereotype Bild des stationären Computer-Nerds in einen aktiven Datenzauberer zu verwandeln.

Anmerkung des Verfassers

Die Idee zu diesem Artikel kam mir nach meinem Besuch auf der CES 2012. Es scheint, als gäbe es jedes Jahr einen neuen Trend auf der Messe. Im Jahr 2012 war dieser Trend die Neuerfindung der Benutzeroberfläche. Es schien, als würde jedes Unternehmen versuchen, Gesten- und Sprachsteuerungssysteme in Produkte einzubauen. Aber seien Sie nicht zu aufgeregt – es kann ein oder zwei Jahre dauern, bis diese Innovationen ihren Weg in die allgemeine Unterhaltungselektronik finden.

Wie 3D-Gesten funktionieren

Die Dimensionen eines 3D-Gestensystems

Erkennung und Projektion

Tief gehen

Erwischt!

Ein wenig leichtes Gestikulieren

Gesten in den Griff bekommen

Jenseits der Linse

Anmerkung des Verfassers

Zum Thema passende Artikel

Weitere tolle Links

Quelle