Automatic initialization of model-based 3D tracking

  • Augmented Reality erfreut sich wachsender Beliebtheit. Zusatzinformationen in HMDs, Windschutzscheiben oder im Kamerabild des Smartphones oder Tablets sind hier die nennenswertesten Anwendungsfälle. Um eine Einblendung korrekt anzuzeigen, ist es notwendig die Position und Orientierung (Pose) der Kamera im Raum zu erfassen. Dies geschieht zurzeit hauptsächlich unter Zuhilfenahme von Markern. Dabei werden vordefinierte Marker im Raum positioniert und das System angelernt, wie es diese zu interpretieren hat. Der nächste Schritt ist es ohne Marker auszukommen. Hierbei wird von dem markerlosen Tracking gesprochen. Anstelle von künstlichen Markern werden natürliche Objekte der realen Umgebung als Referenzpunkte genutzt, um die Kamerapose zu bestimmen. Dadurch lässt sich dieses Verfahren flexibel und dynamisch einsetzen. Es wird zwar auf die Zuhilfenahme von Markern verzichtet, aber ein größeres Vorwissen über die Szenerie ist notwendig. Dies wird über technische Maßnahmen realisiert und/oder durch Interaktion des Benutzers. Beides ist nicht komfortabel oder effizient in der Verwendung eines solchen Systems und ist ein Grund dafür, warum markerloses 3D-Tracking nach wie vor ein Forschungsbereich ist. An diesem Punkt setzt diese Arbeit an. Es wird ein Ansatz vorgeschlagen, der lediglich eine Menge von 2D-Feature und eine Menge von 3D-Feature eines Objekts benötigt, um die initiale Pose zu finden. Es sind keine weiteren technischen Hilfen notwendig und auch auf die Interaktion mit dem Benutzer wird verzichtet. Die 2D-Feature, wie auch die 3D-Feature, können auf beliebige Art gewonnen werden. Die Idee ist es, diese zwei Mengen mit sechs Korrespondenzen zu verbinden. Anhand dieser Korrespondenzen kann eine Pose geschätzt werden. Mit der erhaltenen Pose kann jedes 3D-Feature auf Bildkoordinaten abgebildet werden, wodurch sich die geschätzte Pose bewerten lässt. Dabei wird der Abstand zwischen abgebildetem 3D-Feature und seinem zugehörigen 2D-Feature gemessen. Jede Korrespondenz wird so bewertet und die Ergebnisse aufsummiert. Je niedriger die Summe, desto besser ist die Pose. Es hat sich gezeigt, dass ein Wert von zehn Pixeln bereits ausreichend ist, um eine Pose als richtig zu bewerten. Da es sehr viele Möglichkeiten gibt, diese sechs Korrespondenzen zwischen beiden Mengen aufzubauen, muss dieses Verfahren optimiert werden. Dies geschieht mit einem genetischen Algorithmus. In dem Testszenario arbeitet das fertige System sehr zuverlässig. Es wird eine Trefferquote von ca. 90%, bei einer Laufzeit von ungefähr zwölf Minuten, erreicht. Ohne Optimierung kann das Finden der initialen Pose schnell mehrere Jahre dauern.
  • Augmented Reality (AR) is getting more and more popular. To augment information into the field of vision of the user using HMDs, e.g. front shields of a car, glasses, displays of a smartphone or tablets are the main use of AR technology. It is necessary to get the position and orientation (pose) of the camera in space to augment correctly. Nowadays, this is solved with artificial markers. These known markers are placed in the room and the system is taught to this set up. The next step is to get rid of these artificial markers. If we are calculating the pose without such markers we are talking about marker-less tracking. Instead of artificial markers we will use natural objects in the real world as reference points to calculate the pose. Thus, this approach can be used flexibly and dynamically. We are no longer dependent on artificial markers but we need much more knowledge about the scenery to find the pose. This is compensated by technical actions and/or the user himself. However, both solutions are neither comfortable nor efficient for the usage of such a system. This is why marker-less 3D tracking is still a big field of research. This sets the starting point for the bachelor thesis. In this thesis an approach is proposed that needs only a quantity of 2D Feature from a given camera image and a quantity of 3D Feature of an object to find the initial Pose. With this approach, we got rid of the technical and user assistance. 2D and 3D Features can be detected in any way you like. The main idea of this approach is to build six correspondences between these quantities. With those we are able to estimate the pose. Each 3D Feature is mapped with the estimated pose onto image coordinates, whereby the estimated pose can be evaluated. Each distance is measured between the mapped 3D Feature and the associated 2D Feature. Each correspondency is evaluated and the results are summed up to evaluate the whole pose. The lower this summed up value is, the better the pose. It has been shown to have a correct pose with a value around ten pixels. Due to lots of possibilities to build six correspondences between the quantities, it is necessary to optimize the building process. For the optimization we will use a genetic algorithm. During the test case the system worked quite reliably. The hit rate was around 90% with a runtime of approximately twelve minutes. Without optimization it can take easily some years.

Volltext Dateien herunterladen

Metadaten exportieren

Weitere Dienste

Teilen auf Twitter Suche bei Google Scholar
Metadaten
Verfasserangaben:Markus Solbach
URN:urn:nbn:de:kola-7611
Betreuer:Stefan Müller
Dokumentart:Bachelorarbeit
Sprache:Deutsch
Datum der Fertigstellung:08.08.2013
Datum der Veröffentlichung:08.08.2013
Veröffentlichende Institution:Universität Koblenz, Universitätsbibliothek
Titel verleihende Institution:Universität Koblenz, Fachbereich 4
Datum der Freischaltung:08.08.2013
Seitenzahl:106 Seiten
Institute:Fachbereich 4 / Fachbereich 4
DDC-Klassifikation:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Lizenz (Deutsch):License LogoEs gilt das deutsche Urheberrecht: § 53 UrhG