Institut für Computervisualistik
Filtern
Erscheinungsjahr
Dokumenttyp
- Bachelorarbeit (100)
- Diplomarbeit (81)
- Studienarbeit (76)
- Masterarbeit (46)
- Dissertation (18)
- Ausgabe (Heft) zu einer Zeitschrift (12)
- Konferenzveröffentlichung (2)
Sprache
- Deutsch (282)
- Englisch (51)
- Mehrsprachig (2)
Gehört zur Bibliographie
- nein (335) (entfernen)
Schlagworte
- Bildverarbeitung (16)
- Augmented Reality (13)
- Robotik (10)
- Computergrafik (9)
- Computergraphik (9)
- Computervisualistik (9)
- OpenGL (8)
- GPGPU (5)
- GPU (5)
- Line Space (5)
Institut
Die folgende Arbeit soll einen Überblick über bestehende Lösungen zur Interaktion in Erweiterten Realitäten (Augmented Reality) schaffen. Hierzu werden anhand dreier grundlegender Betrachtungsweisen unterschiedliche Interaktionskonzepte und -umsetzungen sowohl von der technischen, als auch von der konzeptuellen Seite her, vorgestellt. Neben Fragen der Visualisierung werden unterschiedliche Typen von Benutzungsschnittstellen vorstellt. Den größten Teil nehmen die drei typischen Interaktionsaufgaben Selektion- und Manipulation, Navigation und Systemkontrolle und die damit verbundenen Interaktionstechniken ein. Die Inhalte des Arbeitsberichts beschränken sich auf den Einsatz von Interaktionelementen in Augmented Reality Umgebungen. Dies geschieht in Abgrenzung zu Forschungsarbeiten auf dem Gebiet zu Interaktionstechniken in Virtual Reality Umgebungen (vollimmersiv oder auch desktoporientiert). Zwar standen und stehen viele Interaktionstechniken aus dem Bereich VR in der AR Pate, doch haben sich gerade im Bereich der AR neue Techniken und Konzepte entwickelt. Folglich sollen VR Techniken nur dann betrachtet werden, wenn Sie in AR Anwendungen angewendet wurden bzw. wenn ihre Anwendung sinnvoll erscheint.
In dieser Arbeit wird ein System zur Erzeugung und Darstellung stereoskopischen Video-Panoramen vorgestellt. Neben der theoretischen Grundlagen werden der Aufbau und die Funktionsweise dieses Systems erläutert.
Dazu werden spezielle Kameras verwendet, die Panoramen aufnehmen
können und zur Wiedergabe synchronisiert werden. Anschließend wird ein Renderer implementiert, welcher die Panoramen mithilfe einer VirtualReality Brille stereoskopisch darstellen kann. Dafür werden separate Aufnahmen für die beiden Augen gemacht und getrennt wiedergegeben. Zum Abschluss wird das entstandene Video-Panorama mit einem Panorama eines schon bestehenden Systems verglichen.
Eins der größten Ziele der Computergrafik ist die ästhetische Darstellung von Objekten. Neben herkömmlichen Verfahren existiert ein weiteres Feld, welches sich mit nicht-photorealistischen Renderings beschäftigt. Das Example-Based Rendering ist ein Gebiet, bei dem Benutzer ihren Kunststil, mit Hilfe einer handgemalten Vorlage, auf ein vorberechnetes 3D-Rendering übertragen können. Es existieren einige Algorithmen die bereits beeindruckende Ergebnisse liefern. Das Problem ist, dass die meisten Verfahren aus diesem Bereich zu den Offline-Verfahren zählen und nicht in der Lage sind Ergebnisse in Echtzeit zu produzieren. Aus diesem Grund zeigt diese Arbeit ein Verfahren, dass diese Bedingung erfüllt. Darüber hinaus wird untersucht, welchen Einfluss die Laufzeitminimierung auf die Resultate hat. Es sind Anforderungen definiert, auf die das Verfahren und dessen Ergebnisse überprüft werden. Dabei wird Bezug zu anderen Verfahren aus diesem Gebiet genommen und mit deren Resultaten verglichen.
Stylized image triangulation
(2019)
Die stilisierte Triangulierung ist ein beliebtes Stilmittel bei der Abstraktion von Bildern. Ergebnisse sind auf Covern von Magazinen zu finden oder als Kunstwerk zu kaufen. Eingesetzt wird diese Stilisierung auch bei mobilen Anwendungen oder gar bei Programmen, die sich ausschließlich mit der automatisierten Triangulation befassen.
Diese Arbeit basiert auf einer Veröffentlichung, die die adaptive dynamische Triangulierung als Optimierungsproblem versteht und damit, hinsichtlich der visuellen und technischen Qualität, neue Ergebnisse erzielt. Ziel dieser Arbeit ist es, dieses Verfahren möglichst vielen Nutzern zugänglich zu machen. Dazu wird eine mobile Anwendung - Mesh - entworfen und umgesetzt. Ein Host-Client System wird entwickelt, um die ressourcenbedürftige Berechnung nicht auf dem mobilen Endgerät ausführen zu müssen. Im Zuge dessen wird das Verfahren für die CPU portiert und zusätzlich ein Webserver entwickelt, der die Kommunikation zwischen dem Triangulierungsverfahren und der mobilen Anwendung herstellt. Die App «Mesh» bietet die Möglichkeit, ein beliebiges Bild zu dem Server zu senden, das nach der Bearbeitung heruntergeladen werden kann.
Ein Forschungsaspekt der Arbeit thematisiert die Optimierung des Verfahrens. Dafür wird der Gradientenabstieg, der die Energieminimierung durchführt, anhand verschiedener Ansätze untersucht. Die Einschränkung der Schrittmöglichkeiten, diagonale Schrittrichtungen und eine dynamische Neupositionierung werden getestet. Es zeigt sich, dass sich bei diagonaler Schrittrichtung, anstatt horizontaler und vertikaler, keine Verbesserung verzeichnen lässt. Die Einschränkung der Schrittrichtung, dass ein Punkt seine vorherige Position nicht erneut einnehmen kann, verursacht einen Verlust an optischer Qualität. Jedoch wird der globale angestrebte Approximationsfehler in kürzerer Zeit erreicht. Die vektorbasierte Variante der flexiblen Schrittrichtung resultiert mit längerer Berechnungszeit in qualitativ hochwertigeren Ergebnissen, sodass ästhetischere Resultate erzielt werden.
Ein weiterer Bestandteil dieser Arbeit setzt sich mit der Imitation eines Kunststils auseinander. Die Werke von Josh Bryan dienen als Inspiration. Mittels eines GLSL-Shaders soll durch die Verwendung von Pseudozufälligkeit ein natürlicheres Aussehen einer schraffierten Triangulierung erreicht werden. Ergebnisse zeigen, dass der Ansatz Möglichkeiten der Verbesserung aufweist, dass jedoch eine präzisere Triangulierung für eine hochwertige Imitation notwendig ist. Als letzter Bestandteil wird ein Renderstil präsentiert, der ausgehend von einem beliebigen Ausgangspunkt, die Dreiecke der Triangulation versetzt, sodass Lücken entstehen. Durch die freie Wahl des Zentrums des Effekts, ist ein Einsatz bei Animationen denkbar.
In dieser Arbeit werden jeweils ein Verfahren aus den beiden Bereichen der Bildregistrierung implementiert und beschrieben. Eine direkte und eine merkmalsbasierte Methode werden verglichen und auf ihre Grenzen hin überprüft. Die implementierten Verfahren funktionieren gut und registrieren beide verschiedene Bildserien subpixelgenau. Bei der direkten Methode ist vor allem die Wahl des Transformationsmodells ausschlaggebend. Auch das Einbetten der Methode in eine Gaußpyramidenstruktur hat sich als wichtig herausgestellt. Da die merkmalsbasierte Methode aus verschiedenen Komponenten aufgebaut ist, kann jeder einzelne Schritt durch unterschiedliche Verfahren ausgetauscht werden, so z.B. die Detektion der Merkmale durch Tomasi-Kanade, SIFT oder Moravec. In der direkten Methode kann die Genauigkeit der Ergebnisse zum einen durch den gewählten Schwellwert und zum anderen durch die Anzahl der Pyramidenstufen beeinflusst werden. Bei der merkmalsbasierten Methode wiederum können unterschiedlich viele Merkmale benutzt werden, die einen unterschiedlich hohen Schwellwert besitzen können. Es wird gezeigt, dass beide Methoden zu guten Ergebnissen führen, wenn davon ausgegangen wird, dass die Verschiebung sowie die Rotation gering sind. Bei stärkeren Veränderungen jedoch wird die direkte Methode recht ungenau, während die merkmalsbasierte Methode noch gute Ergebnisse erzielt. An ihre Grenze gerät sie erst, wenn entweder der Bildinhalt sich stark ändert, oder die Rotationen einen Winkel von 20° überschreitet. Beide Verfahren arbeiten also subpixelgenau, können aber unter verschiedenen Voraussetzungen zu Ungenauigkeiten führen. Werden die jeweiligen Probleme der beiden Methoden beachtet und am besten bei der Aufnahme oder vor der Registrierung eliminiert, so können sehr gute Ergebnisse erzielt werden.
Szeneneditor für ein Echtzeitanimationssystem und andere XML konfigurierte und erweiterbare Systeme
(2006)
In dieser Bachelorarbeit wird ein System zur Kameratracking implementiert, dass auf Basis eines Partikelfilters arbeitet. Dazu wird ein Markertracking realisiert und anhand der Markerposition die Kameraposition errechnet. Der Marker soll mit ein Partikelfilter gefunden werden und um das zu bewerkstelligen werden mögliche Markerpositionen simuliert, auch Partikel genannt, und mit Likelyhood Funktionen gewichtet. Fokus liegt auf der Evaluation von verschiedenen Likelyhood-Funktionen des Partikelfilters. Die Likelyhood-Funktionen wurden in CUDA umgesetzt als Teil der Implementation.
Tracking ist ein zentraler Bestandteil vieler moderner technischer Anwendungen, insbesondere in den Bereichen autonome Systeme und Augmented Reality. Für Tracking gibt es viele unterschiedliche Ansätze. Ein erst seit kurzem verfolgter ist die Verwendung von Neuronalen Netzen. Im Rahmen dieser Masterarbeit wird eine eine Anwendung erstellt, welche für das Tracking ein Neuronales Netz verwendet. Dazu gehört ebenfalls die Erstellung von Trainingsdaten, sowie die Erstellung des Neuronalen Netzes und dessen Training.
Anschließend wird die Verwendung von Neuronalen Netzen für Tracking analysiert und ausgewertet. Hierunter fallen verschiedene Aspekte. Es wird für eine unterschiedliche Anzahl an Freiheitsgraden geprüft wie gut das Tracking funktioniert und wie viel Performance dieser Ansatz kostet. Des Weiteren wird die Menge der benötigten Trainingsdaten untersucht, der Einfluss der Architektur des Netzwerks und wie wichtig das Vorhandensein von Tiefendaten für die Funktion des Trackings ist. Dies soll einen Einblick ermöglichen wie relevant dieser Ansatz für den Einsatz in zukünftigen Produkten sein könnte.
Das sichere Befahren von komplexen und unstruktierten Umgebungen durch autonome Roboter ist seit den Anfängen der Robotik ein Problem und bis heute eine Herausforderung geblieben. In dieser Studienarbeit werden drei Verfahren basierend auf 3-D-Laserscans, Höhenvarianz, der Principle Component Analysis (PCA) und Tiefenbildverarbeitung vorgestellt, die es Robotern ermöglichen, das sie umgebende Terrain zu klassifizieren und die Befahrbarkeit zu bewerten, sodass eine sichere Navigation auch in Bereichen möglich wird, die mit reinen 2-D-Laserscannern nicht sicher befahren werden können. Hierzu werden 3-D-Laserscans mit einem 2-D-Laserscanner erstellt, der auf einer Roll-Tilt-Einheit basierend auf Servos montiert ist, und gleichzeitig auch zur Kartierung und Navigation eingesetzt wird. Die einzeln aufgenommenen 2-D-Scans werden dann anhand des Bewegungsmodells der Roll-Tilt-Einheit in ein emeinsames 3-D-Koordinatensystem transformiert und mit für die 3-D-Punktwolkenerarbeitung üblichen Datenstrukturen (Gittern, etc.) und den o.g. Methoden klassifiziert. Die Verwendung von Servos zur Bewegung des 2-D-Scanners erfordert außerdem eine Kalibrierung und Genauigkeitsbetrachtung derselben, um zuverlässige Ergebnisse zu erzielen und Aussagen über die Qualität der 3-D-Scans treffen zu können. Als Ergebnis liegen drei Implementierungen vor, welche evolutionär entstanden sind. Das beschriebene Höhenvarianz-Verfahren wurde im Laufe dieser Studienarbeit von einem Principle Component Analysis basierten Verfahren, das bessere Ergebnisse insbesondere bei schrägen Untergründen und geringer Punktdichte bringt, abgelöst. Die Verfahren arbeiten beide zuverlässig, sind jedoch natürlich stark von der Genauigkeit der zur Erstellung der Scans verwendeten Hardware abhängig, die oft für Fehlklassifikationen verantwortlich war. Die zum Schluss entwickelte Tiefenbildverarbeitung zielt darauf ab, Abgründe zu erkennen und tut dies bei entsprechender Erkennbarkeit des Abgrunds im Tiefenbild auch zuverlässig.
Texture-based text detection in digital images using wavelet features and support vector machines
(2010)
In dieser Bachelorarbeit wird ein neues texturbasiertes Verfahren zur Detektion von Texten in digitalen Bildern vorgestellt. Das Verfahren kann im wesentlichen in zwei Hauptaufgaben unterteilt werden, in Detektion von Textblöcken und Detektion von einzelnen Wörtern, wobei die einzelnen Wörter aus den detektierten Textblöcken extrahiert werden. Im Groben agiert das entwickelte Verfahren mit mehreren Support Vector Machines, die mit Hilfe von waveletbasierten Merkmalen mögliche Textregionen eines Bildes zu wirklichen Textregionen klassiffzieren. Die möglichen Textregionen werden dabei durch unterschiedlich ausgerichtete Kantenprojektionen bestimmt. Das Resultat des Verfahrens sind X/Y Koordinaten, Breite und Höhe von rechteckigen Regionen eines Bildes, die einzelne Wörter enthalten. Dieses Wissen kann weiterverarbeitet werden, beispielsweise durch eine Texterkennungssoftware, um an die wichtigen und sehr nützlichen Textinformationrneines Bildes zu gelangen.