Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (27)
- Studienarbeit (17)
- Bachelorarbeit (13)
- Dissertation (8)
- Masterarbeit (6)
Schlagworte
- Bildverarbeitung (9)
- Robotik (7)
- Mustererkennung (3)
- 3D (2)
- Bildanalyse (2)
- Kamera (2)
- Klassifikation (2)
- Laserscanner (2)
- Mikroskopie (2)
- Roboter (2)
- Segmentierung (2)
- 2-D (1)
- 3-D-Laserscannen (1)
- 3-D-Scanning (1)
- 3D-Abbildungen (1)
- Action Recognition (1)
- Action Segmentation (1)
- Automatische Klassifikation (1)
- Autonome Robotik (1)
- Autonomes Robotersystem (1)
- Befahrbarkeit (1)
- Bewegungsmodell (1)
- Bild (1)
- Bildanalyse-Verfahren (1)
- Bildregistrierung (1)
- Bildsensor (1)
- Blinder Fleck (1)
- CAD (1)
- CT-Datensätze (1)
- ColorSym (1)
- Coloskopie (1)
- Communication System (1)
- Computer Vision (1)
- Computer-aided diagnosis (1)
- Computersimulation (1)
- Computertomografie (1)
- Computertomographie (1)
- DIN EN ISO 9241 (1)
- Darmpolyp (1)
- Deep Learning (1)
- Deep Metric Learning (1)
- Digitale Bilder (1)
- Dimension 3 (1)
- Dreidimensionales Modell (1)
- Dynamische Programmierung (1)
- Enhanced Representation (1)
- Eye Tracking (1)
- Farbsymmetrie (1)
- FastSLAM Algorithmus (1)
- Flugkörper (1)
- GazeTheWeb (1)
- Gelände (1)
- Gittererzeugung (1)
- Glaukom (1)
- Glint Center Estimation Algorithmus (1)
- Grafikprozessor (1)
- Graphikprozessor (1)
- Heidelberg Retina Tomograph (1)
- Hindernis (1)
- Hochgeschwindigkeitstracking (1)
- ICP-Algorithmus (1)
- Imitation Learning (1)
- Inpainting-Verfahren (1)
- Interaktives Whiteboard (1)
- Kalibrieren <Messtechnik> (1)
- Kalibrierung (1)
- Kartographie (1)
- Katadioptrisches Stereosystem (1)
- Klassifikationsframework (1)
- Laser (1)
- Linienkorrelationen (1)
- Lokale Bildmerkmale (1)
- Lokalisierung (1)
- Machine Learning (1)
- Mammographie (1)
- Matchingverfahren (1)
- Medizinische Bildverarbeitung (1)
- Medizintechnik (1)
- Merkmalsbewertung (1)
- Merkmalsdetektion (1)
- Mobiler Roboter (1)
- Modellbasiertes Tracking (1)
- Multimodal Action Recognition (1)
- Multiple Object Tracking (1)
- Multivariate Datenanalyse (1)
- Navigation (1)
- Oberflächenorientierung (1)
- Oberflächenstruktur (1)
- Objektentfernung (1)
- One-Shot Action Recognition (1)
- Optisches Mikroskop (1)
- Ornamentik (1)
- Ornamentklassifikation (1)
- PACS- Picture Archiving (1)
- Personentracking (1)
- Personenverfolgungssystem (1)
- Pfadplanung (1)
- Photogrammetrie Kalibrierung EMVA-1288 (1)
- Photogrammetry (1)
- Planspiegel-System (1)
- Pollenanalyse (1)
- Posebestimmung (1)
- Poseschätzung (1)
- Positionsbestimmung (1)
- Punktkorrelationen (1)
- Pupil Center Estimation Algorithmus (1)
- Qt/C++ (1)
- Radiales System (1)
- Random Finite Sets (1)
- Registrierung <Bildverarbeitung> (1)
- Rescue League (1)
- Retinex-Algorithmus (1)
- Rettungsroboter (1)
- RoboCup (1)
- SIFT-Algorithmus (1)
- SIFT-Merkmale (1)
- SIFT-Verfahren (1)
- STOR (1)
- SURF-Algorithmus (1)
- Schatten (1)
- Selbstlokalisation (1)
- Semantik (1)
- Software- Ergonomie (1)
- Standortbestimmung (1)
- Stereobildfolgen (1)
- Stereosehen (1)
- Straßenzustand (1)
- Tanzspiel (1)
- Text (1)
- Texterkennung (1)
- Textur-Mapping (1)
- Tiefenbild (1)
- Tiefenkarte (1)
- Tracking (1)
- Tracking-System (1)
- USARSim (1)
- Ungarische Methode (1)
- Unterwasser-Pipeline (1)
- Unterwasserfahrzeug (1)
- Unterwasserkabel (1)
- Visual Stimuli Discovery (1)
- Visuelle Odometrie (1)
- Wahrscheinlichkeitsrechnung (1)
- Web (1)
- Whiteboard (1)
- depth map (1)
- disparity map (1)
- dynamic programming (1)
- image processing (1)
- menschliches Auge (1)
- path planning (1)
- robotics (1)
- stereo vision (1)
Institut
3D-Modelle werden heute in vielen Bereichen wie Multimedia Anwendungen, Robotik oder der Filmindustrie immer wichtiger. Besonders interessant ist dabei die Erstellung eines 3D-Modells aus einer monokularen Bilderserie, da die hierfür nötigen Kameras immer günstiger, kleiner und ausgereifter produziert werden. Geeignetere Kameras werden in immer mehr Geräten wie Smartphones, Tablet-PCs, Autos etc. verbaut, wodurch sich ein großes Potential für die Verwendung dieser Rekonstruktionstechnik ergibt.
Als Grundlage dieser Arbeit dient eine mit einer kalibrierten Kamera aufgenommene Bilderserie. Aus dieser werden 2D-Punktkorrespondenzen, mit den verbreiteten SURF-Features oder den A-KAZE-Features gewonnen. Aufbauend auf den 2D-Punktkorrespondenzen kann aus diesen mit Hilfe verschiedener Algorithmen ein 3D-Modell in Form einer Punktwolke und Kameraposen rekonstruiert werden.
Um Fehler in dem entstandenen Modell gering zu halten, wird insbesondere aufrnden Bündelausgleich zur Fehlerminimierung eingegangen. Anschließend wird dasrnneben dieser Arbeit entstandene Programm zur 3D-Rekonstuktion und Visualisierung des 3D-Modells erläutert. Das implementierte System wird anschließend anhand von Statistiken evaluiert und die hieraus gewonnenen Erkentnisse präsentiert.
Abschließend werden die Ergebnisse dieser Arbeit zusammengefasst und einrnAusblick auf mögliche Weiterentwicklungen gegeben.
Quadrokopter sind Helikopter mit vier in einer Ebene angeordneten Rotoren. Kleine unbemannte Modelle, die oft nur eine Schubkraft von wenigen Newton erzeugen können, sind im Spielzeug- und Modellbaubereich beliebt, werden aber auch von Militär und Polizei als Drohne für Aufklärungs- und Überwachungsaufgaben eingesetzt. Diese Diplomarbeit befasst sich mit den theoretischen Grundlagen der Steuerung eines Quadrokopters und entwickelt darauf aufbauend eine kostengünstige Steuerplatine für einen Modellquadrokopter.
Die theoretischen Grundlagen enthalten eine Untersuchung der Dynamik eines frei fliegenden Quadrokopters, bei der Bewegungsgleichungen hergeleitet und mit den Ergebnissen verglichen werden, die in "Design and control of quadrotors with application to autonomous flying" ([Bou07]) vorgestellt wurden. Weiterhin wird die Funktionsweise verschiedener Sensoren beschrieben, die zur Bestimmung der aktuellen räumlichen Ausrichtung geeignet sind, und es werden Verfahren besprochen, mit denen die Ausrichtung aus den Messwerten dieser Sensoren abgeschätzt werden kann. Zusätzlich wird in den Schiefkörper der Quaternionen eingeführt, in dem dreidimensionale Rotationen kompakt dargestellt und effizient verkettet werden können.
Daran anschließend wird die Entwicklung einer einfachen Steuerplatine beschrieben, die sowohl einen autonomen Schwebeflug als auch Fernsteuerung ermöglicht. Die Platine wurde auf einem X-Ufo-Quadrokopter der Firma Silverlit entwickelt und getestet, der daher ebenfalls vorgestellt wird. Die eingesetzten Bauteile und deren Zusammenspiel werden besprochen. Dabei ist insbesondere die WiiMotionPlus hervorzuheben, die als kostengünstiges Gyrosensormodul verwendet wird. Daneben werden verschiedene Aspekte der Steuersoftware erläutert: die Auswertung der Sensordaten, die Zustandsschätzung mit Hilfe des expliziten komplementären Filters nach Mahony et al. ([MHP08]), die Umsetzung des Ausrichtungsreglers sowie die Erzeugung der Steuersignale für die Motoren. Sowohl die Steuersoftware als auch Schaltplan und Platinenlayout der Steuerplatine liegen dieser Arbeit auf einer CD bei. Schaltplan und Platinenlayout sind zusätzlich im Anhang der Arbeit abgedruckt.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
In dieser Arbeit präsentieren wir Methoden zum Schätzen von Kamerabewegungen einer RGB-D-Kamera in sechs Freiheitsgraden und dem Erstellen von 3D-Karten. Als erstes werden die RGB- und Tiefendaten registriert und synchronisiert. Nach der Vorverarbeitung extrahieren wir FAST-Merkmale in zwei aufeinander folgenden Bildern. Daraus wird eine Korrespondenzmenge erstellt und Ausreißer werden herausgefiltert. Anschließend projizieren wir die Korrespondenzmenge in 3D, um die Bewegung aus 3D-3D-Korrespondezen mittels Least-Squares zu bestimmen. Weiterhin präsentieren wir Methoden, um 3D-Karten aus Bewegungsschätzungen und RGB-D-Daten zu erstellen. Dafür benutzen wir das OctoMap-Framework und erstellen wahlweise auch inkrementelle Karten aus Punktewolken. Anschließend evaluieren wir das System mit dem weit verbreiteten RGB-D-Benchmark.
Zur Erstellung von 3-D-Oberflächenmodellen real existierender Objekte wird häufig sehr teure Hardware eingesetzt, z.B. 3-D-Laser-Range-Scanner. Da diese keine Grauwert- oder Farbinformationen erfassen können, muss das Objekt zur Wiedergabe farbiger Strukturen zusätzlich abfotografiert und mit den Bildern registriert werden. Die Arbeit entwickelt demgegenüber ein Verfahren zum Einsatz eines kalibrierten Stereokamerasystems. Aus den erhaltenen Sequenzen zweidimensionaler Stereobilder kann ein texturiertes 3-D-Mesh rekonstruiert werden. Im Vergleich zum Einsatz eines Scanners ist dieses Verfahren zwar weniger genau, aber dafür preisgünstiger, platzsparend und schneller einsetzbar. Den Schwerpunkt der Arbeit bilden die Fusionierung der Tiefenkarten und die Erstellung eines texturierten Meshs aus diesen.
In dieser Studienarbeit wurde ein Algorithmus vorgestellt, um sich mit einem Roboter in unbekanntem Gebiet zu lokalisieren und gleichzeitig eine Karte von der Umgebung zu erstellen. Die Lokalisation des Roboters geschieht auf 2D Ebene und errechnet die (x, y, θ)T Position des Roboters zu jedem Zeitpunt t inkrementell. Der Algorithmus baut auf dem FastSLAM 2.0 Algorithmus auf und wurde abgeändert, um eine möglichst genaue Lokalisation in Gebäuden zu ermöglichen. Hierfür wurden mehrere verschieden Arten von möglichen Landmarken untersucht, verglichen und kombiniert. Schwerpunkt dieser Studienarbeit war das Einarbeiten in das Extended Kalman-Filter und die Selektion von Landmarken, die für den Einsatz in Gebäuden geeignet sind.
Das Web ist ein wesentlicher Bestandteil der Transformation unserer Gesellschaft in das digitale Zeitalter. Wir nutzen es zur Kommunikation, zum Einkaufen und für unsere berufliche Tätigkeit. Der größte Teil der Benutzerinteraktion im Web erfolgt über Webseiten. Daher sind die Benutzbarkeit und Zugänglichkeit von Webseiten relevante Forschungsbereiche, um das Web nützlicher zu machen. Eyetracking ist ein Werkzeug, das in beiden Bereichen hilfreich sein kann. Zum einen um Usability-Tests durchzuführen, zum anderen um die Zugänglichkeit zu verbessern. Es kann verwendet werden, um die Aufmerksamkeit der Benutzer auf Webseiten zu verstehen und Usability-Experten in ihrem Entscheidungsprozess zu unterstützen. Darüber hinaus kann Eyetracking als Eingabemethode zur Steuerung einer Webseite verwendet werden. Dies ist besonders nützlich für Menschen mit motorischen Beeinträchtigungen, die herkömmliche Eingabegeräte wie Maus und Tastatur nicht benutzen können. Allerdings werden Webseiten aufgrund von Dynamiken, d. h. wechselnden Inhalten wie animierte Menüs und Bilderkarussells, immer komplexer. Wir brauchen allgemeine Ansätze zum Verständnis der Dynamik auf Webseiten, die eine effiziente Usability-Analyse und eine angenehme Interaktion mit Eyetracking ermöglichen. Im ersten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Analyse von dynamischen Webseiten. Eyetracking kann verwendet werden, um die Blicke von Nutzern auf Webseiten zu erfassen. Die Blicke zeigen einem Usability-Experten, welche Teile auf der Webseite gelesen, überflogen oder übersprungen worden sind. Die Aggregation von Blicken ermöglicht einem Usability-Experten allgemeine Eindrücke über die Aufmerksamkeit der Nutzer, bevor sie sich mit dem individuellen Verhalten befasst. Dafür müssen alle Blicke entsprechend des von den Nutzern erlebten Inhalten verstanden werden. Die Benutzererfahrung wird jedoch stark von wechselnden Inhalten beeinflusst, da diese einen wesentlichen Teil des angezeigten Bildes ausmachen können. Wir grenzen unterschiedliche Zustände von Webseiten inklusive wechselnder Inhalte ab, so dass Blicke von mehreren Nutzern korrekt aggregiert werden können. Im zweiten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Interaktion mit dynamischen Webseiten. Eyetracking kann verwendet werden, um den Blick während der Nutzung zu erheben. Der Blick kann als Eingabe zur Steuerung einer Webseite interpretiert werden. Heutzutage wird die Blicksteuerung meist zur Emulation einer Maus oder Tastatur verwendet, was eine komfortable Bedienung erschwert. Es gibt wenige Webbrowser-Prototypen, die Blicke direkt zur Interaktion mit Webseiten nutzen. Diese funktionieren außerdem nicht auf dynamischen Webseiten. Wir haben eine Methode entwickelt, um Interaktionselemente wie Hyperlinks und Texteingaben effizient auf Webseiten mit wechselnden Inhalten zu extrahieren. Wir passen die Interaktion mit diesen Elementen für Eyetracking an, so dass ein Nutzer bequem und freihändig im Web surfen kann. Beide Teile dieser Arbeit schließen mit nutzerzentrierten Evaluationen unserer Methoden ab, wobei jeweils die Verbesserungen der Nutzererfahrung für Usability-Experten bzw. für Menschen mit motorischen Beeinträchtigungen untersucht werden.
Der Zweck dieser Bachelorarbeit ist es Lisa - dem Roboter, der von der Arbeitsgruppe Aktives an der Universität Koblenz-Landau, Campus Koblenz, für die Teilnahme an der @home Liga des Robocups entwickelt wurde - das Zeichnen beizubringen. Dies erfordert die Erweiterung des Robbie Software Frameworks und den Einsatz der Hardware-Komponenten des Roboters. Unter Beachtung eines möglichen Einsatzes für die Open Challenge des RoboCups @home, sind die Ziele ein Blatt Papier mit Lisas optischem Sensor, einer Microsoft Kinect, zu erkennen und auf diesem zu Zeichnen unter Benutzung des Neuronics Katana Roboterarms. Zusätzlich muss eine Stifthalterung für den Gripper des Arms konstruiert werden.
Beschrieben in dieser Arbeit sind die notwendigen Schritte, um eine Zeichenvorlage in Bewegungen des Arms umzuwandeln, welche wiederum dazu führen, dass ein Bild gezeichnet wird durch den am Arm montierten Stift auf dem Blatt Papier, welches vom optischen Sensor durch Bilderkennung entdeckt wurde. Ermöglicht wurde es ein Object, welches aus einer beliebigen Anzahl gerader Linien besteht und aus einer SVG-Datei gelesen wird, auf ein weißes Blatt Papier zu zeichnen, das auf einer dunkleren Oberfläche erkannt wird, umgeben von anderen Gegenständen und Texturen.
Das Ziel dieser Masterarbeit ist, dass der Roboter Lisa komplexe Befehle verarbeiten und Information aus einem Kommando extrahieren kann, die benötigt werden, um eine komplexe Aufgabe als eine Sequenz von kleineren Aufgaben auszuführen. Um dieses Ziel zu erreichen wird das Bild, das Lisa von ihrer Umgebung hat, mit semantischen Informationen angereichert. Diese Informationen werden in ihre Karte eingefügt werden. Es wird angenommen, dass der komplexe Befehl bereits geparst worden ist. Deshalb ist die Verarbeitung des Inputs, um daraus einen geparsten Befehl zu erstellen, kein Teil dieser Masterarbeit. Die Karten, die Lisa aufbaut, werden mit semantischen Anmerkungen annotiert. Zu diesen Anmerkungen gehört jede Art von Informationen, die nützlich zur Ausführung allgemeiner Aufgaben sein könnte. Das kann zumBeispiel eine hierarchische Klassifizierungen von Orten, Objekten und Flächen sein. Die Abarbeitung des Befehls mit den zugehörigen Informationen über die Umgebung wird eine Sequenz von Aufgaben auslösen. Diese Aufgaben sind die bereits implementierten Fähigkeiten von Lisa, wie zum Beispiel Objekterkennung oder Navigation. Das Ziel dieser Masterarbeit ist aber nicht nur, die vorhandenen Aufgaben zu nutzen, sondern auch das Hinzufügen von neuen Aufgaben zu erleichtern.
Texture-based text detection in digital images using wavelet features and support vector machines
(2010)
In dieser Bachelorarbeit wird ein neues texturbasiertes Verfahren zur Detektion von Texten in digitalen Bildern vorgestellt. Das Verfahren kann im wesentlichen in zwei Hauptaufgaben unterteilt werden, in Detektion von Textblöcken und Detektion von einzelnen Wörtern, wobei die einzelnen Wörter aus den detektierten Textblöcken extrahiert werden. Im Groben agiert das entwickelte Verfahren mit mehreren Support Vector Machines, die mit Hilfe von waveletbasierten Merkmalen mögliche Textregionen eines Bildes zu wirklichen Textregionen klassiffzieren. Die möglichen Textregionen werden dabei durch unterschiedlich ausgerichtete Kantenprojektionen bestimmt. Das Resultat des Verfahrens sind X/Y Koordinaten, Breite und Höhe von rechteckigen Regionen eines Bildes, die einzelne Wörter enthalten. Dieses Wissen kann weiterverarbeitet werden, beispielsweise durch eine Texterkennungssoftware, um an die wichtigen und sehr nützlichen Textinformationrneines Bildes zu gelangen.
Das Ziel dieser Studienarbeit ist es, einen Roboterarm in einen bestehenden Software-Stackrnzu integrieren, damit ein darauf basierender Roboter beim Wettbewerb RoboCup @Home teilnehmen kann. Der Haushaltsroboter Lisa (Lisa Is a Service Android) muss für den @Home-Wettbewerb unter anderem Gegenstände aus Regalen entnehmen und an Personen weiterreichen. Bisher war dafür nur ein Gripper, also ein an der mobilen Plattform in Bodennähe angebrachter "Zwicker" vorhanden. Nun steht dem Roboter ein "Katana Linux Robot" der Schweizer Firma Neuronics zur Verfügung, ein Roboter in Form eines Arms. Dieser wird auf LISA montiert und nimmt über verschiedene Schnittstellen Befehle entgegen. Er besteht aus sechs Gliedern mit entsprechend vielen Freiheitsgraden. Im Robbie-Softwarestack muss ein Treiber für diesen Arm integriert und eine Pfadplanung erstellt werden. Letztere soll bei der Bewegung des Arms sowohl Kollisionen mit Hindernissen vermeiden als auch natürlich wirkende Bewegungsabläufe erstellen.
Ziel der Bachelorarbeit war die Evaluation und Optimierung von verschiedenen Eye-Tracking Algorithmen für die subpixelgenaue Bestimmung der relevanten Merkmale bezüglich Genauigkeit. Die extrahierten Merkmale sind das Pupillen- und Glintzentrum. Die Algorithmen sind mit preiswerten Kameras einsetzbar. Es wurde ein synthetisches Modell des Auges modifiziert und verwendet, mit dem die Methoden mit bekannter Ground Truth evaluiert wurden.
Mit Hilfe von Stereobildfolgen, die ein Stereokamerasystem liefert, wird versucht Informationen aus der betrachtenden Szene zu gewinnen. Die Zuordnung von Bildpunkten, die in beiden Bildern eines Stereobildpaares vorkommen und einen gemeinsamen Weltpunkt beschreiben, ermöglichen die Bestimmung einer Tiefeninformation. Das Extrahieren von Bildpunkten und deren Zuordnung sind die entscheidenen Faktoren zur Gewinnung der Tiefeninformation. Die Tiefe erlaubt es Aussagen über die Struktur der aufgenommenen Szene zu machen. Bei Übertragung dieser Idee auf das Verfolgen von gemeinsamen Weltpunkten in Bildsequenzen ist es möglich eine relative Positions- und Lageschätzung des Kamerasystems zur vorher aktuellen Position zu bestimmen. Schwierigkeiten ergeben sich aus Verdeckungen von Weltpunkten für den jeweiligen Sensor, sowie fehlerhaften Bildpunktzuordnungen. Die Geschwindigkeit des kombinierten Vorgang aus Extraktion und Punktzuordnung stellt eine weitere Anforderung an das System.
Orientierung aus Silhouetten
(2010)
Anhand der sogenannten "Analyse durch Synthese" soll in der folgenden Qualifikationsarbeit versucht werden, zum Zeitpunkt einer Aufnahme auf dem Campus der Universität Koblenz die Orientierung der Kamera zu bestimmen. Die Lösungsidee für diese Problemstellung liegt in Form eines merkmalsbasierten Ansatzes vor. Zu diesem Zweck ist die grobe Position im 3D-Campusmodell der Universität Koblenz zum Zeitpunkt der entsprechenden Aufnahme gegeben. Um das Bild einer realen Aufnahme mit einem künstlichen Bild des 3D-Modells vergleichen zu können, ist ein Ähnlichkeitsmaß notwendig, welches die Ähnlichkeit zwischen diesen beiden Bildern mit einem Wert ausdrückt. Der Vergleich erfolgt anhand der Silhouette der einzelnen Bilder, während die Orientierung der Kamera mit Hilfe eines nicht linearen Opitimierungsverfahrens bestimmt wird.
Das Ziel der Bachelor-Arbeit ist es, einen existierenden sechsbeinigen Kleinroboter zu programmieren, der dann in der Lage sein soll, seine Umgebung autonom zu explorieren und eine Karte selbiger zu erstellen. Zur Umgebungswahrnehmung soll ein Laserscanner integriert werden. Die Erstellung der Karte sowie die Selbstlokalisation des Roboters erfolgt durch Anbindung des Sensors an ein geeignetes SLAM (Simultaneous Localization and Mapping) Verfahren. Die Karte soll die Grundlage für die Pfadplanung und Hindernisvermeidung des Roboters bilden, die ebenfalls im Rahmen dieser Arbeit entwickelt werden sollen. Dazu werden sowohl GMapping als auch Hector Mapping verwendet und getestet.
In der Arbeit wird zudem ein xplorationsalgorithmus beschrieben, mit welchem der Roboter seine Umgebung erkunden kann. Die Umsetzung auf dem Roboter erfolgt innerhalb des ROS (Robot Operating System) Frameworks auf einem "Raspberry Pi" Miniatur-PC.
Die Arbeit befasst sich mit atlasbasierter Segmentierung von CT-Datensätzen mit Hilfe von elastischen Registrierungsmethoden. Ziel ist die vollautomatische Segmentierung eines beliebigen Eingabedatensatzes durch Registrierung mit einem vorsegmentierten Referenzdatensatz, dem Atlanten. Ein besonderes Augenmerk liegt dabei auf der Implementierung und Evaluation elastischer Registrierungsverfahren, da rigide Registrierungsmethoden besonders in Bereichen hoher anatomischer Varianzen keine genaue Segmentierung gewährleisten. Im Vordergrund steht zunächst die Generierung zweier Atlanten, die als durchschnittliche Referenzdatensätze Informationen über die anatomische Varianz männlicher und weiblicher Bevölkerungsgruppen enthalten. Weiter werden vier etablierte elastische Registrierungsarten implementiert und im Hinblick auf eine atlasbasierte Segmentierung der wichtigen Organe des menschlichen Torsos evaluiert: BSpline-Registrierung, Demons-Registrierung, Level-Set-Motion-Registrierung und FEM-Registrierung. Robustheit und Genauigkeit der implementierten Verfahren wurden anhand von Lungen- und Abdomendatensätzen sowohl intra- als auch interpatientenspezifisch ausgewertet. Es wird gezeigt, dass vor allem die elastische BSpline-Registrierung hier genauere Segmentierungsergebnisse liefern kann, als es mit einer rigiden Registrierung möglich ist.
Große Gebiete lassen sich auf Grund von Schattenbildung und begrenzter Scanreichweite nicht mit einem einzigen 3D-Scan aufnehmen. Um konsistente dreidimensionale Karten dieses Gebietes zu erzeugen müssen also mehrere Scans zusammengefügt werden. Soll dieses Matchen der Scans automatisch geschehen, so kann es wegen fehlerhaften Translations- und Rotationsdaten, die die unterschiedlichen Positionen der Scans beschreiben,zu inkonsistenten Karten kommen. Um dies zu vermeiden wird in dieser Arbeit ein schneller Iterativ Closest Points Algorithmus implementiert, der versucht, Fehler in diesen sechs Freiheitsgraden zu korrigieren. Das Verfahren soll im Rahmen dieser Arbeit in die schon vorhandene Software unseres Roboters eingebunden werden.
In dieser Arbeit wird die Umsetzung und Modifikation des Verfahrens von Finlayson et al. zur Schattenentfernung in einzelnen Farbbildern unter Verwendung des Retinex-Algorithmus vorgestellt. Für die benötigte Detektion von Schattenkanten wurde ein Verfahren von Finlayson et al. umgesetzt und angepasst. Die erforderliche Kamerakalibrierung wurde dabei nicht mit Tageslicht, sondern unter Verwendung künstlicher Lichtquellen realisiert. Anhand von Campus-Bildsequenzen wird ein qualitativer Vergleich des umgesetzten Verfahrens mit dem von Weiss zur Schattenentfernung in Bildserien vorgenommen. Außerdem wird ein erster Ansatz vorgestellt, wie Verfahren zur Schattenentfernung quantitativ bewertet werden können. Die Erzeugung der benötigten Ground-truth-Daten wird mit Hilfe von Laboraufnahmen realisiert, sodass keine manuelle Segmentierung von Schatten erforderlich ist. Anhand der Ergebnisse von Experimenten wird gezeigt, inwieweit die definierten Maße eine Bewertung und einen Vergleich der beiden Verfahren erlauben.
In dieser Studienarbeit wird ein Verfahren zur Extraktion eines Oberflächenbegrenzungsmodells aus einem Tiefenbild vorgestellt. Das Modell beschreibt die im Tiefenbild dargestellte Szene durch die Geometrie und die Topologie der planaren Flächen, die in der Szene gefunden werden. Die Geometrie ist gegeben durch die Angabe der Ebenengleichungen der gefundenen Flächen sowie der 3D-Koordinaten der Eckpunkte der Polygone, die diese Flächen beschreiben. Die Informationen über die Topologie der Szene besteht aus einer Nachbarschaftsliste, die für jede Flaeche angibt, über welche Kante diese Fläche mit welcher anderen Fläche verbunden ist. Aufbauend auf einem Algorithmus zur Tiefenbildsegmentierung aus PUMA werden die Polygone bestimmt, die die Flächen der Szene beschreiben. Anschließend wird versucht, diese Polygone über Kanten und Eckpunkte zu verbinden, um ein möglichst geschlossenes Modell der Szene zu erhalten.
Particle Swarm Optimization ist ein Optimierungsverfahren, das auf der Simulation von Schwärmen basiert.
In dieser Arbeit wird ein modifizierter Algorithmus, der durch Khan et al. 2010 eingeführt wurde, zur Schätzung der lokalen Kamerapose in 6DOF verwendet. Die Poseschätzung basiert auf kontinuierlichen Farb-und Tiefendaten, die durch einen RGB-D Sensor zur Verfügung gestellt werden. Daten werden von unterschiedlichen Posen aufgenommen und als gemeinsames Model registriert. Die Genauigkeit und Berechnungsdauer der Implementierung wird mit aktuellen Algorithmen verglichen und in unterschiedlichen Konfigurationen evaluiert.
Das Ziel dieser Bachelorarbeit ist es, die diskrete Fouriertransformation, die diskrete Kosinustransformation und die Hadamard-Walsh Transformation im Kontext der Bildverarbeitung zu vermitteln und diese unter ausgewählten Gesichtspunkten zu vergleichen. Hierfür soll allgemein das Wissen für den aus der linearen Algebra stammenden Begriff der Transformation gefördert werden und auf die Bildverarbeitung übertragen werden. Anschließend wird das Verständnis für die Fouriertransformation sukzessive aufgebaut und mit den beiden weiteren Transformationen verknüpft. Abschließend werden die Transformationen verglichen und ihr Nutzen innerhalb der Bildverarbeitung erläutert.
Since the invention of U-net architecture in 2015, convolutional networks based on its encoder-decoder approach significantly improved results in image analysis challenges. It has been proven that such architectures can also be successfully applied in different domains by winning numerous championships in recent years. Also, the transfer learning technique created an opportunity to push state-of-the-art benchmarks to a higher level. Using this approach is beneficial for the medical domain, as collecting datasets is generally a difficult and expensive process.
In this thesis, we address the task of semantic segmentation with Deep Learning and make three main contributions and release experimental results that have practical value for medical imaging.
First, we evaluate the performance of four neural network architectures on the dataset of the cervical spine MRI scans. Second, we use transfer learning from models trained on the Imagenet dataset and compare it to randomly initialized networks. Third, we evaluate models trained on the bias field corrected and raw MRI data. All code to reproduce results is publicly available online.
Autonome Systeme, wie Roboter, sind bereits Teil unseres täglichen Lebens. Eine Sache, in der Menschen diesen Maschinen überlegen sind, ist die Fähigkeit, auf sein Gegenüber angemessen zu reagieren. Dies besteht nicht nur aus der Fähigkeit zu hören, was eine Person sagt, sondern auch daraus, ihre Mimik zu erkennen und zu interpretieren.
In dieser Bachelorarbeit wird ein System entwickelt, welches automatisch Gesichtsausdrücke erkennt und einer Emotion zuordnet. Das System arbeitet mit statischen Bildern und benutzt merkmalsbasierte Methoden zur Beschreibung von Gesichtsdaten. In dieser Arbeit werden gebräuchliche Schritte analysiert und aktuelle Methoden vorgestellt. Das beschriebene System basiert auf 2D-Merkmalen. Diese Merkmale werden im Gesicht detektiert. Ein neutraler Gesichtsausdruck wird nicht als Referenzbild benötigt. Das System extrahiert zwei Arten von Gesichtsparametern. Zum einen sind es Distanzen, die zwischen den Merkmalspunkten liegen. Zum anderen sind es Winkel, die zwischen den Linien liegen, die die Merkmalspunkte verbinden. Beide Arten von Parametern werden implementiert und getestet. Der Parametertyp, der die besten Ergebnisse liefert, wird schließlich in dem System benutzt. Eine Support Vector Machine (SVM) mit mehreren Klassen klassifiziert die Parameter. Das Ergebnis sind Kennzeichen von Action Units des Facial Action Coding Systems (FACS). Diese Kennzeichen werden einer Gesichtsemotion zugeordnet.
Diese Arbeit befasst sich mit den sechs Basisgesichtsausdrücken (glücklich, überrascht, traurig, ängstlich, wütend und angeekelt) plus dem neutralen Gesichtsausdruck. Das vorgestellte System wird in C++ implementiert und an das Robot Operating System (ROS) angebunden.
In dieser Arbeit werden drei Verfahren zur Objektentfernung aus Bildern einander gegenübergestellt. Zwei der ausgewählten Verfahren stammen aus dem Bereich der sogenannten Inpainting-Verfahren, während das dritte dem Forschungsgebiet der medizinischen Bildverarbeitung entnommen ist. Die Evaluation dieser Verfahren zeigt ihre jeweiligen Vor- und Nachteile auf und prüft ihre Anwendbarkeit auf das spezifische Problem, ein Farbkalibriermuster aus strukturdominierten Bildern zu entfernen. Auf der Grundlage dieser Eigenschaften werden abschließend mehrere Erweiterungen vorgestellt, die eine verbesserte Anwendbarkeit auf das gestellte Problem erreichen.
Es gibt einige Gaze Tracking Systeme, sowohl high- als auch low-cost. Low-cost Systeme gehen meist mit low-resolution Kameras einher. Da hier die Bildqualität schlechter ist, müssen die Algorithmen umso besser arbeiten. Aber wie soll man die Algorithmen die der Erkennung der Blickrichtung dienen, testen, wenn die Bildqualität geringer ist und man nie korrekte Aussagen über die Referenzpunkte treffen kann? Hier greift die Idee dieser Arbeit: Mit Hilfe synthetischer Augenbilder testet man die betreffenden Algorithmen und kann diese, da die Referenzpunkte bekannt sind, analysieren. Eine Veränderung der Komplexität dieser Bilder z. B. mit Hilfe eines zuschaltbaren Gaußrauschens oder eines weiteren Reflektionspunktes, macht es möglich, diese in Stufen der Realität anzunähern. Im Idealfall kann man die Algorithmen mit den aus den Testreihen gewonnenen Erkenntnissen verbessern und bei Anwendung innerhalb eines low-resolution Systems dessen Genauigkeit erhöhen.
Mit der Microsoft Kinect waren die ersten Aufnahmen von synchronisierten Farb- und Tiefendaten (RGB-D) möglich, ohne hohe finanzielle Mittel aufwenden zu müssen und neue Möglichkeiten der Forschung eröffneten sich. Mit fortschreitender Technik sind auch mobile Endgeräte in der Lage, immer mehr zu leisten. Lenovo und Asus bieten die ersten kommerziell erwerblichen Geräte mit RGB D-Wahrnehmung an. Mit integrierten Funktionen der Lokalisierung, Umgebungserkennung und Tiefenwahrnehmung durch die Plattform Tango von Google gibt es bereits die ersten Tests in verschiedenen Bereichen des Rechnersehens z.B. Mapping. In dieser Arbeit wird betrachtet, inwiefern sich ein Tango Gerät für die Objekterkennung eignet. Aus den Ausgangsdaten des Tango Geräts werden RGB D-Daten extrahiert und für die Objekterkennung verarbeitet. Es wird ein Überblick über den aktuellen Stand der Forschung und gewisse Grundlagen bezüglich der Tango Plattform gegeben. Dabei werden existierende Ansätze und Methoden für eine Objekterkennung auf mobilen Endgeräten untersucht. Die Implementation der Erkennung wird anhand einer selbst erstellten Datenbank von RGB-D Bildern gelernt und getestet. Neben der Vorstellung der Ergebnisse werden Verbesserungen und Erweiterungen für die Erkennung vorgeschlagen.
Online Handschrifterkennung chinesischer Schriftzeichen auf androidfähigen mobilen Endgeräten
(2014)
Um mobile Wörterbücher oder Übersetzer zu verwenden, braucht es eine Eingabe. Diese muss zuvor verarbeitet werden, um nutzbar zu sein. Für chinesische Zeichen bietet sich die Handschrift an, da die Schrift hauptsächlich aus Piktogrammen und Ideogrammen besteht.
In dieser Bachelorarbeit wird ein prototypisches Erkennungssystem auf einem mobilen Endgerät implementiert. Die Erkennung soll dabei online und somit während des Schreibens erfolgen. Dies kann dem Benutzer Zeit ersparen, indem verschiedene erkannte Vorschläge zur Laufzeit gegeben werden.
Es werden Grundlagen erläutert und ein Überblick über den aktuellen Stand der Forschung gegeben. Ein Ansatz wird ausgewählt und implementiert, der möglichst schnell ist und wenig Speicherplatz erfordert. Die Implementation wird getestet und es wird gezeigt, dass es möglich ist, eine schnelle Erkennung auf einem kleinen Gerät laufen zu lassen. Es werden Verbesserungen und Erweiterungen vorgeschlagen, sowie ein Ausblick gegeben.
Der Wettbewerb um die besten Technologien zur Realisierung des autonomen Fahrens ist weltweit in vollem Gange.
Trotz großer Anstrengungen ist jedoch die autonome Navigation in strukturierter und vor allem unstrukturierter Umgebung bisher nicht gelöst.
Ein entscheidender Baustein in diesem Themenkomplex ist die Umgebungswahrnehmung und Analyse durch passende Sensorik und entsprechende Sensordatenauswertung.
Insbesondere bildgebende Verfahren im Bereich des für den Menschen sichtbaren Spektrums finden sowohl in der Praxis als auch in der Forschung breite Anwendung.
Dadurch wird jedoch nur ein Bruchteil des elektromagnetischen Spektrums genutzt und folglich ein großer Teil der verfügbaren Informationen zur Umgebungswahrnehmung ignoriert.
Um das vorhandene Spektrum besser zu nutzen, werden in anderen Forschungsbereichen schon seit Jahrzehnten \sog spektrale Sensoren eingesetzt, welche das elektromagnetische Spektrum wesentlich feiner und in einem größeren Bereich im Vergleich zu klassischen Farbkameras analysieren. Jedoch können diese Systeme aufgrund technischer Limitationen nur statische Szenen aufnehmen. Neueste Entwicklungen der Sensortechnik ermöglichen nun dank der \sog Snapshot-Mosaik-Filter-Technik die spektrale Abtastung dynamischer Szenen.
In dieser Dissertation wird der Einsatz und die Eignung der Snapshot-Mosaik-Technik zur Umgebungswahrnehmung und Szenenanalyse im Bereich der autonomen Navigation in strukturierten und unstrukturierten Umgebungen untersucht. Dazu wird erforscht, ob die aufgenommen spektralen Daten einen Vorteil gegenüber klassischen RGB- \bzw Grauwertdaten hinsichtlich der semantischen Szenenanalyse und Klassifikation bieten.
Zunächst wird eine geeignete Vorverarbeitung entwickelt, welche aus den Rohdaten der Sensorik spektrale Werte berechnet. Anschließend wird der Aufbau von neuartigen Datensätzen mit spektralen Daten erläutert. Diese Datensätze dienen als Basis zur Evaluation von verschiedenen Klassifikatoren aus dem Bereich des klassischen maschinellen Lernens.
Darauf aufbauend werden Methoden und Architekturen aus dem Bereich des Deep-Learnings vorgestellt. Anhand ausgewählter Architekturen wird untersucht, ob diese auch mit spektralen Daten trainiert werden können. Weiterhin wird die Verwendung von Deep-Learning-Methoden zur Datenkompression thematisiert. In einem nächsten Schritt werden die komprimierten Daten genutzt, um damit Netzarchitekturen zu trainieren, welche bisher nur mit RGB-Daten kompatibel sind. Abschließend wird analysiert, ob die hochdimensionalen spektralen Daten bei der Szenenanalyse Vorteile gegenüber RGB-Daten bieten
Die automatische Detektion der Lage und Ausrichtung von Unterwasser-Kabeln oder -Pipelines in Kamerabildern ermöglicht es, Unterwasserfahrzeuge autonome Kontrollfahrten durchführen zu lassen. Durch Pflanzenwuchs auf und in der Nähe von Kabeln bzw. Pipelines wird deren visuelle Erfassung jedoch erschwert: Die Bestimmug der Lage über die Detektion von Kanten mit anschließender Linien-Extraktion schlägt oft fehl. Probabilistische Ansätze sind hier den deterministischen überlegen. Durch die Modellierung von Wahrscheinlichkeiten kann trotz geringer Anzahl von extrahierten Merkmalen eine Aussage über den Zustand des Systems getroffen werden. Diese Arbeit stellt ein neues auf Partikelfiltern basierendes Tracking-System für die Verfolgung von Kabeln und Pipelines in Bildsequenzen vor. Umfangreiche Experimente auf realistischen Unterwasser-Videos zeigen die Robustheit und Performanz des gewählten Ansatzes sowie Vorteile gegenüber vorangegangenen Arbeiten.
Die Forschung im Bereich der modellbasierten Objekterkennung und Objektlokalisierung hat eine vielversprechende Zukunft, insbesondere die Gebäudeerkennung bietet vielfaltige Anwendungsmöglichkeiten. Die Bestimmung der Position und der Orientierung des Beobachters relativ zu einem Gebäude ist ein zentraler Bestandteil der Gebäudeerkennung.
Kern dieser Arbeit ist es, ein System zur modellbasierten Poseschätzung zu entwickeln, das unabhängig von der Anwendungsdomäne agiert. Als Anwendungsdomäne wird die modellbasierte Poseschätzung bei Gebäudeaufnahmen gewählt. Vorbereitend für die Poseschätzung bei Gebäudeaufnahmen wird die modellbasierte Erkennung von Dominosteinen und Pokerkarten realisiert. Eine anwendungsunabhängige Kontrollstrategie interpretiert anwendungsspezifische Modelle, um diese im Bild sowohl zu lokalisieren als auch die Pose mit Hilfe dieser Modelle zu bestimmen. Es wird explizit repräsentiertes Modellwissen verwendet, sodass Modellbestandteilen Bildmerkmale zugeordnet werden können. Diese Korrespondenzen ermöglichen die Kamerapose aus einer monokularen Aufnahme zurückzugewinnen. Das Verfahren ist unabhängig vom Anwendungsfall und kann auch mit Modellen anderer rigider Objekte umgehen, falls diese der definierten Modellrepräsentation entsprechen. Die Bestimmung der Pose eines Modells aus einem einzigen Bild, das Störungen und Verdeckungen aufweisen kann, erfordert einen systematischen Vergleich des Modells mit Bilddaten. Quantitative und qualitative Evaluationen belegen die Genauigkeit der bestimmten Gebäudeposen.
In dieser Arbeit wird zudem ein halbautomatisches Verfahren zur Generierung eines Gebäudemodells vorgestellt. Das verwendete Gebäudemodell, das sowohl semantisches als auch geometrisches Wissen beinhaltet, den Aufgaben der Objekterkennung und Poseschätzung genügt und sich dennoch an den bestehenden Normen orientiert, ist Voraussetzung für das Poseschätzverfahren. Leitgedanke der Repräsentationsform des Modells ist, dass sie für Menschen interpretierbar bleibt. Es wurde ein halbautomatischer Ansatz gewählt, da die automatische Umsetzung dieses Verfahrens schwer die nötige Präzision erzielen kann. Das entwickelte Verfahren erreicht zum einen die nötige Präzision zur Poseschätzung und reduziert zum anderen die Nutzerinteraktionen auf ein Minimum. Eine qualitative Evaluation belegt die erzielte Präzision bei der Generierung des Gebäudemodells.
This thesis addresses the automated identification and localization of a time-varying number of objects in a stream of sensor data. The problem is challenging due to its combinatorial nature: If the number of objects is unknown, the number of possible object trajectories grows exponentially with the number of observations. Random finite sets are a relatively new theory that has been developed to derive at principled and efficient approximations. It is based around set-valued random variables that contain an unknown number of elements which appear in arbitrary order and are themselves random. While extensively studied in theory, random finite sets have not yet become a leading paradigm in practical computer vision and robotics applications. This thesis explores random finite sets in visual tracking applications. The first method developed in this thesis combines set-valued recursive filtering with global optimization. The problem is approached in a min-cost flow network formulation, which has become a standard inference framework for multiple object tracking due to its efficiency and optimality. A main limitation of this formulation is a restriction to unary and pairwise cost terms. This circumstance makes integration of higher-order motion models challenging. The method developed in this thesis approaches this limitation by application of a Probability Hypothesis Density filter. The Probability Hypothesis Density filter was the first practically implemented state estimator based on random finite sets. It circumvents the combinatorial nature of data association itself by propagation of an object density measure that can be computed efficiently, without maintaining explicit trajectory hypotheses. In this work, the filter recursion is used to augment measurements with an additional hidden kinematic state to be used for construction of more informed flow network cost terms, e.g., based on linear motion models. The method is evaluated on public benchmarks where a considerate improvement is achieved compared to network flow formulations that are based on static features alone, such as distance between detections and appearance similarity. A second part of this thesis focuses on the related task of detecting and tracking a single robot operator in crowded environments. Different from the conventional multiple object tracking scenario, the tracked individual can leave the scene and later reappear after a longer period of absence. Therefore, a re-identification component is required that picks up the track on reentrance. Based on random finite sets, the Bernoulli filter is an optimal Bayes filter that provides a natural representation for this type of problem. In this work, it is shown how the Bernoulli filter can be combined with a Probability Hypothesis Density filter to track operator and non-operators simultaneously. The method is evaluated on a publicly available multiple object tracking dataset as well as on custom sequences that are specific to the targeted application. Experiments show reliable tracking in crowded scenes and robust re-identification after long term occlusion. Finally, a third part of this thesis focuses on appearance modeling as an essential aspect of any method that is applied to visual object tracking scenarios. Therefore, a feature representation that is robust to pose variations and changing lighting conditions is learned offline, before the actual tracking application. This thesis proposes a joint classification and metric learning objective where a deep convolutional neural network is trained to identify the individuals in the training set. At test time, the final classification layer can be stripped from the network and appearance similarity can be queried using cosine distance in representation space. This framework represents an alternative to direct metric learning objectives that have required sophisticated pair or triplet sampling strategies in the past. The method is evaluated on two large scale person re-identification datasets where competitive results are achieved overall. In particular, the proposed method better generalizes to the test set compared to a network trained with the well-established triplet loss.