Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (24)
- Studienarbeit (17)
- Bachelorarbeit (10)
- Dissertation (5)
- Masterarbeit (3)
Schlagworte
- Bildverarbeitung (9)
- Robotik (7)
- Mustererkennung (3)
- 3D (2)
- Bildanalyse (2)
- Kamera (2)
- Laserscanner (2)
- Mikroskopie (2)
- Segmentierung (2)
- 2-D (1)
Institut
- Institut für Computervisualistik (59) (entfernen)
This thesis addresses the automated identification and localization of a time-varying number of objects in a stream of sensor data. The problem is challenging due to its combinatorial nature: If the number of objects is unknown, the number of possible object trajectories grows exponentially with the number of observations. Random finite sets are a relatively new theory that has been developed to derive at principled and efficient approximations. It is based around set-valued random variables that contain an unknown number of elements which appear in arbitrary order and are themselves random. While extensively studied in theory, random finite sets have not yet become a leading paradigm in practical computer vision and robotics applications. This thesis explores random finite sets in visual tracking applications. The first method developed in this thesis combines set-valued recursive filtering with global optimization. The problem is approached in a min-cost flow network formulation, which has become a standard inference framework for multiple object tracking due to its efficiency and optimality. A main limitation of this formulation is a restriction to unary and pairwise cost terms. This circumstance makes integration of higher-order motion models challenging. The method developed in this thesis approaches this limitation by application of a Probability Hypothesis Density filter. The Probability Hypothesis Density filter was the first practically implemented state estimator based on random finite sets. It circumvents the combinatorial nature of data association itself by propagation of an object density measure that can be computed efficiently, without maintaining explicit trajectory hypotheses. In this work, the filter recursion is used to augment measurements with an additional hidden kinematic state to be used for construction of more informed flow network cost terms, e.g., based on linear motion models. The method is evaluated on public benchmarks where a considerate improvement is achieved compared to network flow formulations that are based on static features alone, such as distance between detections and appearance similarity. A second part of this thesis focuses on the related task of detecting and tracking a single robot operator in crowded environments. Different from the conventional multiple object tracking scenario, the tracked individual can leave the scene and later reappear after a longer period of absence. Therefore, a re-identification component is required that picks up the track on reentrance. Based on random finite sets, the Bernoulli filter is an optimal Bayes filter that provides a natural representation for this type of problem. In this work, it is shown how the Bernoulli filter can be combined with a Probability Hypothesis Density filter to track operator and non-operators simultaneously. The method is evaluated on a publicly available multiple object tracking dataset as well as on custom sequences that are specific to the targeted application. Experiments show reliable tracking in crowded scenes and robust re-identification after long term occlusion. Finally, a third part of this thesis focuses on appearance modeling as an essential aspect of any method that is applied to visual object tracking scenarios. Therefore, a feature representation that is robust to pose variations and changing lighting conditions is learned offline, before the actual tracking application. This thesis proposes a joint classification and metric learning objective where a deep convolutional neural network is trained to identify the individuals in the training set. At test time, the final classification layer can be stripped from the network and appearance similarity can be queried using cosine distance in representation space. This framework represents an alternative to direct metric learning objectives that have required sophisticated pair or triplet sampling strategies in the past. The method is evaluated on two large scale person re-identification datasets where competitive results are achieved overall. In particular, the proposed method better generalizes to the test set compared to a network trained with the well-established triplet loss.
Die automatische Detektion der Lage und Ausrichtung von Unterwasser-Kabeln oder -Pipelines in Kamerabildern ermöglicht es, Unterwasserfahrzeuge autonome Kontrollfahrten durchführen zu lassen. Durch Pflanzenwuchs auf und in der Nähe von Kabeln bzw. Pipelines wird deren visuelle Erfassung jedoch erschwert: Die Bestimmug der Lage über die Detektion von Kanten mit anschließender Linien-Extraktion schlägt oft fehl. Probabilistische Ansätze sind hier den deterministischen überlegen. Durch die Modellierung von Wahrscheinlichkeiten kann trotz geringer Anzahl von extrahierten Merkmalen eine Aussage über den Zustand des Systems getroffen werden. Diese Arbeit stellt ein neues auf Partikelfiltern basierendes Tracking-System für die Verfolgung von Kabeln und Pipelines in Bildsequenzen vor. Umfangreiche Experimente auf realistischen Unterwasser-Videos zeigen die Robustheit und Performanz des gewählten Ansatzes sowie Vorteile gegenüber vorangegangenen Arbeiten.
Der Wettbewerb um die besten Technologien zur Realisierung des autonomen Fahrens ist weltweit in vollem Gange.
Trotz großer Anstrengungen ist jedoch die autonome Navigation in strukturierter und vor allem unstrukturierter Umgebung bisher nicht gelöst.
Ein entscheidender Baustein in diesem Themenkomplex ist die Umgebungswahrnehmung und Analyse durch passende Sensorik und entsprechende Sensordatenauswertung.
Insbesondere bildgebende Verfahren im Bereich des für den Menschen sichtbaren Spektrums finden sowohl in der Praxis als auch in der Forschung breite Anwendung.
Dadurch wird jedoch nur ein Bruchteil des elektromagnetischen Spektrums genutzt und folglich ein großer Teil der verfügbaren Informationen zur Umgebungswahrnehmung ignoriert.
Um das vorhandene Spektrum besser zu nutzen, werden in anderen Forschungsbereichen schon seit Jahrzehnten \sog spektrale Sensoren eingesetzt, welche das elektromagnetische Spektrum wesentlich feiner und in einem größeren Bereich im Vergleich zu klassischen Farbkameras analysieren. Jedoch können diese Systeme aufgrund technischer Limitationen nur statische Szenen aufnehmen. Neueste Entwicklungen der Sensortechnik ermöglichen nun dank der \sog Snapshot-Mosaik-Filter-Technik die spektrale Abtastung dynamischer Szenen.
In dieser Dissertation wird der Einsatz und die Eignung der Snapshot-Mosaik-Technik zur Umgebungswahrnehmung und Szenenanalyse im Bereich der autonomen Navigation in strukturierten und unstrukturierten Umgebungen untersucht. Dazu wird erforscht, ob die aufgenommen spektralen Daten einen Vorteil gegenüber klassischen RGB- \bzw Grauwertdaten hinsichtlich der semantischen Szenenanalyse und Klassifikation bieten.
Zunächst wird eine geeignete Vorverarbeitung entwickelt, welche aus den Rohdaten der Sensorik spektrale Werte berechnet. Anschließend wird der Aufbau von neuartigen Datensätzen mit spektralen Daten erläutert. Diese Datensätze dienen als Basis zur Evaluation von verschiedenen Klassifikatoren aus dem Bereich des klassischen maschinellen Lernens.
Darauf aufbauend werden Methoden und Architekturen aus dem Bereich des Deep-Learnings vorgestellt. Anhand ausgewählter Architekturen wird untersucht, ob diese auch mit spektralen Daten trainiert werden können. Weiterhin wird die Verwendung von Deep-Learning-Methoden zur Datenkompression thematisiert. In einem nächsten Schritt werden die komprimierten Daten genutzt, um damit Netzarchitekturen zu trainieren, welche bisher nur mit RGB-Daten kompatibel sind. Abschließend wird analysiert, ob die hochdimensionalen spektralen Daten bei der Szenenanalyse Vorteile gegenüber RGB-Daten bieten
Mit der Microsoft Kinect waren die ersten Aufnahmen von synchronisierten Farb- und Tiefendaten (RGB-D) möglich, ohne hohe finanzielle Mittel aufwenden zu müssen und neue Möglichkeiten der Forschung eröffneten sich. Mit fortschreitender Technik sind auch mobile Endgeräte in der Lage, immer mehr zu leisten. Lenovo und Asus bieten die ersten kommerziell erwerblichen Geräte mit RGB D-Wahrnehmung an. Mit integrierten Funktionen der Lokalisierung, Umgebungserkennung und Tiefenwahrnehmung durch die Plattform Tango von Google gibt es bereits die ersten Tests in verschiedenen Bereichen des Rechnersehens z.B. Mapping. In dieser Arbeit wird betrachtet, inwiefern sich ein Tango Gerät für die Objekterkennung eignet. Aus den Ausgangsdaten des Tango Geräts werden RGB D-Daten extrahiert und für die Objekterkennung verarbeitet. Es wird ein Überblick über den aktuellen Stand der Forschung und gewisse Grundlagen bezüglich der Tango Plattform gegeben. Dabei werden existierende Ansätze und Methoden für eine Objekterkennung auf mobilen Endgeräten untersucht. Die Implementation der Erkennung wird anhand einer selbst erstellten Datenbank von RGB-D Bildern gelernt und getestet. Neben der Vorstellung der Ergebnisse werden Verbesserungen und Erweiterungen für die Erkennung vorgeschlagen.
Online Handschrifterkennung chinesischer Schriftzeichen auf androidfähigen mobilen Endgeräten
(2014)
Um mobile Wörterbücher oder Übersetzer zu verwenden, braucht es eine Eingabe. Diese muss zuvor verarbeitet werden, um nutzbar zu sein. Für chinesische Zeichen bietet sich die Handschrift an, da die Schrift hauptsächlich aus Piktogrammen und Ideogrammen besteht.
In dieser Bachelorarbeit wird ein prototypisches Erkennungssystem auf einem mobilen Endgerät implementiert. Die Erkennung soll dabei online und somit während des Schreibens erfolgen. Dies kann dem Benutzer Zeit ersparen, indem verschiedene erkannte Vorschläge zur Laufzeit gegeben werden.
Es werden Grundlagen erläutert und ein Überblick über den aktuellen Stand der Forschung gegeben. Ein Ansatz wird ausgewählt und implementiert, der möglichst schnell ist und wenig Speicherplatz erfordert. Die Implementation wird getestet und es wird gezeigt, dass es möglich ist, eine schnelle Erkennung auf einem kleinen Gerät laufen zu lassen. Es werden Verbesserungen und Erweiterungen vorgeschlagen, sowie ein Ausblick gegeben.
Es gibt einige Gaze Tracking Systeme, sowohl high- als auch low-cost. Low-cost Systeme gehen meist mit low-resolution Kameras einher. Da hier die Bildqualität schlechter ist, müssen die Algorithmen umso besser arbeiten. Aber wie soll man die Algorithmen die der Erkennung der Blickrichtung dienen, testen, wenn die Bildqualität geringer ist und man nie korrekte Aussagen über die Referenzpunkte treffen kann? Hier greift die Idee dieser Arbeit: Mit Hilfe synthetischer Augenbilder testet man die betreffenden Algorithmen und kann diese, da die Referenzpunkte bekannt sind, analysieren. Eine Veränderung der Komplexität dieser Bilder z. B. mit Hilfe eines zuschaltbaren Gaußrauschens oder eines weiteren Reflektionspunktes, macht es möglich, diese in Stufen der Realität anzunähern. Im Idealfall kann man die Algorithmen mit den aus den Testreihen gewonnenen Erkenntnissen verbessern und bei Anwendung innerhalb eines low-resolution Systems dessen Genauigkeit erhöhen.
In dieser Arbeit werden drei Verfahren zur Objektentfernung aus Bildern einander gegenübergestellt. Zwei der ausgewählten Verfahren stammen aus dem Bereich der sogenannten Inpainting-Verfahren, während das dritte dem Forschungsgebiet der medizinischen Bildverarbeitung entnommen ist. Die Evaluation dieser Verfahren zeigt ihre jeweiligen Vor- und Nachteile auf und prüft ihre Anwendbarkeit auf das spezifische Problem, ein Farbkalibriermuster aus strukturdominierten Bildern zu entfernen. Auf der Grundlage dieser Eigenschaften werden abschließend mehrere Erweiterungen vorgestellt, die eine verbesserte Anwendbarkeit auf das gestellte Problem erreichen.
Since the invention of U-net architecture in 2015, convolutional networks based on its encoder-decoder approach significantly improved results in image analysis challenges. It has been proven that such architectures can also be successfully applied in different domains by winning numerous championships in recent years. Also, the transfer learning technique created an opportunity to push state-of-the-art benchmarks to a higher level. Using this approach is beneficial for the medical domain, as collecting datasets is generally a difficult and expensive process.
In this thesis, we address the task of semantic segmentation with Deep Learning and make three main contributions and release experimental results that have practical value for medical imaging.
First, we evaluate the performance of four neural network architectures on the dataset of the cervical spine MRI scans. Second, we use transfer learning from models trained on the Imagenet dataset and compare it to randomly initialized networks. Third, we evaluate models trained on the bias field corrected and raw MRI data. All code to reproduce results is publicly available online.
Das Ziel dieser Bachelorarbeit ist es, die diskrete Fouriertransformation, die diskrete Kosinustransformation und die Hadamard-Walsh Transformation im Kontext der Bildverarbeitung zu vermitteln und diese unter ausgewählten Gesichtspunkten zu vergleichen. Hierfür soll allgemein das Wissen für den aus der linearen Algebra stammenden Begriff der Transformation gefördert werden und auf die Bildverarbeitung übertragen werden. Anschließend wird das Verständnis für die Fouriertransformation sukzessive aufgebaut und mit den beiden weiteren Transformationen verknüpft. Abschließend werden die Transformationen verglichen und ihr Nutzen innerhalb der Bildverarbeitung erläutert.
In dieser Arbeit wird die Umsetzung und Modifikation des Verfahrens von Finlayson et al. zur Schattenentfernung in einzelnen Farbbildern unter Verwendung des Retinex-Algorithmus vorgestellt. Für die benötigte Detektion von Schattenkanten wurde ein Verfahren von Finlayson et al. umgesetzt und angepasst. Die erforderliche Kamerakalibrierung wurde dabei nicht mit Tageslicht, sondern unter Verwendung künstlicher Lichtquellen realisiert. Anhand von Campus-Bildsequenzen wird ein qualitativer Vergleich des umgesetzten Verfahrens mit dem von Weiss zur Schattenentfernung in Bildserien vorgenommen. Außerdem wird ein erster Ansatz vorgestellt, wie Verfahren zur Schattenentfernung quantitativ bewertet werden können. Die Erzeugung der benötigten Ground-truth-Daten wird mit Hilfe von Laboraufnahmen realisiert, sodass keine manuelle Segmentierung von Schatten erforderlich ist. Anhand der Ergebnisse von Experimenten wird gezeigt, inwieweit die definierten Maße eine Bewertung und einen Vergleich der beiden Verfahren erlauben.
In dieser Studienarbeit wird ein Verfahren zur Extraktion eines Oberflächenbegrenzungsmodells aus einem Tiefenbild vorgestellt. Das Modell beschreibt die im Tiefenbild dargestellte Szene durch die Geometrie und die Topologie der planaren Flächen, die in der Szene gefunden werden. Die Geometrie ist gegeben durch die Angabe der Ebenengleichungen der gefundenen Flächen sowie der 3D-Koordinaten der Eckpunkte der Polygone, die diese Flächen beschreiben. Die Informationen über die Topologie der Szene besteht aus einer Nachbarschaftsliste, die für jede Flaeche angibt, über welche Kante diese Fläche mit welcher anderen Fläche verbunden ist. Aufbauend auf einem Algorithmus zur Tiefenbildsegmentierung aus PUMA werden die Polygone bestimmt, die die Flächen der Szene beschreiben. Anschließend wird versucht, diese Polygone über Kanten und Eckpunkte zu verbinden, um ein möglichst geschlossenes Modell der Szene zu erhalten.
Große Gebiete lassen sich auf Grund von Schattenbildung und begrenzter Scanreichweite nicht mit einem einzigen 3D-Scan aufnehmen. Um konsistente dreidimensionale Karten dieses Gebietes zu erzeugen müssen also mehrere Scans zusammengefügt werden. Soll dieses Matchen der Scans automatisch geschehen, so kann es wegen fehlerhaften Translations- und Rotationsdaten, die die unterschiedlichen Positionen der Scans beschreiben,zu inkonsistenten Karten kommen. Um dies zu vermeiden wird in dieser Arbeit ein schneller Iterativ Closest Points Algorithmus implementiert, der versucht, Fehler in diesen sechs Freiheitsgraden zu korrigieren. Das Verfahren soll im Rahmen dieser Arbeit in die schon vorhandene Software unseres Roboters eingebunden werden.
Die Arbeit befasst sich mit atlasbasierter Segmentierung von CT-Datensätzen mit Hilfe von elastischen Registrierungsmethoden. Ziel ist die vollautomatische Segmentierung eines beliebigen Eingabedatensatzes durch Registrierung mit einem vorsegmentierten Referenzdatensatz, dem Atlanten. Ein besonderes Augenmerk liegt dabei auf der Implementierung und Evaluation elastischer Registrierungsverfahren, da rigide Registrierungsmethoden besonders in Bereichen hoher anatomischer Varianzen keine genaue Segmentierung gewährleisten. Im Vordergrund steht zunächst die Generierung zweier Atlanten, die als durchschnittliche Referenzdatensätze Informationen über die anatomische Varianz männlicher und weiblicher Bevölkerungsgruppen enthalten. Weiter werden vier etablierte elastische Registrierungsarten implementiert und im Hinblick auf eine atlasbasierte Segmentierung der wichtigen Organe des menschlichen Torsos evaluiert: BSpline-Registrierung, Demons-Registrierung, Level-Set-Motion-Registrierung und FEM-Registrierung. Robustheit und Genauigkeit der implementierten Verfahren wurden anhand von Lungen- und Abdomendatensätzen sowohl intra- als auch interpatientenspezifisch ausgewertet. Es wird gezeigt, dass vor allem die elastische BSpline-Registrierung hier genauere Segmentierungsergebnisse liefern kann, als es mit einer rigiden Registrierung möglich ist.
Orientierung aus Silhouetten
(2010)
Anhand der sogenannten "Analyse durch Synthese" soll in der folgenden Qualifikationsarbeit versucht werden, zum Zeitpunkt einer Aufnahme auf dem Campus der Universität Koblenz die Orientierung der Kamera zu bestimmen. Die Lösungsidee für diese Problemstellung liegt in Form eines merkmalsbasierten Ansatzes vor. Zu diesem Zweck ist die grobe Position im 3D-Campusmodell der Universität Koblenz zum Zeitpunkt der entsprechenden Aufnahme gegeben. Um das Bild einer realen Aufnahme mit einem künstlichen Bild des 3D-Modells vergleichen zu können, ist ein Ähnlichkeitsmaß notwendig, welches die Ähnlichkeit zwischen diesen beiden Bildern mit einem Wert ausdrückt. Der Vergleich erfolgt anhand der Silhouette der einzelnen Bilder, während die Orientierung der Kamera mit Hilfe eines nicht linearen Opitimierungsverfahrens bestimmt wird.
Mit Hilfe von Stereobildfolgen, die ein Stereokamerasystem liefert, wird versucht Informationen aus der betrachtenden Szene zu gewinnen. Die Zuordnung von Bildpunkten, die in beiden Bildern eines Stereobildpaares vorkommen und einen gemeinsamen Weltpunkt beschreiben, ermöglichen die Bestimmung einer Tiefeninformation. Das Extrahieren von Bildpunkten und deren Zuordnung sind die entscheidenen Faktoren zur Gewinnung der Tiefeninformation. Die Tiefe erlaubt es Aussagen über die Struktur der aufgenommenen Szene zu machen. Bei Übertragung dieser Idee auf das Verfolgen von gemeinsamen Weltpunkten in Bildsequenzen ist es möglich eine relative Positions- und Lageschätzung des Kamerasystems zur vorher aktuellen Position zu bestimmen. Schwierigkeiten ergeben sich aus Verdeckungen von Weltpunkten für den jeweiligen Sensor, sowie fehlerhaften Bildpunktzuordnungen. Die Geschwindigkeit des kombinierten Vorgang aus Extraktion und Punktzuordnung stellt eine weitere Anforderung an das System.
Ziel der Bachelorarbeit war die Evaluation und Optimierung von verschiedenen Eye-Tracking Algorithmen für die subpixelgenaue Bestimmung der relevanten Merkmale bezüglich Genauigkeit. Die extrahierten Merkmale sind das Pupillen- und Glintzentrum. Die Algorithmen sind mit preiswerten Kameras einsetzbar. Es wurde ein synthetisches Modell des Auges modifiziert und verwendet, mit dem die Methoden mit bekannter Ground Truth evaluiert wurden.
Das Ziel dieser Studienarbeit ist es, einen Roboterarm in einen bestehenden Software-Stackrnzu integrieren, damit ein darauf basierender Roboter beim Wettbewerb RoboCup @Home teilnehmen kann. Der Haushaltsroboter Lisa (Lisa Is a Service Android) muss für den @Home-Wettbewerb unter anderem Gegenstände aus Regalen entnehmen und an Personen weiterreichen. Bisher war dafür nur ein Gripper, also ein an der mobilen Plattform in Bodennähe angebrachter "Zwicker" vorhanden. Nun steht dem Roboter ein "Katana Linux Robot" der Schweizer Firma Neuronics zur Verfügung, ein Roboter in Form eines Arms. Dieser wird auf LISA montiert und nimmt über verschiedene Schnittstellen Befehle entgegen. Er besteht aus sechs Gliedern mit entsprechend vielen Freiheitsgraden. Im Robbie-Softwarestack muss ein Treiber für diesen Arm integriert und eine Pfadplanung erstellt werden. Letztere soll bei der Bewegung des Arms sowohl Kollisionen mit Hindernissen vermeiden als auch natürlich wirkende Bewegungsabläufe erstellen.
Texture-based text detection in digital images using wavelet features and support vector machines
(2010)
In dieser Bachelorarbeit wird ein neues texturbasiertes Verfahren zur Detektion von Texten in digitalen Bildern vorgestellt. Das Verfahren kann im wesentlichen in zwei Hauptaufgaben unterteilt werden, in Detektion von Textblöcken und Detektion von einzelnen Wörtern, wobei die einzelnen Wörter aus den detektierten Textblöcken extrahiert werden. Im Groben agiert das entwickelte Verfahren mit mehreren Support Vector Machines, die mit Hilfe von waveletbasierten Merkmalen mögliche Textregionen eines Bildes zu wirklichen Textregionen klassiffzieren. Die möglichen Textregionen werden dabei durch unterschiedlich ausgerichtete Kantenprojektionen bestimmt. Das Resultat des Verfahrens sind X/Y Koordinaten, Breite und Höhe von rechteckigen Regionen eines Bildes, die einzelne Wörter enthalten. Dieses Wissen kann weiterverarbeitet werden, beispielsweise durch eine Texterkennungssoftware, um an die wichtigen und sehr nützlichen Textinformationrneines Bildes zu gelangen.
Zur Erstellung von 3-D-Oberflächenmodellen real existierender Objekte wird häufig sehr teure Hardware eingesetzt, z.B. 3-D-Laser-Range-Scanner. Da diese keine Grauwert- oder Farbinformationen erfassen können, muss das Objekt zur Wiedergabe farbiger Strukturen zusätzlich abfotografiert und mit den Bildern registriert werden. Die Arbeit entwickelt demgegenüber ein Verfahren zum Einsatz eines kalibrierten Stereokamerasystems. Aus den erhaltenen Sequenzen zweidimensionaler Stereobilder kann ein texturiertes 3-D-Mesh rekonstruiert werden. Im Vergleich zum Einsatz eines Scanners ist dieses Verfahren zwar weniger genau, aber dafür preisgünstiger, platzsparend und schneller einsetzbar. Den Schwerpunkt der Arbeit bilden die Fusionierung der Tiefenkarten und die Erstellung eines texturierten Meshs aus diesen.
In dieser Studienarbeit wurde ein Algorithmus vorgestellt, um sich mit einem Roboter in unbekanntem Gebiet zu lokalisieren und gleichzeitig eine Karte von der Umgebung zu erstellen. Die Lokalisation des Roboters geschieht auf 2D Ebene und errechnet die (x, y, θ)T Position des Roboters zu jedem Zeitpunt t inkrementell. Der Algorithmus baut auf dem FastSLAM 2.0 Algorithmus auf und wurde abgeändert, um eine möglichst genaue Lokalisation in Gebäuden zu ermöglichen. Hierfür wurden mehrere verschieden Arten von möglichen Landmarken untersucht, verglichen und kombiniert. Schwerpunkt dieser Studienarbeit war das Einarbeiten in das Extended Kalman-Filter und die Selektion von Landmarken, die für den Einsatz in Gebäuden geeignet sind.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
In dieser Arbeit präsentieren wir Methoden zum Schätzen von Kamerabewegungen einer RGB-D-Kamera in sechs Freiheitsgraden und dem Erstellen von 3D-Karten. Als erstes werden die RGB- und Tiefendaten registriert und synchronisiert. Nach der Vorverarbeitung extrahieren wir FAST-Merkmale in zwei aufeinander folgenden Bildern. Daraus wird eine Korrespondenzmenge erstellt und Ausreißer werden herausgefiltert. Anschließend projizieren wir die Korrespondenzmenge in 3D, um die Bewegung aus 3D-3D-Korrespondezen mittels Least-Squares zu bestimmen. Weiterhin präsentieren wir Methoden, um 3D-Karten aus Bewegungsschätzungen und RGB-D-Daten zu erstellen. Dafür benutzen wir das OctoMap-Framework und erstellen wahlweise auch inkrementelle Karten aus Punktewolken. Anschließend evaluieren wir das System mit dem weit verbreiteten RGB-D-Benchmark.
3D-Modelle werden heute in vielen Bereichen wie Multimedia Anwendungen, Robotik oder der Filmindustrie immer wichtiger. Besonders interessant ist dabei die Erstellung eines 3D-Modells aus einer monokularen Bilderserie, da die hierfür nötigen Kameras immer günstiger, kleiner und ausgereifter produziert werden. Geeignetere Kameras werden in immer mehr Geräten wie Smartphones, Tablet-PCs, Autos etc. verbaut, wodurch sich ein großes Potential für die Verwendung dieser Rekonstruktionstechnik ergibt.
Als Grundlage dieser Arbeit dient eine mit einer kalibrierten Kamera aufgenommene Bilderserie. Aus dieser werden 2D-Punktkorrespondenzen, mit den verbreiteten SURF-Features oder den A-KAZE-Features gewonnen. Aufbauend auf den 2D-Punktkorrespondenzen kann aus diesen mit Hilfe verschiedener Algorithmen ein 3D-Modell in Form einer Punktwolke und Kameraposen rekonstruiert werden.
Um Fehler in dem entstandenen Modell gering zu halten, wird insbesondere aufrnden Bündelausgleich zur Fehlerminimierung eingegangen. Anschließend wird dasrnneben dieser Arbeit entstandene Programm zur 3D-Rekonstuktion und Visualisierung des 3D-Modells erläutert. Das implementierte System wird anschließend anhand von Statistiken evaluiert und die hieraus gewonnenen Erkentnisse präsentiert.
Abschließend werden die Ergebnisse dieser Arbeit zusammengefasst und einrnAusblick auf mögliche Weiterentwicklungen gegeben.
Diese Diplomarbeit präsentiert ein interaktives System, welches die Vorzüge eines handelsüblichen Whiteboards mit denen eines Computers kombiniert. Die Inhalte des Whiteboards werden von einer Kamera aufgenommen, vom Computer verarbeitet und für eine Applikation als Eingabe verwendet bzw. durch geeignete Grafiken ergänzt. Dadurch erweitert das Whiteboard die Benutzeroberfläche des Computers. Der Anwender ist in der Lage über handgezeichnete Primitive (Viereck, Dreieck, Kreis) bzw. Kombinationen der Primitive das entwickelte interaktive Spiel zu spielen.
Personenverfolgungssysteme bestehen oft aus teurer und meist an Personen befestigter Trackinghardware, die die Bewegungsfreiheit der Personen deutlich einschränkt. Durch die in den letzten Jahrzehnten angestiegene Rechenleistung der Computersysteme ist es möglich, Bilddaten von digitalen Video-, Foto- oder Webkameras in Echtzeit auszuwerten. Dadurch erschließen sich neue Möglichkeiten, die eine Verfolgung von Personen auch ohne die störrige Trackinghardware erlauben. In dieser Arbeit soll ein System zum Verfolgen von Personen auschließlich unter Zuhilfenahme einer Videokamera und eines Computers, also ohne Marker, entwickelt werden.
Erweiterung der Spielegraphik von Cam2Dance durch den Einsatz von Shadern und komplexen Modellen
(2006)
Für diese Studienarbeit können zwei Schwerpunkte genannt werden. Einerseits sollten verschiedene Verfahren zur Fluchtpunktschätzung aus Wissenschaft und Forschung eingänglich untersucht und erörtert werden. Dies im Hinblick auf ein detaillierteres Analyseverfahren, das die Möglichkeit bietet, mehrere Gebäudeseiten automatisiert entzerren zu können. Andererseits sollten sich die gewünschten Verbesserungen in das bereits vorhandene Gesamtsystem des Projekts Ornamente eingliedern, um so das Endergebnis der Klassifizierung von Ornamenten zu verbessern. Daraus entstanden die in Kapitel 1 genannten Hauptaufgaben. Neben dem TAM-Verfahren, dass im vorhandenen Teilprozess der Entzerrung bereits zum Einsatz kam, wurde in Kapitel 2 das Verfahren KHT nach Tuytelaars beschrieben. Ansätze der KHT waren im Bestehenden zu erkennen, wie sich während der anfänglichen Einarbeitung in das Themengebiet Fluchtpunktfindung und dem Gesamtsystem der Ornamentklassifizierung herausstellte. Allerdings waren einige Aspekte, wie sie von Tytelaars et al. in [TGPM98] zur KHT beschrieben sind, nicht enthalten. Der erste Lösungsansatz zur Entzerrung von mehreren Gebäudeseiten bestand darin, die KHT unabhängig von allen Prozessen des Gesamtsystems zu implementieren, um so die Genauigkeit der Fluchtpunktdetektion zu erhöhen. Mit dieser detaillierteren Fluchtpunktfindung sollte das bereits bestehende Modul der Entzerrung zu besseren Ergebnissen führen. Um die Entzerrung für sich alleine nutzen zu können, musste sie vorerst von der vorhandenen Fluchtpunktschätzung isoliert werden. Während der in Kapitel 3 beschriebenen Umstrukturierung und Trennung der beiden Prozesse wurde das eigentliche Problem der Verarbeitung von mehreren Gebäudeseiten erkannt. Nicht die Fluchtpunkte und die Verfahren für ihre Detektion sind ausschlaggebend, weitere Ebenen im Bild erkennen zu können. Vielmehr verhindert dies der fehlende Rückschluss von extrahierten Kanten auf die Lage, Größe und Anzahl der im Bild vorhandenen Gebäudeseiten. Wären hierzu Informationen bekannt, könnten, wie auch für ornamentale Bereiche, ROIs festgelegt werden, die mit einer hohen Wahrscheinlichkeit eine abgegrenzte Gebäudeseite beinhalten. Um diese daraufhin zu entzerren, kann das jetzt isolierte Programm zur Entzerrung genutzt werden. Die KHT umzusetzen, wurde als Lösungsweg verworfen und der eigene Lösungsansatz "Level of Detail" aus Kapitel 3 wurde entwickelt. Die entstandenen Programme wurden wie gefordert in PUMA, der "Programmierumgebung für die Musteranalyse" eingebunden. Wie die Test aus Kapitel 4 jedoch zeigen, konnte damit keine Verbesserung erzielt werden.
Die zytologische Untersuchung des Knochenmarks dient der Abklärung von
Abweichungen des Differentialblutbildausstriches, zur Ursachenbestimmung bei Blutarmut (Anämie), dem Ausschluss eines Knochenmarkbefalls bei Lymphknotenvergrößerungen (Lymphomen) und wird zudem bei Verdacht auf Leukämie durchgeführt.
Selbst für erfahrene Hämatologen ist die manuelle Klassifikation von Knochenmarkzellen zeitaufwändig, fehleranfällig und subjektiv. Aus diesem Grund wurden im Rahmen dieser Arbeit neue Methoden der Bildverarbeitung und Mustererkennung für eine automatische Klassifikation von hämatopoetischen Zellen samt Vorverarbeitung für ein computer-assistiertes Mikroskopiesystem entwickelt, welche anhand einer einzigartig großen Referenzdatenbank evaluiert und ausgewertet wurden. Die vorgeschlagenen Bildanalyseverfahren für Knochenmarkpräparate, welche insbesondere die Detektion der Ausstriche, die Bestimmung von relevanten Regionen, die Lokalisierung und Segmentierung von einzelnen Zellen sowie die Merkmalsextraktion und Klassifikation automatisieren, liefern die Basis für das weltweit erste System zur automatischen, morphologischen Analyse von Knochenmarkpräparaten für die Leukämiediagnose und stellen daher einen wichtigen Beitrag für eine bessere und effizientere Patientenversorgung in der Zukunft dar.
Im Rahmen dieser Diplomarbeit wird ein Verfahren zur markerlosen Pose-Rekonstruktion vorgestellt. Die Modellierung des menschlichen Körpers geschieht auf Basis der Starrkörperphysik. Mittels eines probabilistischen Ansatzes wird das Modell in eine volumetrische Rekonstruktion der Szene eingepasst. Die hierfür zu bewältigende Suche in hochdimensionalen Zustandsräumen wird mittels eines Partikelfilters in Kombination mit Simulierter Abkühlung vorgenommen. Eine Berücksichtigung anthropometrischer Besonderheiten sowie kinematischer Grenzen wird zur weiteren Stützung des Verfahrens vorgenommen. Die vollständig Umsetzung des Verfahrens durch dreidimensionale Beobachtungs- und Messmodelle führt zu einer exakten Poserekonstruktion und vermeidet Mehrdeutigkeiten während der Auswertung.
Die Zeitschrift c't stellte in der Ausgabe 02/2006 einen Bausatz für einen kleinen mobilen Roboter vor, den c't-Bot, der diese Studienarbeit inspirierte. Dieser Bausatz sollte die Basis eines Roboters darstellen, der durch eine Kamera erweitert und mit Hilfe von Bildverarbeitung in der Lage sein sollte, am RoboCupSoccer-Wettbewerb teilzunehmen. Während der Planungsphase veränderten sich die Ziele: Statt einem Fußballroboter sollte nun ein Roboter für die neu geschaffene RoboCup-Rescue-League entwickelt werden. In diesem Wettbewerb sollen Roboter in einer für sie unbekannten Umgebung selbstständig Wege erkunden, bzw. Personen in dieser Umgebung finden. Durch diese neue Aufgabenstellung war sofort klar, dass der c't-Bot nicht ausreichte, und es musste ein neuer Roboter entwickelt werden, der mittels Sensoren die Umgebung wahrnehmen, durch eine Kamera Objekte erkennen und mit Hilfe eines integrierten Computers diese Bilder verarbeiten sollte. Die Entstehung dieses Roboters ist das Thema dieser Studienarbeit.
Technologische Fortschritte auf dem Gebiet der integrierten Halbleitertechnik, die unter anderem auch zur gestiegenen Leistungsfähigkeit der Kamerasensoren beitragen, konzentrierten sich bisher primär auf die Schnelligkeit und das Auflösungsvermögen der Sensoren. Die sich ständig verändernde Entwicklung hat jedoch direkte Folgen auf das physikalische Verhalten einer Kamera und damit auch Konsequenzen für die erreichbare geometrische Genauigkeit einer photogrammetrischen 3D-Rekonstruktion. Letztere stand bisher nicht im Fokus der Forschung und ist eine Aufgabe, der sich diese Arbeit im Sinne der Photogrammetrie und Messtechnik stellt. Aktuelle Untersuchungen und Erfahrungen aus industriellen Projekten zeigen in diesem Zusammenhang, dass das geometrisch-physikalische Verhalten digitaler Kameras - für höchste photogrammetrische Ansprüche - noch nicht ausreichend modelliert ist. Direkte Aussagen zur erreichbaren Genauigkeit bei gegebener Hardware erweisen sich daher bislang als unzureichend. Ferner kommt es aufgrund der unpräzisen Modellierung zu Einbußen in der Zuverlässigkeit der erreichten Ergebnisse. Für den Entwickler präziser kamerabasierter Messverfahren folgt daraus, dass zu einer optimalen Schätzung der geometrischen Genauigkeit und damit auch vollständigen Ausschöpfung der Messkamera geeignete mathematische Modelle erforderlich sind, die das geometrisch physikalische Verhalten bestmöglich beschreiben. Diese Arbeit beschreibt, wie die erreichbare Genauigkeit einer Bündelblockausgleichung, schon a priori mithilfe des EMVA1288 Standards approximiert werden kann. Eine in diesem Zusammenhang wichtige Teilaufgabe ist die Schaffung einer optimalen Messanordnung. Hierzu gehören Untersuchungen der üblicherweise verwendeten Kalibrierkörper und die Beseitigung von systematischen Fehlern vor und nach der Bündelblockausgleichung. Zum Nachweis dieser Systematiken wird eine auf statistischem Lernen basierende Methode beschrieben und untersucht. Erst wenn alle genauigkeitsmindernden Einflüsse berücksichtigt sind, wird der Anteil des Sensors in den Messdaten sichtbar und damit auch mathematisch parametrisierbar. Die Beschreibung des Sensoreinflusses auf die erreichbare Genauigkeit der Bündelblockausgleichung erfolgt in drei Schritten. Der erste Schritt beschreibt den Zusammenhang zwischen ausgewählten EMVA1288-Kennzahlen und der Unsicherheit eines Grauwertes. Der zweite Schritt ist eine Modellierung dieser Grauwertunsicherheit als Zentrumsunsicherheit einer Zielmarke. Zur Beschreibung dieser Unsicherheit innerhalb der Bündelblockausgleichung wird ein stochastisches Modell, basierend auf dem EMVA1288-Standard, vorgeschlagen. Ausgehend vom Rauschen des Zielmarkenmittelpunktes wird im dritten Schritt die Unsicherheit im Objektraum beispielhaft mit Hilfe von physikalisch orientierten Simulationen approximiert. Die Wirkung der vorgeschlagenen Methoden wird anhand von Realkalibrierungen nachgewiesen. Abschließend erfolgt die Diskussion der vorgeschlagenen Methoden und erreichten Ergebnisse sowie ein Ausblick auf kommende Untersuchungen.
Das Forschungsprojekt Bildanalyse zur Ornamentklassifikation hat es sich zur Aufgabe gemacht, ornamentale Strukturen in Bildern computergestützt zu lokalisieren, analysieren und klassifizieren. Grundlage des Projekts bildet eine umfangreiche Bilddatenbank, deren Abbildungen manuell vorsortiert sind. Durch Kombinationen mit Methoden der Bildverabeitung und der Verwendung von Wissensdatenbanken (Knowledge Databases) soll diese Kategorisierung weiter verfeinert werden. Sämtliche Bilder durchlaufen bis zum Prozess der Ornamentklassifikation mehrere Vorverarbeitungsschritte. Beginnend mit einem Normalisierungsprozess, bei dem das Bild u. a. entzerrt und entrauscht wird, werden im Anschluss Interessensregionen selektiert. Diese Regionen bilden die Grundlage für das spätere Lokalisieren der Ornamente. Aus ihnen werden mit unterschiedlichen Verfahren Merkmale extrahiert, die wiederum in der Datenbank gespeichert werden. In dieser Arbeit wurde ein weiteres solches Verfahren implementiert und auf seine mögliche Verwendung in dem Projekt untersucht.
In der Forschung der autonomen mobilen Roboter ist besonders die Pfadplanung immer noch ein sehr aktuelles Thema.
Diese Masterabeit befasst sich mit verschiedenen Pfadplanungsalgorithmen zur Navigation solcher mobilen Systeme. Hierbei ist nicht nur eine kollisionsfreie Trajektorie von einem Punkt zu einem anderen zu ermitteln, sondern sollte diese auch noch möglichst optimal sein und alle Fahrzeug-gegebenen Einschränkungen einhalten. Besonders die autonome Fahrt in unbekannter dynamischer Umgebung stellt eine große Herausforderung dar, da hier eine geschlossene Regelung notwendig ist und dem Planer somit eine gewisse Dynamik abverlangt wird.
In dieser Arbeit werden zwei Arten von Algorithmen vorgestellt. Zum einen die Pfadplaner, welche auf dem A* aufbauen, der im eigentlichen Sinne ein Graphsuchalgorithmus ist: A*, Anytime Repairing A*, Lifelong Planning A*, D* Lite, Field D*, hybrid A*. Zum anderen die Algorithmen, welche auf dem probabilistischen Planungsalgorithmus Rapidly-exploring Random Tree basieren (RRT, RRT*, Lifelong Planning RRT*), sowie einige Erweiterungen und Heuristiken. Außerdem werden Methoden zur Kollisionsvermeidung und Pfadglättung vorgestellt. Abschließend findet eine Evaluation der verschiedenen Algorithmen statt.
Das Wissen über die genaue Position und Lage eines unbemannten Luftfahrzeugs spielt während der Durchführung einer autonomen Mission eine dominante Rolle. Unbemannte Luftfahrzeuge sind daher mit einer Vielzahl an Sensoren ausgestattet. Jeder dieser Sensoren leistet einen Beitrag zu diesem Ziel, wobei ein Sensor entweder eine absolute oder eine relative Angabe über den derzeitigen Aufenthaltsort oder die Fluglage ermöglicht. Alle Sensoren werden zu einer Gesamtlösung verknüpft, der Navigationslösung. Das am häufigsten eingesetzte - und auch meistens einzige - Verfahren zur absoluten Positionsbestimmung ist die Satellitennavigation. Diese ist abhängig von einer direkten Sichtlinie der mitgeführten Empfangsantenne zu den Satelliten. Falls es zu einer Unterbrechung dieser Sichtlinie kommt, ist eine genaue, absolute Positionsangabe nicht mehr möglich. Die Navigationslösung hat somit nur noch Sensoren zur Verfügung, die eine relative Positions- bzw. Lageangabe ermöglichen. Hierzu gehören das mitgeführte Magnetometer und das Inertialmesssystem. Beide unterliegen dem Phänomen der Drift. Dieses bedeutet, dass die Genauigkeit der Positions- und Lageangabe bei einem Ausfall der Satellitennavigation mit fortschreitender Zeit zunehmend unzuverlässig wird. Um diese Drift in einem bestimmten Rahmen zu kompensieren, kann ein Bildsensor verwendet werden. Dieser ermöglicht eine bildbasierte Bewegungsschätzung und stellt somit einen zusätzlichen Sensor zur Messung von relativen Lage- und Positionsänderungen dar. Ziel der Arbeit ist es, ein Verfahren zur bildbasierten Bewegungsschätzung für einen unbemannten Helikopter zu entwickeln und zu evaluieren.
Ziel der Arbeit ist es, Kriterien und Gütemaße zur Bewertung von Merkmalen aus der Musterklassifikation zu finden und diese so in eine graphische Evaluationsumgebung zu integrieren, dass der Nutzer befähigt wird, Erkenntnisse über die Struktur des Merkmalsraumes und die Qualität der einzelnen Merkmale zu erlangen, so dass er zielführend eine möglichst optimale Teilmenge - im Sinne der Klassifikationsgüte und der Anzahl der Merkmale - gewinnen kann. Zunächst werden allgemeine visuelle Merkmale von Pollenkörnern und die manuelle Pollenzählung vorgestellt sowie eine Übersicht über das Pollenmonitor-Projekt zur automatisierten Pollen-Erkennung gegeben. Einem Überblick über die Grundlagen der Mustererkennung mit den Teilschritten Merkmalsextraktion und Klassifikation folgt eine Vorstellung von Kriterien zur Merkmalsbewertung und Verfahren zur Merkmalsselektion. Im Mittelpunkt stehen Entwurf und Umsetzung der Evaluationsumgebung sowie Experimente zur Bewertung und Selektion optimaler Teilmengen aus dem Testdatensatz
Das Ziel der Arbeit besteht darin, Dominosteine in 2-D Bildern robust zu erkennen und zu klassifizieren. Als Eingabedaten fungieren alle Arten von Intensitätsbildern, und die Ausgabe besteht aus klassifizierten Dominosteinen. Das Problem, das gelöst werden soll, besteht darin, bei so vielen Dominosteinen wie möglich exakt zu bestimmen, um wlechen Dominstein es sich handelt. Zur Problemlösung werden Modellklassen verwendet, in denen explizites Wissen zur Merkmalsfindung und Objetkerkennung enthalten ist. Dazu wird eine Segmentierung entwickelt, die einem Dominostein ermöglicht, seine Bestandteile im Bild zu lokalisieren. Bei der Zuordnung zwischen den im Bild gefundenen und im Modell vorhandenen Komponenten entstehen mehrere Hypothesen. Um diese zu bewerten, werden unterschiedliche Abstandsfunktionen entwickelt und avaluiert. Für die Zuordnung von Segmentierungs Objekten zu Modellbestandteilene wir die Ungarische Methode verwendet.
Ziel dieser Arbeit ist die erweiterte Modellierung des Rettungsroboters "Robbie" in der USARSim Simulationsumbegung. Es soll zusätzlich zu den bestehenden Sonarsensoren und dem Laserscanner, ein Wärmesensor angebunden werden, der Wärmebilder an die entsprechenden Robbie-Module liefert. Der bisherige 2D Laserscanner ist so zu modifizieren, dass er 3D Laserdaten erzeugt und an die Robbie-Software weiterleitet. Um die Simulation möglichst Wirklichkeitsgetreu zu gestalten, sind realitätsnahe, verrauschte Daten zu erzeugen. Ferner soll die Effizienz der Simulation getestet werden. Dazu ist mittels einer Evaluation zu untersuchen, wie das Verhalten des simulierten Roboters, im Bezug zum realen Verhalten des Roboters steht. Ein weiteres, größeres Problem stellt die Bereitstellung von Stereobildern aus der Simulationsumgebung dar. Ein spezieller Kameraserver soll installiert und in Betrieb genommen werden. Die Umwandlung der so erzeugten Bilder, in ein geeignetes Format, und deren Weiterleitung an die Robbie-GUI, ist ebenfalls zu implementieren.
Bei der subjektiven Interpretation von Mammographien werden Studien zufolge 10% bis 30% von Brustkrebserkrankungen im Frühstadium nicht erkannt. Eine weitere Fehlrate beziffert die fälschlich als möglichen Brustkrebs eingestuften Herde; diese Fehlrate wird mit 35% angegeben. Ein solche Fehleinschätzung hat für die Patientin weitreichende negative Folgen. Sie wird einer unnötigen psychischen und körperlichen Belastung ausgesetzt. Um solche Fehleinschätzungen zu minimieren, wird zunehmend die Computer-aided Detection/Diagnosis (CAD) eingesetzt. Das Ziel dieser Arbeit ist die Evaluation von Methoden multivariater Datenanalyse, eingesetzt zur Diagnose von Herdbefunden. Die aus der Gesichtserkennung bekannten Methoden Eigenfaces und Fisherfaces werden auf Mammographieaufnahmen angewendet, um eine Einordnung von Herdbefunden nach benign oder malign zu tätigen. Eine weitere implementierte Methode wird als Eigenfeature Regularization and Extraction bezeichnet. Nach einer Einführung zum medizinischen Hintergrund und zum aktuellen Stand der computer-assistierten Detektion/Diagnose werden die verwendete Bilddatenbank vorgestellt, Normierungsschritte aufgeführt und die implementierten Methoden beschrieben. Die Methoden werden der ROC-Analyse unterzogen. Die Flächen unterhalb der ROC-Kurven dienen als Maß für die Aussagekraft der Methoden. Die erzielten Ergebnisse zeigen, dass alle implementierten Methoden eine schwache Aussagekraft haben. Dabei wurden die Erwartungen an die Fisherface- und ERE-Methode nicht erfüllt. Die Eigenface-Methode hat, angewendet auf Herdbefunde in Mammogrammen, die höchsten AUC-Werte erreicht. Die Berücksichtigung der Grauwertnormierung in der Auswertung zeigt, dass die qualitativen Unterschiede der Mammogramme nicht ausschlaggebend für die Ergebnisse sind.
In der Bildverarbeitung werden zunehmend Algorithmen unter Verwendung von prägnanten Merkmalen implementiert. Prägnante Merkmale können sowohl für die optische Kameraposebestimmung als auch für die Kalibrierung von Stereokamerasystemen verwendet werden. Für solche Algorithmen ist die Qualität von Merkmalen in Bildern ein entscheidender Faktor. In den letzten Jahren hat sich an dieser Stelle das von D. Lowe 2004 vorgestellte SIFT-Verfahren hervorgetan. Problematisch bei der Anwendung dieses Verfahrens ist seine hohe Komplexität und der daraus resultierende hohe Rechenaufwand. Um das Verfahren zu beschleunigen, wurden bereits mehrere Implementationen veröffentlicht, die teils weiterhin ausschließlich die CPU nutzen, teils neben der CPU auch die GPU zur Berechnung bestimmter Teilbereiche des SIFT verwenden. Diese Implementationen gilt es zu hinterfragen. Ebenso ist die Qualität der Merkmale zu untersuchen, um die Verwendbarkeit von SIFT-Merkmalen für andere Bereiche der Bildverarbeitung gewährleisten zu können. Zur Visualisierung der Ergebnisse wurde eine GUI erstellt.
Diese Arbeit behandelt einen Vergleich verschiedener Algorithmen zur Vorhersage der Bewegung einer Person bei der Ausführung einer sportlichen Aktivität. Als Grundlage für die Vorhersage dienen Bildströme, welche mittels zweier Hochgeschwindigkeitskameras aufgezeichnet wurden. Im Laufe der Arbeit werden Vor- und Nachteile der umgesetzten Ansätze theoretisch erläutert und anschliessend an einer Reihe von Messergebnissen nachgewiesen. Für die Messungen wurde eine Anwendung eingesetzt, welche ebenfalls im Rahmen der Arbeit entwickelt wurde. Neben realen Aufnahmen, wurden zusätzlich synthetische Bildfolgen betrachtet, um Erkenntnisse über das Verhalten der betrachteten Algorithmen unter optimalen Bedingungen zu erlangen.
Der Prozess der Mustererkennung gliedert sich in mehrere Teilschritte, wobei letztlich aus unbekannten Datensätzen Muster erkannt und automatisch in Kategorien eingeordnet werden sollen. Dafür werden häufig Klassiffkatoren verwendet, die in einer Lernphase anhand von bekannten Testdaten trainiert werden. Viele bestehenden Softwarelösungen bieten Hilfsmittel für spezielle Mustererkennungsaufgaben an, aber decken nur selten den gesamten Lernprozess ab. Im Rahmen dieser Studienarbeit wurde aus diesem Grund ein Framework entwickelt, welches allgemeine Aufgaben eines Klassiffkationssystems für Bilddaten als eigenständige Komponenten integriert. Es ist schnittstellenorientiert, leicht erweiterbar und bietet eine graphische Benutzeroberfläche.
Diese Diplomarbeit befasst sich damit, den SURF-Algorithmus zur performanten Extraktion von lokalen Bildmerkmalen aus Graustufenbildern auf Farbbilder zu erweitern. Dazu werden zuerst verschiedene quelloffene Implementationen mit der Originalimplementation verglichen. Die Implementation mit der größten Ähnlichkeit zum Original wird als Ausgangsbasis genutzt, um verschiedene Erweiterungen zu testen. Dabei werden Verfahren adaptiert, die den SIFT-Algorithmus auf Farbbilder erweitern. Zur Evaluation der Ergebnisse wird zum Einen die Unterscheidungskraft der Merkmale sowie deren Invarianz gegenüber verschiedenen Bildtransformationen gemessen. Hier werden verschiedene Verfahren einander gegenüber gestellt. Zum Anderen wird auf Basis des entwickelten Algorithmus ein Framework zur Objekterkennung auf einem autonomen Robotersystem entwickelt und dieses evaluiert.
Die Koloskopie ist der Goldstandard zur Aufspürung von gefährlichen Darmpolypen, die sich zu Krebs entwickeln können. In einer solchen Untersuchung sucht der Arzt in den vom Endoskop gelieferten Bildern nach Polypen und kann diese gegebenenfalls entfernen. Um den Arzt bei der Suche zu unterstützen, erforscht die Universität Koblenz-Landau zur Zeit Methoden, die zur automatischen Detektion von Polypen auf endoskopischen Bildern verwendet werden können. Wie auch bei anderen Systemen zur Mustererkennung werden hierzu zunächst Merkmale aus den Bildern extrahiert und mit diesen ein Klassifikator trainiert. Dieser kann dann für die Klassifikation von ihm unbekannten Bildern eingesetzt werden. In dieser Arbeit wurde das vorhandene System zur Polypendetektion um Merkmalsdetektoren erweitert und mit den bereits vorhandenen verglichen. Implementiert wurden Merkmale basierend auf der Diskreten Wavelet-Transformation, auf Grauwertübergangsmatrizen und auf Local Binary Patterns. Verschiedene Modifikationen dieser Merkmale wurden getestet und evaluiert.
Die Erstellung räumlicher Abbilder aus planaren Ansichten gewinnt immer mehr Bedeutung in der modernen Medizintechnik. 3D-Rekonstruktionen haben wesentlich zur besseren Detektion,wie auch zu Optimierung und Innovation in der Diagnostik und Behandlungsmethodik bestimmter Krankheitsbilder beigetragen. Durch die Verfahren der Bildverarbeitung ist es möglich, aus Bildsequenzen eine 3D-Abbildung der gefilmten Szene zu erstellen. Ziel dieser Diplomarbeit soll es sein, zu untersuchen, inwieweit sich aus der Aufnahmetechnik aus einer Reihe unkalibrierter Endoskopiebilder weitere Rückschlüsse über die Oberflächenbeschaffenheit des betrachteten Gewebes ziehen lassen. Hierbei wird das Phänomen zugrundegelegt, daß bei der Aufnahme der Bilder Glanzlichter auftreten, wenn die Beleuchtung am Kamerakopf orthogonal zur Gewebeoberfläche auftrifft. Diese Glanzlichter geben daher implizit Aufschluss über die Oberflächenorientierung des Gewebes. Aufgabe ist es nun, diese Glanzlichter in einer Reihe von unkalibrierten Endoskopieaufnahmen zu finden, die Bilder aus der Sequenz einander zuzuordnen, also Korrespondenzen zwischen den Bildern zu finden, und unter Einbeziehung der Kamerageometrie Rückschlüsse auf die Gewebeoberfläche zu ziehen. Zuerst müssen hierfür die Glanzlichter in den Einzelbildern der Sequenz gefunden werden. Dazu wird ein Verfahren verwendet, welches die Glanzlichter durch eine Zerlegung des HSV-Farbraums detektiert und deren Mittelpunkt errechnet. Um die Kamerageometrie zu schätzen, werden mihilfe eines Punktverfolgers Punktkorrespondenzen zwischen den Einzelbildern erstellt, anhand derer sich die Fundamentalmatrix durch RANSAC errechnen läßt. Unter Anwendung eines Autokalibrierungsverfahrens werden aus den geschätzten Fundamentalmatrizen dann in einem abschließenden Schritt die internen Kameraparameter ermittelt. So sollte möglich sein, die Glanzlichter durch eine Sequenz von Bildern zu verfolgen und die Oberflächennormalen einem Referenzbild zuzuordnen.
Die Ermittlung der Position und Orientierung einer Kamera aus Punktkorrespondenzen zwischen 3D-Positionen und deren Bildpositionen ist im Rechnersehen unter dem Begriff Poseschätzung bekannt. Viele moderne Anwendungen profitieren von dem Wissen über die Lage einer Kamera im Raum zum Zeitpunkt der Bildentstehung. Für eine robuste Schätzung der Pose wird in dieser Arbeit zunächst anhand eines Stereoalgorithmus aus einer Bildserie ein Modell in Form einer Menge von SIFT-Merkmalen erstellt. Bei der Modellerstellung kommt eine handelsübliche monokulare Kamera zum Einsatz, die frei Hand geführt werden kann. Es ist dafür kein Wissen über die Position der Kamera während der Modellerstellung nötig. In einem zweiten Schritt wird die Pose einer Kamera bestimmt, deren Bild teilweise Inhalte des zuvor erstellten Modells aufweist. Die Zuordnungen der im Bild gefundenen SIFT-Merkmale zu den Modellmerkmalen mit bekannter 3D-Position bilden die Basis der linearen Optimierungsverfahren, die zur Lösung des Poseproblems angewandt werden. Das System beruht dabei auf einer zuvor kalibrierten Kamera und der manuellen Selektion geeigneter SIFT-Merkmale zur Initialisierung der Epipolargeometrie während des Modellaufbaus.
Im Rahmen der Glaukomdiagnostik sind Größe und Position des Sehnervkopfes wichtige Parameter zur Klassifikation des Auges. Das Finden und exakte Markieren der Papille ist ein subjektiver Vorgang und kann von Arzt zu Arzt stark variieren. Ziel der Arbeit ist die Entwicklung eines automatischen Verfahrens zur Detektion der Papille. Zunächst wird der medizinische Hintergrund erläutert (Aufbau des Auges, Glaukom) und das bildgebende Verfahren, der Heidelberg Retina Tomograph, dargestellt. Nach einer Diskussion bisheriger Ansätze zur Detektion der Papille wird ein eigenes Verfahren entwickelt und detailliert beschrieben. Für bei der Implementation aufgetretene Probleme werden Ansätze zur Optimierung vorgeschlagen.
Das sichere Befahren von komplexen und unstruktierten Umgebungen durch autonome Roboter ist seit den Anfängen der Robotik ein Problem und bis heute eine Herausforderung geblieben. In dieser Studienarbeit werden drei Verfahren basierend auf 3-D-Laserscans, Höhenvarianz, der Principle Component Analysis (PCA) und Tiefenbildverarbeitung vorgestellt, die es Robotern ermöglichen, das sie umgebende Terrain zu klassifizieren und die Befahrbarkeit zu bewerten, sodass eine sichere Navigation auch in Bereichen möglich wird, die mit reinen 2-D-Laserscannern nicht sicher befahren werden können. Hierzu werden 3-D-Laserscans mit einem 2-D-Laserscanner erstellt, der auf einer Roll-Tilt-Einheit basierend auf Servos montiert ist, und gleichzeitig auch zur Kartierung und Navigation eingesetzt wird. Die einzeln aufgenommenen 2-D-Scans werden dann anhand des Bewegungsmodells der Roll-Tilt-Einheit in ein emeinsames 3-D-Koordinatensystem transformiert und mit für die 3-D-Punktwolkenerarbeitung üblichen Datenstrukturen (Gittern, etc.) und den o.g. Methoden klassifiziert. Die Verwendung von Servos zur Bewegung des 2-D-Scanners erfordert außerdem eine Kalibrierung und Genauigkeitsbetrachtung derselben, um zuverlässige Ergebnisse zu erzielen und Aussagen über die Qualität der 3-D-Scans treffen zu können. Als Ergebnis liegen drei Implementierungen vor, welche evolutionär entstanden sind. Das beschriebene Höhenvarianz-Verfahren wurde im Laufe dieser Studienarbeit von einem Principle Component Analysis basierten Verfahren, das bessere Ergebnisse insbesondere bei schrägen Untergründen und geringer Punktdichte bringt, abgelöst. Die Verfahren arbeiten beide zuverlässig, sind jedoch natürlich stark von der Genauigkeit der zur Erstellung der Scans verwendeten Hardware abhängig, die oft für Fehlklassifikationen verantwortlich war. Die zum Schluss entwickelte Tiefenbildverarbeitung zielt darauf ab, Abgründe zu erkennen und tut dies bei entsprechender Erkennbarkeit des Abgrunds im Tiefenbild auch zuverlässig.
Das Ziel dieser Arbeit war die Verbesserung einer Positions- und Orientierungsangabe einer Kamera mit Hilfe von bildbasierten Registrierungsverfahren. Des Weiteren sollte herausgefunden werden, inwieweit eine Beschleunigung der Registrierung erreicht werden kann, wenn die Berechnung der Abstandsmaße auf den Grafikprozessor ausgelagert wird. Für das in dieser Arbeit angestrebte System sollte herausgefunden werden, ob und in welchem Maße eine Verbesserung der ursprünglichen Positionsangabe eingetreten ist. Mit dieser Arbeit wurde erreicht, dass ein lauffähiges und in zahlreichen Tests evaluiertes System unter dem Betriebssystem Linux zur Verfügung steht.