Filtern
Erscheinungsjahr
Dokumenttyp
- Bachelorarbeit (4)
- Dissertation (4)
- Masterarbeit (3)
- Diplomarbeit (2)
- Studienarbeit (1)
Sprache
- Englisch (14) (entfernen)
Schlagworte
- Action Recognition (1)
- Action Segmentation (1)
- Automatische Klassifikation (1)
- Befahrbarkeit (1)
- Bildanalyse (1)
- Bildverarbeitung (1)
- Coloskopie (1)
- Computer Vision (1)
- Darmpolyp (1)
- Deep Metric Learning (1)
Institut
In dieser Arbeit werden drei Verfahren zur Objektentfernung aus Bildern einander gegenübergestellt. Zwei der ausgewählten Verfahren stammen aus dem Bereich der sogenannten Inpainting-Verfahren, während das dritte dem Forschungsgebiet der medizinischen Bildverarbeitung entnommen ist. Die Evaluation dieser Verfahren zeigt ihre jeweiligen Vor- und Nachteile auf und prüft ihre Anwendbarkeit auf das spezifische Problem, ein Farbkalibriermuster aus strukturdominierten Bildern zu entfernen. Auf der Grundlage dieser Eigenschaften werden abschließend mehrere Erweiterungen vorgestellt, die eine verbesserte Anwendbarkeit auf das gestellte Problem erreichen.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
Texture-based text detection in digital images using wavelet features and support vector machines
(2010)
In dieser Bachelorarbeit wird ein neues texturbasiertes Verfahren zur Detektion von Texten in digitalen Bildern vorgestellt. Das Verfahren kann im wesentlichen in zwei Hauptaufgaben unterteilt werden, in Detektion von Textblöcken und Detektion von einzelnen Wörtern, wobei die einzelnen Wörter aus den detektierten Textblöcken extrahiert werden. Im Groben agiert das entwickelte Verfahren mit mehreren Support Vector Machines, die mit Hilfe von waveletbasierten Merkmalen mögliche Textregionen eines Bildes zu wirklichen Textregionen klassiffzieren. Die möglichen Textregionen werden dabei durch unterschiedlich ausgerichtete Kantenprojektionen bestimmt. Das Resultat des Verfahrens sind X/Y Koordinaten, Breite und Höhe von rechteckigen Regionen eines Bildes, die einzelne Wörter enthalten. Dieses Wissen kann weiterverarbeitet werden, beispielsweise durch eine Texterkennungssoftware, um an die wichtigen und sehr nützlichen Textinformationrneines Bildes zu gelangen.
Die automatische Detektion der Lage und Ausrichtung von Unterwasser-Kabeln oder -Pipelines in Kamerabildern ermöglicht es, Unterwasserfahrzeuge autonome Kontrollfahrten durchführen zu lassen. Durch Pflanzenwuchs auf und in der Nähe von Kabeln bzw. Pipelines wird deren visuelle Erfassung jedoch erschwert: Die Bestimmug der Lage über die Detektion von Kanten mit anschließender Linien-Extraktion schlägt oft fehl. Probabilistische Ansätze sind hier den deterministischen überlegen. Durch die Modellierung von Wahrscheinlichkeiten kann trotz geringer Anzahl von extrahierten Merkmalen eine Aussage über den Zustand des Systems getroffen werden. Diese Arbeit stellt ein neues auf Partikelfiltern basierendes Tracking-System für die Verfolgung von Kabeln und Pipelines in Bildsequenzen vor. Umfangreiche Experimente auf realistischen Unterwasser-Videos zeigen die Robustheit und Performanz des gewählten Ansatzes sowie Vorteile gegenüber vorangegangenen Arbeiten.