Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (24)
- Studienarbeit (17)
- Bachelorarbeit (10)
- Dissertation (5)
- Masterarbeit (3)
Schlagworte
- Bildverarbeitung (9)
- Robotik (7)
- Mustererkennung (3)
- 3D (2)
- Bildanalyse (2)
- Kamera (2)
- Laserscanner (2)
- Mikroskopie (2)
- Segmentierung (2)
- 2-D (1)
Institut
- Institut für Computervisualistik (59) (entfernen)
Die Zeitschrift c't stellte in der Ausgabe 02/2006 einen Bausatz für einen kleinen mobilen Roboter vor, den c't-Bot, der diese Studienarbeit inspirierte. Dieser Bausatz sollte die Basis eines Roboters darstellen, der durch eine Kamera erweitert und mit Hilfe von Bildverarbeitung in der Lage sein sollte, am RoboCupSoccer-Wettbewerb teilzunehmen. Während der Planungsphase veränderten sich die Ziele: Statt einem Fußballroboter sollte nun ein Roboter für die neu geschaffene RoboCup-Rescue-League entwickelt werden. In diesem Wettbewerb sollen Roboter in einer für sie unbekannten Umgebung selbstständig Wege erkunden, bzw. Personen in dieser Umgebung finden. Durch diese neue Aufgabenstellung war sofort klar, dass der c't-Bot nicht ausreichte, und es musste ein neuer Roboter entwickelt werden, der mittels Sensoren die Umgebung wahrnehmen, durch eine Kamera Objekte erkennen und mit Hilfe eines integrierten Computers diese Bilder verarbeiten sollte. Die Entstehung dieses Roboters ist das Thema dieser Studienarbeit.
In der Bildverarbeitung werden zunehmend Algorithmen unter Verwendung von prägnanten Merkmalen implementiert. Prägnante Merkmale können sowohl für die optische Kameraposebestimmung als auch für die Kalibrierung von Stereokamerasystemen verwendet werden. Für solche Algorithmen ist die Qualität von Merkmalen in Bildern ein entscheidender Faktor. In den letzten Jahren hat sich an dieser Stelle das von D. Lowe 2004 vorgestellte SIFT-Verfahren hervorgetan. Problematisch bei der Anwendung dieses Verfahrens ist seine hohe Komplexität und der daraus resultierende hohe Rechenaufwand. Um das Verfahren zu beschleunigen, wurden bereits mehrere Implementationen veröffentlicht, die teils weiterhin ausschließlich die CPU nutzen, teils neben der CPU auch die GPU zur Berechnung bestimmter Teilbereiche des SIFT verwenden. Diese Implementationen gilt es zu hinterfragen. Ebenso ist die Qualität der Merkmale zu untersuchen, um die Verwendbarkeit von SIFT-Merkmalen für andere Bereiche der Bildverarbeitung gewährleisten zu können. Zur Visualisierung der Ergebnisse wurde eine GUI erstellt.
This thesis addresses the automated identification and localization of a time-varying number of objects in a stream of sensor data. The problem is challenging due to its combinatorial nature: If the number of objects is unknown, the number of possible object trajectories grows exponentially with the number of observations. Random finite sets are a relatively new theory that has been developed to derive at principled and efficient approximations. It is based around set-valued random variables that contain an unknown number of elements which appear in arbitrary order and are themselves random. While extensively studied in theory, random finite sets have not yet become a leading paradigm in practical computer vision and robotics applications. This thesis explores random finite sets in visual tracking applications. The first method developed in this thesis combines set-valued recursive filtering with global optimization. The problem is approached in a min-cost flow network formulation, which has become a standard inference framework for multiple object tracking due to its efficiency and optimality. A main limitation of this formulation is a restriction to unary and pairwise cost terms. This circumstance makes integration of higher-order motion models challenging. The method developed in this thesis approaches this limitation by application of a Probability Hypothesis Density filter. The Probability Hypothesis Density filter was the first practically implemented state estimator based on random finite sets. It circumvents the combinatorial nature of data association itself by propagation of an object density measure that can be computed efficiently, without maintaining explicit trajectory hypotheses. In this work, the filter recursion is used to augment measurements with an additional hidden kinematic state to be used for construction of more informed flow network cost terms, e.g., based on linear motion models. The method is evaluated on public benchmarks where a considerate improvement is achieved compared to network flow formulations that are based on static features alone, such as distance between detections and appearance similarity. A second part of this thesis focuses on the related task of detecting and tracking a single robot operator in crowded environments. Different from the conventional multiple object tracking scenario, the tracked individual can leave the scene and later reappear after a longer period of absence. Therefore, a re-identification component is required that picks up the track on reentrance. Based on random finite sets, the Bernoulli filter is an optimal Bayes filter that provides a natural representation for this type of problem. In this work, it is shown how the Bernoulli filter can be combined with a Probability Hypothesis Density filter to track operator and non-operators simultaneously. The method is evaluated on a publicly available multiple object tracking dataset as well as on custom sequences that are specific to the targeted application. Experiments show reliable tracking in crowded scenes and robust re-identification after long term occlusion. Finally, a third part of this thesis focuses on appearance modeling as an essential aspect of any method that is applied to visual object tracking scenarios. Therefore, a feature representation that is robust to pose variations and changing lighting conditions is learned offline, before the actual tracking application. This thesis proposes a joint classification and metric learning objective where a deep convolutional neural network is trained to identify the individuals in the training set. At test time, the final classification layer can be stripped from the network and appearance similarity can be queried using cosine distance in representation space. This framework represents an alternative to direct metric learning objectives that have required sophisticated pair or triplet sampling strategies in the past. The method is evaluated on two large scale person re-identification datasets where competitive results are achieved overall. In particular, the proposed method better generalizes to the test set compared to a network trained with the well-established triplet loss.
Im Rahmen dieser Diplomarbeit wird ein Verfahren zur markerlosen Pose-Rekonstruktion vorgestellt. Die Modellierung des menschlichen Körpers geschieht auf Basis der Starrkörperphysik. Mittels eines probabilistischen Ansatzes wird das Modell in eine volumetrische Rekonstruktion der Szene eingepasst. Die hierfür zu bewältigende Suche in hochdimensionalen Zustandsräumen wird mittels eines Partikelfilters in Kombination mit Simulierter Abkühlung vorgenommen. Eine Berücksichtigung anthropometrischer Besonderheiten sowie kinematischer Grenzen wird zur weiteren Stützung des Verfahrens vorgenommen. Die vollständig Umsetzung des Verfahrens durch dreidimensionale Beobachtungs- und Messmodelle führt zu einer exakten Poserekonstruktion und vermeidet Mehrdeutigkeiten während der Auswertung.
Das Wissen über die genaue Position und Lage eines unbemannten Luftfahrzeugs spielt während der Durchführung einer autonomen Mission eine dominante Rolle. Unbemannte Luftfahrzeuge sind daher mit einer Vielzahl an Sensoren ausgestattet. Jeder dieser Sensoren leistet einen Beitrag zu diesem Ziel, wobei ein Sensor entweder eine absolute oder eine relative Angabe über den derzeitigen Aufenthaltsort oder die Fluglage ermöglicht. Alle Sensoren werden zu einer Gesamtlösung verknüpft, der Navigationslösung. Das am häufigsten eingesetzte - und auch meistens einzige - Verfahren zur absoluten Positionsbestimmung ist die Satellitennavigation. Diese ist abhängig von einer direkten Sichtlinie der mitgeführten Empfangsantenne zu den Satelliten. Falls es zu einer Unterbrechung dieser Sichtlinie kommt, ist eine genaue, absolute Positionsangabe nicht mehr möglich. Die Navigationslösung hat somit nur noch Sensoren zur Verfügung, die eine relative Positions- bzw. Lageangabe ermöglichen. Hierzu gehören das mitgeführte Magnetometer und das Inertialmesssystem. Beide unterliegen dem Phänomen der Drift. Dieses bedeutet, dass die Genauigkeit der Positions- und Lageangabe bei einem Ausfall der Satellitennavigation mit fortschreitender Zeit zunehmend unzuverlässig wird. Um diese Drift in einem bestimmten Rahmen zu kompensieren, kann ein Bildsensor verwendet werden. Dieser ermöglicht eine bildbasierte Bewegungsschätzung und stellt somit einen zusätzlichen Sensor zur Messung von relativen Lage- und Positionsänderungen dar. Ziel der Arbeit ist es, ein Verfahren zur bildbasierten Bewegungsschätzung für einen unbemannten Helikopter zu entwickeln und zu evaluieren.
Die Selbstlokalisation von Robotern ist schon seit Jahren ein aktuelles Forschungsthema, das insbesondere durch immer weiterentwickelte Techniken und Verfahren verbessert werden kann. Insbesondere finden Laserscanner in der Robotik immer häufiger Anwendung. In dieser Arbeit wird untersucht, ob durch die Fusionierung von Kamerabildern und 3D-Laserscannerdaten eine robuste und schnelle Selbstlokalisation theoretisch sowie praktisch realisierbar ist.
Im Rahmen der Arbeit wurde ein mehrstufiger Algorithmus entwickelt, der es ermöglicht, aus Bildfolgen eine Trajektorie der Kamerabewegung zu rekonstruieren. Die Kalibrierung der Kamera beruht auf dem Verfahren von Zhang und ermöglicht den Ausgleich der durch das Objektiv entstehenden radialen Verzerrung der Bilder. Die sich anschließende Detektion prägnanter Merkmale wird durch den SIFT-Operator geleistet, welcher neben subpixelgenauer Lokalisation der Merkmale zusätzlich einen stark markanten Deskriptor zu deren Beschreibung liefert. Außerdem sind die Merkmale invariant gegenüber Rotationen, was für einige mögliche Anwendungsfälle sehr relevant ist. Die Suche nach Korrespondenzen wurde auf Basis der Distance Ratio ausgeführt. Hier wurde eine komplette Formalisierung der Korrelationsbeziehung zwischen Merkmalsvektoren präsentiert, welche eindeutig eine symmetrische Beziehung zwischen SIFT-Merkmalsvektoren definiert, die den an eine Korrespondenz gestellten Ansprüchen gerecht wird. Zusätzlich wurde motiviert, warum die sonst in der Bildverarbeitung gängige Methode der Hierarchisierung zur Reduktion des Aufwands in diesem speziellen Fall zu schlechteren Inlier-Raten in den gefundenen Korrespondenzen führen kann. Anschließend wurde ein genereller Überblick über den RANSAC-Algorithmus und die aus ihm entspringenden Derivate gegeben.
Online Handschrifterkennung chinesischer Schriftzeichen auf androidfähigen mobilen Endgeräten
(2014)
Um mobile Wörterbücher oder Übersetzer zu verwenden, braucht es eine Eingabe. Diese muss zuvor verarbeitet werden, um nutzbar zu sein. Für chinesische Zeichen bietet sich die Handschrift an, da die Schrift hauptsächlich aus Piktogrammen und Ideogrammen besteht.
In dieser Bachelorarbeit wird ein prototypisches Erkennungssystem auf einem mobilen Endgerät implementiert. Die Erkennung soll dabei online und somit während des Schreibens erfolgen. Dies kann dem Benutzer Zeit ersparen, indem verschiedene erkannte Vorschläge zur Laufzeit gegeben werden.
Es werden Grundlagen erläutert und ein Überblick über den aktuellen Stand der Forschung gegeben. Ein Ansatz wird ausgewählt und implementiert, der möglichst schnell ist und wenig Speicherplatz erfordert. Die Implementation wird getestet und es wird gezeigt, dass es möglich ist, eine schnelle Erkennung auf einem kleinen Gerät laufen zu lassen. Es werden Verbesserungen und Erweiterungen vorgeschlagen, sowie ein Ausblick gegeben.