004 Datenverarbeitung; Informatik
Filtern
Erscheinungsjahr
Dokumenttyp
- Bachelorarbeit (6)
- Diplomarbeit (5)
- Dissertation (5)
- Masterarbeit (3)
- Ausgabe (Heft) zu einer Zeitschrift (3)
- Studienarbeit (2)
- Konferenzveröffentlichung (1)
Sprache
- Englisch (25) (entfernen)
Schlagworte
- Bildverarbeitung (2)
- Computer Graphics (2)
- Computergraphik (2)
- Graphik (2)
- Line Space (2)
- OpenGL (2)
- Volumen-Rendering (2)
- Acceleration Structures (1)
- Action Recognition (1)
- Action Segmentation (1)
Institut
- Institut für Computervisualistik (25) (entfernen)
Leichte Sprache (LS) ist eine vereinfachte Varietät des Deutschen in der barrierefreie Texte für ein breites Spektrum von Menschen, einschließlich gering literalisierten Personen mit Lernschwierigkeiten, geistigen oder entwicklungsbedingten Behinderungen (IDD) und/oder komplexen Kommunikationsbedürfnissen (CCN), bereitgestellt werden. LS-Autor*innen sind i.d.R. der deutschen Standardsprache mächtig und gehören nicht der genannten Personengruppe an. Unser Ziel ist es, diese zu befähigen, selbst am schriftlichen Diskurs teilzunehmen. Hierfür bedarf es eines speziellen Schreibsystems, dessen linguistische Unterstützung und softwareergonomische Gestaltung den spezifischen Bedürfnissen der Zielgruppe gerecht wird. EasyTalk ist ein System basierend auf computerlinguistischer Verarbeitung natürlicher Sprache (NLP) für assistives Schreiben in einer erweiterten Variante von LS (ELS). Es stellt den Nutzenden ein personalisierbares Vokabular mit individualisierbaren Kommunikationssymbolen zur Verfügung und unterstützt sie entsprechend ihres persönlichen Fähigkeitslevels durch interaktive Benutzerführung beim Schreiben. Intuitive Formulierungen für linguistische Entscheidungen minimieren das erforderliche grammatikalische Wissen für die Erstellung korrekter und kohärenter komplexer Inhalte. Einfache Dialoge kommunizieren mit einem natürlichsprachlichen Paraphrasengenerator, der kontextsensitiv Vorschläge für Satzkomponenten und korrekt flektierte Wortformen bereitstellt. Außerdem regt EasyTalk die Nutzer*innen an, Textelemente hinzuzufügen, welche die Verständlichkeit des Textes für dessen Leserschaft fördern (z.B. Zeit- und Ortsangaben) und die Textkohärenz verbessern (z.B. explizite Diskurskonnektoren). Um das System auf die Bedürfnisse der Zielgruppe zuzuschneiden, folgte die Entwicklung von EasyTalk den Grundsätzen der menschzentrierten Gestaltung (UCD). Entsprechend wurde das System in iterativen Entwicklungszyklen ausgereift, kombiniert mit gezielten Evaluierungen bestimmter Aspekte durch Gruppen von Expert*innen aus den Bereichen CCN, LS und IT sowie L2-Lernende der deutschen Sprache. Eine Fallstudie, in welcher Mitglieder der Zielgruppe das freie Schreiben mit dem System testeten, bestätigte, dass Erwachsene mit geringen Lese-, Schreib- und Computerfähigkeiten mit IDD und/oder CCN mit EasyTalk eigene persönliche Texte in ELS verfassen können. Das positive Feedback aller Tests inspiriert Langzeitstudien mit EasyTalk und die Weiterentwicklung des prototypischen Systems, wie z.B. die Implementierung einer s.g. Schreibwerkstatt.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
Die Raytracing-Beschleunigung durch dedizierte Datenstrukturen ist schon lange ein wichtiges Thema der Computergrafik. Im Allgemeinen werden dafür zwei unterschiedliche Ansätze vorgeschlagen: räumliche und richtungsbezogene Beschleunigungsstrukturen. Die vorliegende Arbeit stellt einen innovativen kombinierten Ansatz dieser beiden Bereiche vor, welcher weitere Beschleunigung der Strahlenverfolgung ermöglicht. Dazu werden moderne räumliche Datenstrukturen als Basisstrukturen verwendet und um vorberechnete gerichtete Sichtbarkeitsinformationen auf Basis von Schächten innerhalb einer originellen Struktur, dem Line Space, ergänzt.
Im Laufe der Arbeit werden neuartige Ansätze für die vorberechneten Sichtbarkeitsinformationen vorgeschlagen: ein binärer Wert, der angibt, ob ein Schacht leer oder gefüllt ist, sowie ein einzelner Vertreter, der als repräsentativer Kandidat die tatsächliche Oberfläche approximiert. Es wird gezeigt, wie der binäre Wert nachweislich in einer einfachen, aber effektiven Leerraumüberspringungs-Technik (Empty Space Skipping) genutzt wird, welche unabhängig von der tatsächlich verwendeten räumlichen Basisdatenstruktur einen Leistungsgewinn beim Raytracing von bis zu 40% ermöglicht. Darüber hinaus wird gezeigt, dass diese binären Sichtbarkeitsinformationen eine schnelle Technik zur Berechnung von weichen Schatten und Umgebungsverdeckung auf der Grundlage von Blockerapproximationen ergeben. Obwohl die Ergebnisse einen gewissen Ungenauigkeitsfehler enthalten, welcher auch dargestellt und diskutiert wird, zeigt sich, dass eine weitere Traversierungsbeschleunigung von bis zu 300% gegenüber der Basisstruktur erreicht wird. Als Erweiterung zu diesem Ansatz wird die repräsentative Kandidatenvorberechnung demonstriert, welche verwendet wird, um die indirekte Lichtberechnung durch die Integration von kaum wahrnehmbaren Bildfehlern signifikant zu beschleunigen. Schließlich werden Techniken vorgeschlagen und bewertet, die auf zweistufigen Strukturen und einer Nutzungsheuristik basieren. Diese reduzieren den Speicherverbrauch und die Approximationsfehler bei Aufrechterhaltung des Geschwindigkeitsgewinns und ermöglichen zusätzlich weitere Möglichkeiten mit Objektinstanziierungen und starren Transformationen.
Alle Beschleunigungs- und Speicherwerte sowie die Näherungsfehler werden gemessen, dargestellt und diskutiert. Insgesamt zeigt sich, dass durch den Line Space eine deutliche Erhöhung der Raytracing Leistung auf Kosten eines höheren Speicherverbrauchs und möglicher Annäherungsfehler erreicht wird. Die vorgestellten Ergebnisse zeigen damit die Leistungsfähigkeit des kombinierten Ansatzes und eröffnen weitere Möglichkeiten für zukünftige Arbeiten.
Die Mitralklappe ist eine der vier Herzklappen des Menschen. Sie befindet sich in der linken Herzkammer und agiert als ein unidirektionales Ventil, welches den Blutfluss vom linken Atrium zum linken Ventrikel steuert. Eine funktionierende Mitralklappe verhindert den Rückfluss von Blut in den Lungenkreislauf, wodurch sie einen unverzichtbaren Anteil zu einem gesunden Herzkreislauf beiträgt. Pathologien der Mitralklappe können eine Reihe von Symptomen hervorrufen, welche in ihrer Schwere von Brustschmerzen und Ermüdung bis zum Lungenödem (dem Eindringen von Flüssigkeit in die Lunge) reichen können. Im schlimmsten Fall kann dieses zum Atemversagen führen.
Dysfunktionale Mitralklappen können mithilfe komplexer chirurgischer Eingriffe wiederhergestellt werden, welche in hohem Maße von intensiver Planung und präoperativer Analyse profitieren. Visualisierungstechniken eröffnen die Möglichkeit, solche Vorbereitungsprozesse zu unterstützen und können zudem einer postoperativen Evaluation dienlich sein. Die vorliegende Arbeit erweitert die Forschung in diesem Bereich. Sie stützt sich auf patientenspezifische Segmentierungen der Mitralklappe, wie sie am Deutschen Krebsforschungszentrum entwickelt werden. Solche Segmentierungen resultieren in 3D-Modellen der Mitralklappe. Der Kern dieser Arbeit wird sich mit der Konstruktion einer 2D-Ansicht dieser Modelle befassen. Die 2D-Visualisierung wird durch Methoden der globalen Parametrisierung erzeugt, welche es erlauben, bijektive Abbildungen zwischen einem planaren Parameterraum und Oberflächen in höheren Dimensionen zu erstellen.
Eine ebene Repräsentation der Mitralklappe ermöglicht Ärzten einen unmittelbaren Blick auf deren gesamte Oberfläche, analog zu einer Karte. Dies erlaubt die Begutachtung der Fläche und Form ohne die Notwendigkeit unterschiedlicher Blickwinkel. Teile der Klappe, die in der 3D-Ansicht von Geometrie verdeckt sind, werden in der 2D-Darstellung sichtbar.
Ein weiterer Beitrag dieser Arbeit ist die Untersuchung verschiedener Visualisierungen der 3D- und 2D-Mitralklappenrepräsentationen. Merkmale der Klappe können durch Assoziation mit spezifizierten Farbschemata hervorgehoben werden. So können zum Beispiel Pathologie-Indikatoren direkt vermittelt werden.
Qualität und Wirkungsgrad der vorgestellten Methoden wurden in einer Studie am Universitätsklinikum Heidelberg evaluiert.
This thesis addresses the automated identification and localization of a time-varying number of objects in a stream of sensor data. The problem is challenging due to its combinatorial nature: If the number of objects is unknown, the number of possible object trajectories grows exponentially with the number of observations. Random finite sets are a relatively new theory that has been developed to derive at principled and efficient approximations. It is based around set-valued random variables that contain an unknown number of elements which appear in arbitrary order and are themselves random. While extensively studied in theory, random finite sets have not yet become a leading paradigm in practical computer vision and robotics applications. This thesis explores random finite sets in visual tracking applications. The first method developed in this thesis combines set-valued recursive filtering with global optimization. The problem is approached in a min-cost flow network formulation, which has become a standard inference framework for multiple object tracking due to its efficiency and optimality. A main limitation of this formulation is a restriction to unary and pairwise cost terms. This circumstance makes integration of higher-order motion models challenging. The method developed in this thesis approaches this limitation by application of a Probability Hypothesis Density filter. The Probability Hypothesis Density filter was the first practically implemented state estimator based on random finite sets. It circumvents the combinatorial nature of data association itself by propagation of an object density measure that can be computed efficiently, without maintaining explicit trajectory hypotheses. In this work, the filter recursion is used to augment measurements with an additional hidden kinematic state to be used for construction of more informed flow network cost terms, e.g., based on linear motion models. The method is evaluated on public benchmarks where a considerate improvement is achieved compared to network flow formulations that are based on static features alone, such as distance between detections and appearance similarity. A second part of this thesis focuses on the related task of detecting and tracking a single robot operator in crowded environments. Different from the conventional multiple object tracking scenario, the tracked individual can leave the scene and later reappear after a longer period of absence. Therefore, a re-identification component is required that picks up the track on reentrance. Based on random finite sets, the Bernoulli filter is an optimal Bayes filter that provides a natural representation for this type of problem. In this work, it is shown how the Bernoulli filter can be combined with a Probability Hypothesis Density filter to track operator and non-operators simultaneously. The method is evaluated on a publicly available multiple object tracking dataset as well as on custom sequences that are specific to the targeted application. Experiments show reliable tracking in crowded scenes and robust re-identification after long term occlusion. Finally, a third part of this thesis focuses on appearance modeling as an essential aspect of any method that is applied to visual object tracking scenarios. Therefore, a feature representation that is robust to pose variations and changing lighting conditions is learned offline, before the actual tracking application. This thesis proposes a joint classification and metric learning objective where a deep convolutional neural network is trained to identify the individuals in the training set. At test time, the final classification layer can be stripped from the network and appearance similarity can be queried using cosine distance in representation space. This framework represents an alternative to direct metric learning objectives that have required sophisticated pair or triplet sampling strategies in the past. The method is evaluated on two large scale person re-identification datasets where competitive results are achieved overall. In particular, the proposed method better generalizes to the test set compared to a network trained with the well-established triplet loss.
This paper describes the robot Lisa used by team
homer@UniKoblenz of the University of Koblenz Landau, Germany, for the participation at the RoboCup@Home 2016 in Leipzig, Germany. A special focus is put on novel system components and the open source contributions of our team. We have released packages for object recognition, a robot face including speech synthesis, mapping and navigation, speech recognition interface via android and a GUI. The packages are available (and new packages will be released) on http://wiki.ros.org/agas-ros-pkg.
Proceedings of the 9th Open German-Russian Workshop on Pattern Recognition and Image Understanding
(2015)
The Proceedings of the 9th Open German-Russian Workshop on Pattern Recognition and Image Understanding include publications (extended abstracts), that cover but are not limited to the following topics: - Mathematical Theory of Pattern Recognition, Image and Speech Processing, Analysis, Recognition and Understanding. - Cognitive Technologies, Information Technologies, Automated Systems and Software for Pattern Recognition, Image, Speech and Signal Processing, Analysis and Understanding - Databases, Knowledge Bases, and Linguistic Tools - Special-Purpose Architectures, Software and Hardware Tools - Vision and Sensor Data Interpretation for Robotics - Industrial, Medical, Multimedia and Other Applications - Algorithms, Software, Automated Systems and Information Technologies in Bioinformatics and Medical Informatics. The workshop took place from December 1st-5th, 2014, at the University of Koblenz-Landau in Koblenz, Germany.
Die Mitralklappe ist eine der vier Herzklappen des Menschen und in der linken Herzkammer zu finden. Ihre Funktion ist es, den Blutfluss vom linken Atrium zum linken Ventrikel zu regeln. Pathologien können zu eingeschränker Funktionalität der Klappe führen, sodass Blut zurück ins Atrium fließen kann. Patienten, die von einer Fehlfunktion betroffen sind, leiden möglicherweise an Erschöpfung und Schmerzen in der Brust. Die Funktionalität kann chirurgisch wiederhergestellt werden, was meist ein langer und anstrengender Eingriff ist. Eine gründliche Planung ist daher nötig, um eine sichere und effektive Operation zu garantieren. Dies kann durch prä-operative Segmentierungen der Mitralklappe unterstützt werden. Eine post-operative Analyse kann den Erfolg eines Eingriffs feststellen. Diese Arbeit wird bestehende und neue Ideen zu einem neuen Ansatz kombinieren, der zur (semi-)automatischen Erstellung solcher Mitralmodelle dienen kann. Der manuelle Anteil garantiert ein Modell hoher Qualität, während der automatische Teil dazu beiträgt, wertvolle Arbeitszeit zu sparen.
Die Hauptbeiträge des automatischen Algorithmus sind eine ungefähre semantische Trennung der beiden Mitralsegel und ein Optimierungsprozess, der in der Lage ist, eine Koaptations-Linie und -Fläche zwischen den Segeln zu finden. Die Methode kann eine vollautomatische Segmentierung der Mitralsegel durchführen, wenn der Annulusring bereits gegeben ist. Die Zwischenschritte dieses Vorgangs werden in eine manuelle Segmentierungsmethode integriert, so dass ein Benutzer den Gesamtprozess beeinflussen kann. Die Qualität der generierten Mitralmodelle wird durch das Vergleichen mit vollständig manuell erstellten Modellen gemessen. Dies wird zeigen, dass übliche Methoden zur Bestimmung der Qualität einer Segmentierung zu allgemein gefasst sind und nicht ausreichen, um die echte Qualität eines Modells widerspiegeln zu können. Folglich führt diese Arbeit Messungen ein, die in der Lage sind, eine Segmentierung der Mitralklappe detailliert und unter Betracht anatomischer Landmarken bewerten zu können. Neben der intra-operativen Unterstützung eines Chirurgen liefert eine segmentierte Mitralklappe weitere Vorteile. Die Möglichkeit, die Anatomie einer Klappe patientenspezifisch aufzunehmen und objektiv zu bewerten, könnte als Grundlage für zukünftige medizinische Forschung in diesem Bereich dienen. Die Automatisierung erlaubt dabei das Bearbeiten großer Datenmengen mit reduzierter Abhängigkeit von Experten. Desweiteren könnten Simulationsmethoden, welche ein segmentiertes Modell als Eingabe nutzen, das Ergebnis einer Operation vorhersagen.
In dieser Arbeit präsentieren wir Methoden zum Schätzen von Kamerabewegungen einer RGB-D-Kamera in sechs Freiheitsgraden und dem Erstellen von 3D-Karten. Als erstes werden die RGB- und Tiefendaten registriert und synchronisiert. Nach der Vorverarbeitung extrahieren wir FAST-Merkmale in zwei aufeinander folgenden Bildern. Daraus wird eine Korrespondenzmenge erstellt und Ausreißer werden herausgefiltert. Anschließend projizieren wir die Korrespondenzmenge in 3D, um die Bewegung aus 3D-3D-Korrespondezen mittels Least-Squares zu bestimmen. Weiterhin präsentieren wir Methoden, um 3D-Karten aus Bewegungsschätzungen und RGB-D-Daten zu erstellen. Dafür benutzen wir das OctoMap-Framework und erstellen wahlweise auch inkrementelle Karten aus Punktewolken. Anschließend evaluieren wir das System mit dem weit verbreiteten RGB-D-Benchmark.
Die Entwicklung der echtzeitfähigen Computergrafik ermöglicht mittlerweile immer realistischere Bilder und die Hardware kann dafür optimal ausgenutzt werden, wodurch immer glaubwürdigere Lichtverhältnisse simuliert werden können. Eine große Anzahl von Algorithmen, effizient implementiert auf der Grafikkarte (GPU, auch Grafikprozessor)), sind fähig komplexe Lichtsituationen zu simulieren. Effekternwie Schatten, Lichtbrechung und Lichtreflexion können mittlerweile glaubwürdig erzeugt werden. Besonders durch Reflexionen wird der Realismus der Darstellung erhöht, da sie glänzende Materialien, wie z.B. gebürstete Metalle, nasse Oberflächen, insbesondere Pfützen oder polierte Böden, natürlich erscheinen lassen. Dabei geben sie einen Eindruck der Materialeigenschaften, wie Rauheit oder Reflexionsgrad.rnAußerdem können Reflexionen vom Blickpunkt abhängen: Eine verregnete Straße zum Beispiel würde Licht, abhängig von der Entfernung des Betrachters reflektieren und verwaschene Lichtreflexe erzeugen. Je weiter der Betrachter von der Lichtquelle entfernt ist, desto gestreckter erscheinen diese. Ziel dieser Bachelorarbeit ist, eine Übersicht über existierende Render-Techniken für Reflexionen zu geben, um den aktuellen Stand der Technik abzubilden. Reflexion entsteht durch den Einfall von Licht auf Oberflächen, die dieses in eine andere Richtung zurückwerfen. Um dieses Phänomen zu verstehen, wird eine Auffassung von Licht benötigt. Kapitel 2.1 beschreibt daher ein physikalisches Modell von Licht, gefolgt von Kapitel 2.2, das anhand von Beispielen ästhetisch wirkender Reflexionseffekte aus der realenrnWelt und den Medien die Motivation dieser Arbeit darlegt. In Kapitel 3 soll die generelle Vorgehensweise beim Rendern von Reflexionen deutlich gemacht werden. Danach wird in Kapitel 4 eine grobe Übersicht über existierende Ansätze gegeben. In Abschnitt 5 werden dann drei wesentliche Algorithmen vorgestellt, die zur Zeit oft in Spiel- und Grafikengines verwendet werden: Screen Space Reflections (SSR), Parallax-corrected cube mapping (PCCM) und Billboard Reflections (BBR). Diese drei Ansätze wurden zusammen in einem Framework implementiert. Dieses wird in Kapitel 5 vorgestellt und erklärt, gefolgt von detaillierten Beschreibungen der drei Techniken. Nachdem ihre Funktionsweise erklärt wurde, werden die Ansätze analysiert und auf ihre visuelle Qualität sowie ihre Echtzeitfähigkeit getestet. Abschließend werden die einzelnen Verfahren miteinander verglichen, um ihre Vor- und Nachteile zu untersuchen. Außerdem werden die gewonnenen Erfahrungen beschrieben und Verbesserungsansätze vorgeschlagen. Danach wird ein kurzer Ausblick zur voraussichtlichen Entwicklung von Render-Techniken spekularer Effekte gegeben.
Objekterkennung ist ein gut erforschtes Gebiet bei bildbasiertem Rechnersehenrnund eine Vielzahl an Methoden wurden entwickelt. In letzter Zeit haben sich dabei Ansätze verbreitet, die auf dem Implicit Shape Model-Konzept basieren. Dabei werden Objekte zunächst in grundlegende visuelle Bestandteile aufgetrennt, die um örtliche Informationen erweitert werden. Das so generierte Objektmodell wird dann in der Objekterkennung genutzt, um unbekannte Objekte zu erkennen. Seit dem Aufkommen von erschwinglichen Tiefenkameras wie der Microsoft Kinect wurde jedoch die Objekterkennung mittels 3D-Punktwolken von zunehmender Bedeutung. Im Rahmen des Robotersehens in Innenräumen wird ein Verfahren entwickelt, welches auf vorhandenen Ansätze aufbaut und damit die Implicit Shape Model basierte Objekterkennung für die Verarbeitung von 3D-Punktwolken erweitert.
Die folgende Arbeit analysiert die Funktionsweise und Programmiermöglichkeiten von Compute Shadern. Dafür wird zunächst in Kapitel 2 eine Einführung in Compute Shader gegeben, in der gezeigt wird, wie diese funktionieren und wie sie programmiert werden können. Zusätzlich wird das Zusammenspiel von Compute Shadern und OpenGL 4.3 anhand zweier einführender Beispiele gezeigt. Kapitel 3 beschreibt dann eine N-Körper Simulation, welche implementiert wurde um die Rechenleistung von Compute Shadern und den Einsatz von gemeinsamen Speicher zu zeigen. Danach wird in Kapitel 4 gezeigt, inwiefern sich Compute Shader für physikalische Simulationen eignen und wo Probleme auftauchen können. In Kapitel 5 wird ein eigens konzipierter und entwickelter Algorithmus zur Erkennung von Linien in Bildern beschrieben und anschließend mit der Hough Transformation verglichen. Zuletzt wird in Kapitel 6 ein abschließendes Fazit gezogen.
We present a non-linear camera pose estimator, which is able to handle a combined input of point and line feature correspondences. For three or more correspondences, the estimator works on any arbitrary number and choice of the feature type, which provides an estimation of the pose on a preferably small and flexible amount of 2D-3D correspondences. We also give an analysis of different minimization techniques, parametrizations of the pose data, and of error measurements between 2D and 3D data. These will be tested for the usage of point features, lines and the combination case. The result shows the most stable and fast working non-linear parameter set for pose estimation in model-based tracking.
This paper introduces Vocville, a causal online game for learning vocabularies. I am creating this application for my master thesis of my career as a "Computervisualist" (computer visions) for the University of Koblenz - Landau. The application is an online browser game based on the idea of the really successful Facebook game FarmVille. The application is seperated in two parts; a Grails application manages a database which holds the game objects like vocabulary, a Flex/Flash application generates the actual game by using these data. The user can create his own home with everything in it. For creating things, the user has to give the correct translation of the object he wants to create several times. After every query he has to wait a certain amount of time to be queried again. When the correct answer is given sufficient times, the object is builded. After building one object the user is allowed to build others. After building enough objects in one area (i.e. a room, a street etc.) the user can activate other areas by translating all the vocabularies of the previous area. Users can also interact with other users by adding them as neighbors and then visiting their homes or sending them gifts, for which they have to fill in the correct word in a given sentence.
Tractography on HARDI data
(2011)
Diffusionsgewichtete Bildgebung ist eine wichtige Modalität in der klinischen Praxis. Sie stellt gegenwärtig die einzige Möglichkeit dar, nicht invasiv und in vivo Einblicke in das menschliche Gehirn zu erhalten. Die Einsatzgebiete dieser Technik sind sehr vielseitig. Sie wird zur Untersuchung des Gehirns, seiner Struktur, seiner Entwicklung und der Funktionsweisenseiner verschiedenen Areale einsetzt. Weiterhin spielt diese Modalität eine wichtige Rolle bei der Operationsplanung am Gehirn und der Untersuchung von Schlaganfall, Alzheimer und Multipler Sklerose. Diese Arbeit gibt eine kurze Einführung in die Bildgebungmittels MRT und geht auf die Entstehung diffusionsgewichtete Bilder ein. Darauf aufbauend wird der Diffusionstensor, die am meisten verbreitete Datenrepräsentation in der Diffusionsbildgebung, vorgestellt. Da die Repräsentation der Diffusion als Diffusionstensor erhebliche Einschränkungen darstellt, werden neue Methoden zur Datenrepräsentation vorgestellt und diskutiert. Diese neuen Methoden werden unter dem Begriff HARDI (Diffusionsbildgebung mit hoher Winkelauflösung, von engl. high angular resolution diffusion imaging) zusammengefasst. Weiterhin wird eine ausführliche Einführung in das Thema der Traktografie, der Rekonstruktion von Nervenbahnen im Gehirn, gegeben. Basierend auf diesem theoretischenWissen werden etablierte Algorithmen der Traktografie von Diffusionstensor- auf HARDI-Daten überführt. Dadurch wird die Rekonstruktion derNervenbahnen entscheidend verbessert. Es wird eine vollständig neue Methode vorgestellt, die in der Lage ist, Nervenbahnen sowohl auf einem Phantomdatensatz, als auch auf einem vom Menschen stammenden Gehirndatensatz zu rekonstruieren. Weiterhin wird ein neuartiger globaler Ansatz vorgestellt, um Voxel anhand ihrer Diffusionseigenschaften zu klassifizieren.
Texture-based text detection in digital images using wavelet features and support vector machines
(2010)
In dieser Bachelorarbeit wird ein neues texturbasiertes Verfahren zur Detektion von Texten in digitalen Bildern vorgestellt. Das Verfahren kann im wesentlichen in zwei Hauptaufgaben unterteilt werden, in Detektion von Textblöcken und Detektion von einzelnen Wörtern, wobei die einzelnen Wörter aus den detektierten Textblöcken extrahiert werden. Im Groben agiert das entwickelte Verfahren mit mehreren Support Vector Machines, die mit Hilfe von waveletbasierten Merkmalen mögliche Textregionen eines Bildes zu wirklichen Textregionen klassiffzieren. Die möglichen Textregionen werden dabei durch unterschiedlich ausgerichtete Kantenprojektionen bestimmt. Das Resultat des Verfahrens sind X/Y Koordinaten, Breite und Höhe von rechteckigen Regionen eines Bildes, die einzelne Wörter enthalten. Dieses Wissen kann weiterverarbeitet werden, beispielsweise durch eine Texterkennungssoftware, um an die wichtigen und sehr nützlichen Textinformationrneines Bildes zu gelangen.
Das Ziel dieser Studienarbeit ist es, einen Roboterarm in einen bestehenden Software-Stackrnzu integrieren, damit ein darauf basierender Roboter beim Wettbewerb RoboCup @Home teilnehmen kann. Der Haushaltsroboter Lisa (Lisa Is a Service Android) muss für den @Home-Wettbewerb unter anderem Gegenstände aus Regalen entnehmen und an Personen weiterreichen. Bisher war dafür nur ein Gripper, also ein an der mobilen Plattform in Bodennähe angebrachter "Zwicker" vorhanden. Nun steht dem Roboter ein "Katana Linux Robot" der Schweizer Firma Neuronics zur Verfügung, ein Roboter in Form eines Arms. Dieser wird auf LISA montiert und nimmt über verschiedene Schnittstellen Befehle entgegen. Er besteht aus sechs Gliedern mit entsprechend vielen Freiheitsgraden. Im Robbie-Softwarestack muss ein Treiber für diesen Arm integriert und eine Pfadplanung erstellt werden. Letztere soll bei der Bewegung des Arms sowohl Kollisionen mit Hindernissen vermeiden als auch natürlich wirkende Bewegungsabläufe erstellen.
Die Koloskopie ist der Goldstandard zur Aufspürung von gefährlichen Darmpolypen, die sich zu Krebs entwickeln können. In einer solchen Untersuchung sucht der Arzt in den vom Endoskop gelieferten Bildern nach Polypen und kann diese gegebenenfalls entfernen. Um den Arzt bei der Suche zu unterstützen, erforscht die Universität Koblenz-Landau zur Zeit Methoden, die zur automatischen Detektion von Polypen auf endoskopischen Bildern verwendet werden können. Wie auch bei anderen Systemen zur Mustererkennung werden hierzu zunächst Merkmale aus den Bildern extrahiert und mit diesen ein Klassifikator trainiert. Dieser kann dann für die Klassifikation von ihm unbekannten Bildern eingesetzt werden. In dieser Arbeit wurde das vorhandene System zur Polypendetektion um Merkmalsdetektoren erweitert und mit den bereits vorhandenen verglichen. Implementiert wurden Merkmale basierend auf der Diskreten Wavelet-Transformation, auf Grauwertübergangsmatrizen und auf Local Binary Patterns. Verschiedene Modifikationen dieser Merkmale wurden getestet und evaluiert.
Die Arbeit beschäftigt sich mit dem Einsatz moderner Grafikhardware (GPU) für die Visualisierung und Verarbeitung medizinischer Volumendaten. Die zunehmende Steigerung der Rechenleistung ermöglicht den Einsatz von Standardsystemen für Anwendungsgebiete, die bisher nur speziellen Workstations vorbehalten waren. Zusammen mit dem wesentlichen Vorteil von Grafikhardware Daten direkt anzeigen zu können, sind Verfahren wie visualisierungsgestütztes Berechnen ("visual computing") oder interaktives Steuern von Berechnungen ("computational steering") erst möglich geworden. Darauf wird anhand mehrerer Beispielanwendungen und umgesetzten Konzepten wie den "ray textures" im Detail eingegangen. Da die zu verarbeitenden und darzustellenden Datenmengen stetig ansteigen, ist aufgrund von Speicher- und Bandbreiteneinschränkungen eine kompakte Repräsentation der Daten notwendig. Während die Datenkompression selbst eingehend erforscht wurde, beschäftigt sich die vorliegende Arbeit mit Möglichkeiten, Berechnungen direkt auf den komprimierten Daten durchführen zu können. Dazu wurden verschiedene Algorithmenklassen identifiziert und in die Wavelet-Domäne übertragen. Mit Hilfe von speziellen Varianten der komprimierten Repräsentation ist eine effiziente Umsetzung grundlegender Bildverarbeitungsalgorithmen möglich und zeigt zugleich das Potential dieses Ansatzes auf. Aus technischer Sicht wurde im Laufe der Arbeit die GPU-basierte Programmierumgebung "Cascada" entwickelt. Sowohl die Einführung von objektorientierten Konzepten in die Shaderprogrammierung, als auch eine hierarchische Repräsentation von Berechnungs- und/oder Visualisierungsschritten vereinfacht den Einsatz von Grafikhardware ohne wesentliche Leistungseinbußen. Dies wird anhand verschiedener Implementationen in den jeweiligen Beiträgen und zwei klinischen Projekten im Bereich der Diagnoseunterstützung gezeigt. Hierbei geht es zum einen um die semi-automatische Segmentierung der Leber in niedrig aufgelösten MR-Datensätzen, zum anderen um Möglichkeiten zur Vermessung von abdominalen Aortenaneurysmen; jeweils unterstützt durch Grafikhardware. Darüber hinaus ermöglicht "cascada" auch die Erweiterung hinsichtlich aktueller Architekturen für den universellen Einsatz von Grafikhardware, sowie künftige Entwicklungen durch ein modulares Design.
In dieser Arbeit werden drei Verfahren zur Objektentfernung aus Bildern einander gegenübergestellt. Zwei der ausgewählten Verfahren stammen aus dem Bereich der sogenannten Inpainting-Verfahren, während das dritte dem Forschungsgebiet der medizinischen Bildverarbeitung entnommen ist. Die Evaluation dieser Verfahren zeigt ihre jeweiligen Vor- und Nachteile auf und prüft ihre Anwendbarkeit auf das spezifische Problem, ein Farbkalibriermuster aus strukturdominierten Bildern zu entfernen. Auf der Grundlage dieser Eigenschaften werden abschließend mehrere Erweiterungen vorgestellt, die eine verbesserte Anwendbarkeit auf das gestellte Problem erreichen.
Die automatische Detektion der Lage und Ausrichtung von Unterwasser-Kabeln oder -Pipelines in Kamerabildern ermöglicht es, Unterwasserfahrzeuge autonome Kontrollfahrten durchführen zu lassen. Durch Pflanzenwuchs auf und in der Nähe von Kabeln bzw. Pipelines wird deren visuelle Erfassung jedoch erschwert: Die Bestimmug der Lage über die Detektion von Kanten mit anschließender Linien-Extraktion schlägt oft fehl. Probabilistische Ansätze sind hier den deterministischen überlegen. Durch die Modellierung von Wahrscheinlichkeiten kann trotz geringer Anzahl von extrahierten Merkmalen eine Aussage über den Zustand des Systems getroffen werden. Diese Arbeit stellt ein neues auf Partikelfiltern basierendes Tracking-System für die Verfolgung von Kabeln und Pipelines in Bildsequenzen vor. Umfangreiche Experimente auf realistischen Unterwasser-Videos zeigen die Robustheit und Performanz des gewählten Ansatzes sowie Vorteile gegenüber vorangegangenen Arbeiten.
Computed tomography (CT) and magnetic resonance imaging (MRI) in the medical area deliver huge amounts of data, which doctors have to handle in a short time. These data can be visualised efficiently with direct volume rendering. Consequently most direct volume rendering applications on the market are specialised on medical tasks or integrated in medical visualisa- tion environments. Highly evolved applications for tasks like diagnosis or surgery simulation are available in this area. In the last years, however, another area is making increasing use of com- puted tomography. Companies like phoenix |x-ray, founded in 1999 pro- duce CT-scanners especially dedicated to industrial applications like non destructive material testing (NDT). Of course an application like NDT has different demands on the visualisation than a typical medical application. For example a typical task for non destructive testing would be to high- light air inclusions (pores) in a casting. These inclusions usually cover a very small area and are very hard to classify only based on their density value as this would also highlight the air around the casting. This thesis presents multiple approaches to improve the rendering of in- dustrial CT data, most of them based on higher dimensional transfer func- tions. Therefore the existing volume renderer application of VRVis was extended with a user interface to create such transfer functions and exist- ing render modes were adapted to profit from the new transfer functions. These approaches are especially suited to improve the visualisation of sur- faces and material boundaries as well as pores. The resulting renderings make it very easy to identify these features while preserving interactive framerates.
We introduce linear expressions for unrestricted dags (directed acyclic graphs) and finite deterministic and nondeterministic automata operating on them. Those dag automata are a conservative extension of the Tu,u-automata of Courcelle on unranked, unordered trees and forests. Several examples of dag languages acceptable and not acceptable by dag automata and some closure properties are given.
Zahlreiche Studien belegen, dass menschliche Bewegungen Informationen über den Akteur in sich bergen. Beobachter sind daher in der Lage, Dinge wie Persönlichkeit, Geschlecht und Gefühlslage allein aus Bewegungen von Menschen zu erkennen. Um dem Ziel nach glaubwürdigen und realistischen virtuellen Charakteren näher zu kommen, verbesserte sich in den letzten Jahren vorwiegend das Aussehen der Charaktere. Dank moderner Techniken und einer rapiden Entwicklung der Computer Hardware können heute visuell extrem realistische Charaktere in virtuellen Echtzeitumgebungen dargestellt werden. Trotz ihrer visuellen Qualität werden sie jedoch in interaktiven Umgebungen häufig als mechanisch wahrgenommen. Diese Störung der Illusion, einem lebendigen, Menschen ähnlichem Lebewesen gegen über zu stehen ist in einem mangelndem menschlichen Verhalten des virtuellen Charakters begründet. Daher können ausdrucksvolle Bewegungen, die einen emotionalen Zustand des Charakters vermitteln, dazu verhelfen dem Menschen ähnlichere und daher glaubwürdigere Charaktere zu realisieren. Im Rahmen dieser Diplomarbeit wird die Umsetzbarkeit eines Systems zur automatischen Generierung emotional expressiver Charakter Animationen untersucht. Übliche Techniken zur Erstellung von Animationen sind sehr aufwendig und zeitintensiv. Um alle möglichen Variationen von Bewegungen in einer interaktiven Umgebung zu erstellen kommen solche Ansätze daher nicht in Frage. Um interaktive Charakter zu ermöglichen, welche in der Lage sind ihre Gefühle zum Ausdruck zu bringen, wird daher diese Problematik im Zuge dieser Diplomarbeit behandelt werden. Einschlägige Literatur aus Forschungsgebieten, welche sich mit Emotionen und Bewegungen befassen werden im Rahmen dieser Arbeit untersucht. Eigenschaften, anhand derer Menschen Emotionen in Bewegungen erkennen, werden technisch in einem Animationssystem umgesetzt, um aus neutralen Animationen emotionale Bewegungen zu generieren. Abschliessend werden die erstellten Ergebnisanimationen in Tests ausgewertet in Bezug auf Erkennbarkeit der Emotionen und Qualität der Ergebnisse.