Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (27)
- Studienarbeit (17)
- Bachelorarbeit (13)
- Dissertation (8)
- Masterarbeit (6)
Schlagworte
- Bildverarbeitung (9)
- Robotik (7)
- Mustererkennung (3)
- 3D (2)
- Bildanalyse (2)
- Kamera (2)
- Klassifikation (2)
- Laserscanner (2)
- Mikroskopie (2)
- Roboter (2)
Institut
Die Erkennung von Fußgängern in digitalen Bildern ist von großem Interesse in der Entwicklung autonomer Systeme und der Interaktion von Computern mit ihrer Umgebung. Die Herausforderungen an ein solches System sind hoch, da die optische Erscheinung von Fußgängern stark variiert und die Umgebung unstrukturiert ist. In dieser Masterarbeit wird ein Standardverfahren aus der Forschung implementiert und erweitert. Dabei ist eine neue Erkenntnis, dass das Merkmal der Color Self-Similarity durch Vorberechnungen um den Faktor 4 beschleunigt werden kann. Das komplette Erkennungsystem wird in dieser Masterarbeit beschrieben und evaluiert, und der Source-Code unter einer Open Source Lizenz veröffσentlicht.
Die Zeitschrift c't stellte in der Ausgabe 02/2006 einen Bausatz für einen kleinen mobilen Roboter vor, den c't-Bot, der diese Studienarbeit inspirierte. Dieser Bausatz sollte die Basis eines Roboters darstellen, der durch eine Kamera erweitert und mit Hilfe von Bildverarbeitung in der Lage sein sollte, am RoboCupSoccer-Wettbewerb teilzunehmen. Während der Planungsphase veränderten sich die Ziele: Statt einem Fußballroboter sollte nun ein Roboter für die neu geschaffene RoboCup-Rescue-League entwickelt werden. In diesem Wettbewerb sollen Roboter in einer für sie unbekannten Umgebung selbstständig Wege erkunden, bzw. Personen in dieser Umgebung finden. Durch diese neue Aufgabenstellung war sofort klar, dass der c't-Bot nicht ausreichte, und es musste ein neuer Roboter entwickelt werden, der mittels Sensoren die Umgebung wahrnehmen, durch eine Kamera Objekte erkennen und mit Hilfe eines integrierten Computers diese Bilder verarbeiten sollte. Die Entstehung dieses Roboters ist das Thema dieser Studienarbeit.
Im Rahmen dieser Diplomarbeit wird ein Verfahren zur markerlosen Pose-Rekonstruktion vorgestellt. Die Modellierung des menschlichen Körpers geschieht auf Basis der Starrkörperphysik. Mittels eines probabilistischen Ansatzes wird das Modell in eine volumetrische Rekonstruktion der Szene eingepasst. Die hierfür zu bewältigende Suche in hochdimensionalen Zustandsräumen wird mittels eines Partikelfilters in Kombination mit Simulierter Abkühlung vorgenommen. Eine Berücksichtigung anthropometrischer Besonderheiten sowie kinematischer Grenzen wird zur weiteren Stützung des Verfahrens vorgenommen. Die vollständig Umsetzung des Verfahrens durch dreidimensionale Beobachtungs- und Messmodelle führt zu einer exakten Poserekonstruktion und vermeidet Mehrdeutigkeiten während der Auswertung.
Die zytologische Untersuchung des Knochenmarks dient der Abklärung von
Abweichungen des Differentialblutbildausstriches, zur Ursachenbestimmung bei Blutarmut (Anämie), dem Ausschluss eines Knochenmarkbefalls bei Lymphknotenvergrößerungen (Lymphomen) und wird zudem bei Verdacht auf Leukämie durchgeführt.
Selbst für erfahrene Hämatologen ist die manuelle Klassifikation von Knochenmarkzellen zeitaufwändig, fehleranfällig und subjektiv. Aus diesem Grund wurden im Rahmen dieser Arbeit neue Methoden der Bildverarbeitung und Mustererkennung für eine automatische Klassifikation von hämatopoetischen Zellen samt Vorverarbeitung für ein computer-assistiertes Mikroskopiesystem entwickelt, welche anhand einer einzigartig großen Referenzdatenbank evaluiert und ausgewertet wurden. Die vorgeschlagenen Bildanalyseverfahren für Knochenmarkpräparate, welche insbesondere die Detektion der Ausstriche, die Bestimmung von relevanten Regionen, die Lokalisierung und Segmentierung von einzelnen Zellen sowie die Merkmalsextraktion und Klassifikation automatisieren, liefern die Basis für das weltweit erste System zur automatischen, morphologischen Analyse von Knochenmarkpräparaten für die Leukämiediagnose und stellen daher einen wichtigen Beitrag für eine bessere und effizientere Patientenversorgung in der Zukunft dar.
Für diese Studienarbeit können zwei Schwerpunkte genannt werden. Einerseits sollten verschiedene Verfahren zur Fluchtpunktschätzung aus Wissenschaft und Forschung eingänglich untersucht und erörtert werden. Dies im Hinblick auf ein detaillierteres Analyseverfahren, das die Möglichkeit bietet, mehrere Gebäudeseiten automatisiert entzerren zu können. Andererseits sollten sich die gewünschten Verbesserungen in das bereits vorhandene Gesamtsystem des Projekts Ornamente eingliedern, um so das Endergebnis der Klassifizierung von Ornamenten zu verbessern. Daraus entstanden die in Kapitel 1 genannten Hauptaufgaben. Neben dem TAM-Verfahren, dass im vorhandenen Teilprozess der Entzerrung bereits zum Einsatz kam, wurde in Kapitel 2 das Verfahren KHT nach Tuytelaars beschrieben. Ansätze der KHT waren im Bestehenden zu erkennen, wie sich während der anfänglichen Einarbeitung in das Themengebiet Fluchtpunktfindung und dem Gesamtsystem der Ornamentklassifizierung herausstellte. Allerdings waren einige Aspekte, wie sie von Tytelaars et al. in [TGPM98] zur KHT beschrieben sind, nicht enthalten. Der erste Lösungsansatz zur Entzerrung von mehreren Gebäudeseiten bestand darin, die KHT unabhängig von allen Prozessen des Gesamtsystems zu implementieren, um so die Genauigkeit der Fluchtpunktdetektion zu erhöhen. Mit dieser detaillierteren Fluchtpunktfindung sollte das bereits bestehende Modul der Entzerrung zu besseren Ergebnissen führen. Um die Entzerrung für sich alleine nutzen zu können, musste sie vorerst von der vorhandenen Fluchtpunktschätzung isoliert werden. Während der in Kapitel 3 beschriebenen Umstrukturierung und Trennung der beiden Prozesse wurde das eigentliche Problem der Verarbeitung von mehreren Gebäudeseiten erkannt. Nicht die Fluchtpunkte und die Verfahren für ihre Detektion sind ausschlaggebend, weitere Ebenen im Bild erkennen zu können. Vielmehr verhindert dies der fehlende Rückschluss von extrahierten Kanten auf die Lage, Größe und Anzahl der im Bild vorhandenen Gebäudeseiten. Wären hierzu Informationen bekannt, könnten, wie auch für ornamentale Bereiche, ROIs festgelegt werden, die mit einer hohen Wahrscheinlichkeit eine abgegrenzte Gebäudeseite beinhalten. Um diese daraufhin zu entzerren, kann das jetzt isolierte Programm zur Entzerrung genutzt werden. Die KHT umzusetzen, wurde als Lösungsweg verworfen und der eigene Lösungsansatz "Level of Detail" aus Kapitel 3 wurde entwickelt. Die entstandenen Programme wurden wie gefordert in PUMA, der "Programmierumgebung für die Musteranalyse" eingebunden. Wie die Test aus Kapitel 4 jedoch zeigen, konnte damit keine Verbesserung erzielt werden.
Erweiterung der Spielegraphik von Cam2Dance durch den Einsatz von Shadern und komplexen Modellen
(2006)
3D-Kurven-Skelette werden oft verwendet, da sie im Vergleich zu der von Harry Blum 1967 vorgestellten Medialen Axen Transformation, eine Repäsentation der Objekt-Oberfläche darstellen, die in der Weiterverarbeitung weniger kompex und rechenintensiv ist.
Diese Arbeit hat das Ziel, ein Approximation-Verfahren für 3D-Kurven-Skelette zu entwickeln, welches die oben genannten Vorteile enthält und sich auf verschiedene Szenarien von Objektoberflächen-Daten anwenden lässt.
Diese Diplomarbeit präsentiert ein interaktives System, welches die Vorzüge eines handelsüblichen Whiteboards mit denen eines Computers kombiniert. Die Inhalte des Whiteboards werden von einer Kamera aufgenommen, vom Computer verarbeitet und für eine Applikation als Eingabe verwendet bzw. durch geeignete Grafiken ergänzt. Dadurch erweitert das Whiteboard die Benutzeroberfläche des Computers. Der Anwender ist in der Lage über handgezeichnete Primitive (Viereck, Dreieck, Kreis) bzw. Kombinationen der Primitive das entwickelte interaktive Spiel zu spielen.
Personenverfolgungssysteme bestehen oft aus teurer und meist an Personen befestigter Trackinghardware, die die Bewegungsfreiheit der Personen deutlich einschränkt. Durch die in den letzten Jahrzehnten angestiegene Rechenleistung der Computersysteme ist es möglich, Bilddaten von digitalen Video-, Foto- oder Webkameras in Echtzeit auszuwerten. Dadurch erschließen sich neue Möglichkeiten, die eine Verfolgung von Personen auch ohne die störrige Trackinghardware erlauben. In dieser Arbeit soll ein System zum Verfolgen von Personen auschließlich unter Zuhilfenahme einer Videokamera und eines Computers, also ohne Marker, entwickelt werden.
3D-Modelle werden heute in vielen Bereichen wie Multimedia Anwendungen, Robotik oder der Filmindustrie immer wichtiger. Besonders interessant ist dabei die Erstellung eines 3D-Modells aus einer monokularen Bilderserie, da die hierfür nötigen Kameras immer günstiger, kleiner und ausgereifter produziert werden. Geeignetere Kameras werden in immer mehr Geräten wie Smartphones, Tablet-PCs, Autos etc. verbaut, wodurch sich ein großes Potential für die Verwendung dieser Rekonstruktionstechnik ergibt.
Als Grundlage dieser Arbeit dient eine mit einer kalibrierten Kamera aufgenommene Bilderserie. Aus dieser werden 2D-Punktkorrespondenzen, mit den verbreiteten SURF-Features oder den A-KAZE-Features gewonnen. Aufbauend auf den 2D-Punktkorrespondenzen kann aus diesen mit Hilfe verschiedener Algorithmen ein 3D-Modell in Form einer Punktwolke und Kameraposen rekonstruiert werden.
Um Fehler in dem entstandenen Modell gering zu halten, wird insbesondere aufrnden Bündelausgleich zur Fehlerminimierung eingegangen. Anschließend wird dasrnneben dieser Arbeit entstandene Programm zur 3D-Rekonstuktion und Visualisierung des 3D-Modells erläutert. Das implementierte System wird anschließend anhand von Statistiken evaluiert und die hieraus gewonnenen Erkentnisse präsentiert.
Abschließend werden die Ergebnisse dieser Arbeit zusammengefasst und einrnAusblick auf mögliche Weiterentwicklungen gegeben.
Quadrokopter sind Helikopter mit vier in einer Ebene angeordneten Rotoren. Kleine unbemannte Modelle, die oft nur eine Schubkraft von wenigen Newton erzeugen können, sind im Spielzeug- und Modellbaubereich beliebt, werden aber auch von Militär und Polizei als Drohne für Aufklärungs- und Überwachungsaufgaben eingesetzt. Diese Diplomarbeit befasst sich mit den theoretischen Grundlagen der Steuerung eines Quadrokopters und entwickelt darauf aufbauend eine kostengünstige Steuerplatine für einen Modellquadrokopter.
Die theoretischen Grundlagen enthalten eine Untersuchung der Dynamik eines frei fliegenden Quadrokopters, bei der Bewegungsgleichungen hergeleitet und mit den Ergebnissen verglichen werden, die in "Design and control of quadrotors with application to autonomous flying" ([Bou07]) vorgestellt wurden. Weiterhin wird die Funktionsweise verschiedener Sensoren beschrieben, die zur Bestimmung der aktuellen räumlichen Ausrichtung geeignet sind, und es werden Verfahren besprochen, mit denen die Ausrichtung aus den Messwerten dieser Sensoren abgeschätzt werden kann. Zusätzlich wird in den Schiefkörper der Quaternionen eingeführt, in dem dreidimensionale Rotationen kompakt dargestellt und effizient verkettet werden können.
Daran anschließend wird die Entwicklung einer einfachen Steuerplatine beschrieben, die sowohl einen autonomen Schwebeflug als auch Fernsteuerung ermöglicht. Die Platine wurde auf einem X-Ufo-Quadrokopter der Firma Silverlit entwickelt und getestet, der daher ebenfalls vorgestellt wird. Die eingesetzten Bauteile und deren Zusammenspiel werden besprochen. Dabei ist insbesondere die WiiMotionPlus hervorzuheben, die als kostengünstiges Gyrosensormodul verwendet wird. Daneben werden verschiedene Aspekte der Steuersoftware erläutert: die Auswertung der Sensordaten, die Zustandsschätzung mit Hilfe des expliziten komplementären Filters nach Mahony et al. ([MHP08]), die Umsetzung des Ausrichtungsreglers sowie die Erzeugung der Steuersignale für die Motoren. Sowohl die Steuersoftware als auch Schaltplan und Platinenlayout der Steuerplatine liegen dieser Arbeit auf einer CD bei. Schaltplan und Platinenlayout sind zusätzlich im Anhang der Arbeit abgedruckt.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
In dieser Arbeit präsentieren wir Methoden zum Schätzen von Kamerabewegungen einer RGB-D-Kamera in sechs Freiheitsgraden und dem Erstellen von 3D-Karten. Als erstes werden die RGB- und Tiefendaten registriert und synchronisiert. Nach der Vorverarbeitung extrahieren wir FAST-Merkmale in zwei aufeinander folgenden Bildern. Daraus wird eine Korrespondenzmenge erstellt und Ausreißer werden herausgefiltert. Anschließend projizieren wir die Korrespondenzmenge in 3D, um die Bewegung aus 3D-3D-Korrespondezen mittels Least-Squares zu bestimmen. Weiterhin präsentieren wir Methoden, um 3D-Karten aus Bewegungsschätzungen und RGB-D-Daten zu erstellen. Dafür benutzen wir das OctoMap-Framework und erstellen wahlweise auch inkrementelle Karten aus Punktewolken. Anschließend evaluieren wir das System mit dem weit verbreiteten RGB-D-Benchmark.
Zur Erstellung von 3-D-Oberflächenmodellen real existierender Objekte wird häufig sehr teure Hardware eingesetzt, z.B. 3-D-Laser-Range-Scanner. Da diese keine Grauwert- oder Farbinformationen erfassen können, muss das Objekt zur Wiedergabe farbiger Strukturen zusätzlich abfotografiert und mit den Bildern registriert werden. Die Arbeit entwickelt demgegenüber ein Verfahren zum Einsatz eines kalibrierten Stereokamerasystems. Aus den erhaltenen Sequenzen zweidimensionaler Stereobilder kann ein texturiertes 3-D-Mesh rekonstruiert werden. Im Vergleich zum Einsatz eines Scanners ist dieses Verfahren zwar weniger genau, aber dafür preisgünstiger, platzsparend und schneller einsetzbar. Den Schwerpunkt der Arbeit bilden die Fusionierung der Tiefenkarten und die Erstellung eines texturierten Meshs aus diesen.
In dieser Studienarbeit wurde ein Algorithmus vorgestellt, um sich mit einem Roboter in unbekanntem Gebiet zu lokalisieren und gleichzeitig eine Karte von der Umgebung zu erstellen. Die Lokalisation des Roboters geschieht auf 2D Ebene und errechnet die (x, y, θ)T Position des Roboters zu jedem Zeitpunt t inkrementell. Der Algorithmus baut auf dem FastSLAM 2.0 Algorithmus auf und wurde abgeändert, um eine möglichst genaue Lokalisation in Gebäuden zu ermöglichen. Hierfür wurden mehrere verschieden Arten von möglichen Landmarken untersucht, verglichen und kombiniert. Schwerpunkt dieser Studienarbeit war das Einarbeiten in das Extended Kalman-Filter und die Selektion von Landmarken, die für den Einsatz in Gebäuden geeignet sind.
Das Web ist ein wesentlicher Bestandteil der Transformation unserer Gesellschaft in das digitale Zeitalter. Wir nutzen es zur Kommunikation, zum Einkaufen und für unsere berufliche Tätigkeit. Der größte Teil der Benutzerinteraktion im Web erfolgt über Webseiten. Daher sind die Benutzbarkeit und Zugänglichkeit von Webseiten relevante Forschungsbereiche, um das Web nützlicher zu machen. Eyetracking ist ein Werkzeug, das in beiden Bereichen hilfreich sein kann. Zum einen um Usability-Tests durchzuführen, zum anderen um die Zugänglichkeit zu verbessern. Es kann verwendet werden, um die Aufmerksamkeit der Benutzer auf Webseiten zu verstehen und Usability-Experten in ihrem Entscheidungsprozess zu unterstützen. Darüber hinaus kann Eyetracking als Eingabemethode zur Steuerung einer Webseite verwendet werden. Dies ist besonders nützlich für Menschen mit motorischen Beeinträchtigungen, die herkömmliche Eingabegeräte wie Maus und Tastatur nicht benutzen können. Allerdings werden Webseiten aufgrund von Dynamiken, d. h. wechselnden Inhalten wie animierte Menüs und Bilderkarussells, immer komplexer. Wir brauchen allgemeine Ansätze zum Verständnis der Dynamik auf Webseiten, die eine effiziente Usability-Analyse und eine angenehme Interaktion mit Eyetracking ermöglichen. Im ersten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Analyse von dynamischen Webseiten. Eyetracking kann verwendet werden, um die Blicke von Nutzern auf Webseiten zu erfassen. Die Blicke zeigen einem Usability-Experten, welche Teile auf der Webseite gelesen, überflogen oder übersprungen worden sind. Die Aggregation von Blicken ermöglicht einem Usability-Experten allgemeine Eindrücke über die Aufmerksamkeit der Nutzer, bevor sie sich mit dem individuellen Verhalten befasst. Dafür müssen alle Blicke entsprechend des von den Nutzern erlebten Inhalten verstanden werden. Die Benutzererfahrung wird jedoch stark von wechselnden Inhalten beeinflusst, da diese einen wesentlichen Teil des angezeigten Bildes ausmachen können. Wir grenzen unterschiedliche Zustände von Webseiten inklusive wechselnder Inhalte ab, so dass Blicke von mehreren Nutzern korrekt aggregiert werden können. Im zweiten Teil dieser Arbeit berichten wir über unsere Forschung zur Verbesserung der blickbasierten Interaktion mit dynamischen Webseiten. Eyetracking kann verwendet werden, um den Blick während der Nutzung zu erheben. Der Blick kann als Eingabe zur Steuerung einer Webseite interpretiert werden. Heutzutage wird die Blicksteuerung meist zur Emulation einer Maus oder Tastatur verwendet, was eine komfortable Bedienung erschwert. Es gibt wenige Webbrowser-Prototypen, die Blicke direkt zur Interaktion mit Webseiten nutzen. Diese funktionieren außerdem nicht auf dynamischen Webseiten. Wir haben eine Methode entwickelt, um Interaktionselemente wie Hyperlinks und Texteingaben effizient auf Webseiten mit wechselnden Inhalten zu extrahieren. Wir passen die Interaktion mit diesen Elementen für Eyetracking an, so dass ein Nutzer bequem und freihändig im Web surfen kann. Beide Teile dieser Arbeit schließen mit nutzerzentrierten Evaluationen unserer Methoden ab, wobei jeweils die Verbesserungen der Nutzererfahrung für Usability-Experten bzw. für Menschen mit motorischen Beeinträchtigungen untersucht werden.
Der Zweck dieser Bachelorarbeit ist es Lisa - dem Roboter, der von der Arbeitsgruppe Aktives an der Universität Koblenz-Landau, Campus Koblenz, für die Teilnahme an der @home Liga des Robocups entwickelt wurde - das Zeichnen beizubringen. Dies erfordert die Erweiterung des Robbie Software Frameworks und den Einsatz der Hardware-Komponenten des Roboters. Unter Beachtung eines möglichen Einsatzes für die Open Challenge des RoboCups @home, sind die Ziele ein Blatt Papier mit Lisas optischem Sensor, einer Microsoft Kinect, zu erkennen und auf diesem zu Zeichnen unter Benutzung des Neuronics Katana Roboterarms. Zusätzlich muss eine Stifthalterung für den Gripper des Arms konstruiert werden.
Beschrieben in dieser Arbeit sind die notwendigen Schritte, um eine Zeichenvorlage in Bewegungen des Arms umzuwandeln, welche wiederum dazu führen, dass ein Bild gezeichnet wird durch den am Arm montierten Stift auf dem Blatt Papier, welches vom optischen Sensor durch Bilderkennung entdeckt wurde. Ermöglicht wurde es ein Object, welches aus einer beliebigen Anzahl gerader Linien besteht und aus einer SVG-Datei gelesen wird, auf ein weißes Blatt Papier zu zeichnen, das auf einer dunkleren Oberfläche erkannt wird, umgeben von anderen Gegenständen und Texturen.
Das Ziel dieser Masterarbeit ist, dass der Roboter Lisa komplexe Befehle verarbeiten und Information aus einem Kommando extrahieren kann, die benötigt werden, um eine komplexe Aufgabe als eine Sequenz von kleineren Aufgaben auszuführen. Um dieses Ziel zu erreichen wird das Bild, das Lisa von ihrer Umgebung hat, mit semantischen Informationen angereichert. Diese Informationen werden in ihre Karte eingefügt werden. Es wird angenommen, dass der komplexe Befehl bereits geparst worden ist. Deshalb ist die Verarbeitung des Inputs, um daraus einen geparsten Befehl zu erstellen, kein Teil dieser Masterarbeit. Die Karten, die Lisa aufbaut, werden mit semantischen Anmerkungen annotiert. Zu diesen Anmerkungen gehört jede Art von Informationen, die nützlich zur Ausführung allgemeiner Aufgaben sein könnte. Das kann zumBeispiel eine hierarchische Klassifizierungen von Orten, Objekten und Flächen sein. Die Abarbeitung des Befehls mit den zugehörigen Informationen über die Umgebung wird eine Sequenz von Aufgaben auslösen. Diese Aufgaben sind die bereits implementierten Fähigkeiten von Lisa, wie zum Beispiel Objekterkennung oder Navigation. Das Ziel dieser Masterarbeit ist aber nicht nur, die vorhandenen Aufgaben zu nutzen, sondern auch das Hinzufügen von neuen Aufgaben zu erleichtern.
Texture-based text detection in digital images using wavelet features and support vector machines
(2010)
In dieser Bachelorarbeit wird ein neues texturbasiertes Verfahren zur Detektion von Texten in digitalen Bildern vorgestellt. Das Verfahren kann im wesentlichen in zwei Hauptaufgaben unterteilt werden, in Detektion von Textblöcken und Detektion von einzelnen Wörtern, wobei die einzelnen Wörter aus den detektierten Textblöcken extrahiert werden. Im Groben agiert das entwickelte Verfahren mit mehreren Support Vector Machines, die mit Hilfe von waveletbasierten Merkmalen mögliche Textregionen eines Bildes zu wirklichen Textregionen klassiffzieren. Die möglichen Textregionen werden dabei durch unterschiedlich ausgerichtete Kantenprojektionen bestimmt. Das Resultat des Verfahrens sind X/Y Koordinaten, Breite und Höhe von rechteckigen Regionen eines Bildes, die einzelne Wörter enthalten. Dieses Wissen kann weiterverarbeitet werden, beispielsweise durch eine Texterkennungssoftware, um an die wichtigen und sehr nützlichen Textinformationrneines Bildes zu gelangen.