Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (25)
- Studienarbeit (16)
- Bachelorarbeit (9)
- Dissertation (4)
- Masterarbeit (3)
Sprache
- Deutsch (57) (entfernen)
Schlagworte
- Bildverarbeitung (8)
- Robotik (6)
- Mustererkennung (3)
- 3D (2)
- Kamera (2)
- Laserscanner (2)
- Mikroskopie (2)
- Segmentierung (2)
- 2-D (1)
- 3-D-Laserscannen (1)
Institut
Die Erkennung von Fußgängern in digitalen Bildern ist von großem Interesse in der Entwicklung autonomer Systeme und der Interaktion von Computern mit ihrer Umgebung. Die Herausforderungen an ein solches System sind hoch, da die optische Erscheinung von Fußgängern stark variiert und die Umgebung unstrukturiert ist. In dieser Masterarbeit wird ein Standardverfahren aus der Forschung implementiert und erweitert. Dabei ist eine neue Erkenntnis, dass das Merkmal der Color Self-Similarity durch Vorberechnungen um den Faktor 4 beschleunigt werden kann. Das komplette Erkennungsystem wird in dieser Masterarbeit beschrieben und evaluiert, und der Source-Code unter einer Open Source Lizenz veröffσentlicht.
In dieser Studienarbeit wurde ein Algorithmus vorgestellt, um sich mit einem Roboter in unbekanntem Gebiet zu lokalisieren und gleichzeitig eine Karte von der Umgebung zu erstellen. Die Lokalisation des Roboters geschieht auf 2D Ebene und errechnet die (x, y, θ)T Position des Roboters zu jedem Zeitpunt t inkrementell. Der Algorithmus baut auf dem FastSLAM 2.0 Algorithmus auf und wurde abgeändert, um eine möglichst genaue Lokalisation in Gebäuden zu ermöglichen. Hierfür wurden mehrere verschieden Arten von möglichen Landmarken untersucht, verglichen und kombiniert. Schwerpunkt dieser Studienarbeit war das Einarbeiten in das Extended Kalman-Filter und die Selektion von Landmarken, die für den Einsatz in Gebäuden geeignet sind.
In der Bildverarbeitung werden zunehmend Algorithmen unter Verwendung von prägnanten Merkmalen implementiert. Prägnante Merkmale können sowohl für die optische Kameraposebestimmung als auch für die Kalibrierung von Stereokamerasystemen verwendet werden. Für solche Algorithmen ist die Qualität von Merkmalen in Bildern ein entscheidender Faktor. In den letzten Jahren hat sich an dieser Stelle das von D. Lowe 2004 vorgestellte SIFT-Verfahren hervorgetan. Problematisch bei der Anwendung dieses Verfahrens ist seine hohe Komplexität und der daraus resultierende hohe Rechenaufwand. Um das Verfahren zu beschleunigen, wurden bereits mehrere Implementationen veröffentlicht, die teils weiterhin ausschließlich die CPU nutzen, teils neben der CPU auch die GPU zur Berechnung bestimmter Teilbereiche des SIFT verwenden. Diese Implementationen gilt es zu hinterfragen. Ebenso ist die Qualität der Merkmale zu untersuchen, um die Verwendbarkeit von SIFT-Merkmalen für andere Bereiche der Bildverarbeitung gewährleisten zu können. Zur Visualisierung der Ergebnisse wurde eine GUI erstellt.
Große Gebiete lassen sich auf Grund von Schattenbildung und begrenzter Scanreichweite nicht mit einem einzigen 3D-Scan aufnehmen. Um konsistente dreidimensionale Karten dieses Gebietes zu erzeugen müssen also mehrere Scans zusammengefügt werden. Soll dieses Matchen der Scans automatisch geschehen, so kann es wegen fehlerhaften Translations- und Rotationsdaten, die die unterschiedlichen Positionen der Scans beschreiben,zu inkonsistenten Karten kommen. Um dies zu vermeiden wird in dieser Arbeit ein schneller Iterativ Closest Points Algorithmus implementiert, der versucht, Fehler in diesen sechs Freiheitsgraden zu korrigieren. Das Verfahren soll im Rahmen dieser Arbeit in die schon vorhandene Software unseres Roboters eingebunden werden.
In der vorliegenden Arbeit werden verschiedene Ansätze zur Kalibrierung eines optischen Mikroskops behandelt. Dabei werden sowohl State-of-the-Art-Verfahren der Literatur implementiert als auch Verbesserungen an diesen Algorithmen durchgeführt, um die Ergebnisse stabiler und die Kalibrierung flexibler zu gestalten. Hierzu werden Algorithmen entwickelt, die einzelne Parameter der Kalibrierung vorkalibrieren können und somit das Endergebnis der eigentlichen Kalibrierung verbessern. Des weiteren werden diverse Techniken behandelt, die Störungen in den Eingabedaten unterdrücken und dadurch eine korrekte Modellschätzung für die Kalibrierung ermöglichen. Die Algorithmen werden dabei sowohl auf realen als auch auf synthetischen Daten untersucht und miteinander verglichen.
Das Ziel dieser Arbeit war die Verbesserung einer Positions- und Orientierungsangabe einer Kamera mit Hilfe von bildbasierten Registrierungsverfahren. Des Weiteren sollte herausgefunden werden, inwieweit eine Beschleunigung der Registrierung erreicht werden kann, wenn die Berechnung der Abstandsmaße auf den Grafikprozessor ausgelagert wird. Für das in dieser Arbeit angestrebte System sollte herausgefunden werden, ob und in welchem Maße eine Verbesserung der ursprünglichen Positionsangabe eingetreten ist. Mit dieser Arbeit wurde erreicht, dass ein lauffähiges und in zahlreichen Tests evaluiertes System unter dem Betriebssystem Linux zur Verfügung steht.
Der Wettbewerb um die besten Technologien zur Realisierung des autonomen Fahrens ist weltweit in vollem Gange.
Trotz großer Anstrengungen ist jedoch die autonome Navigation in strukturierter und vor allem unstrukturierter Umgebung bisher nicht gelöst.
Ein entscheidender Baustein in diesem Themenkomplex ist die Umgebungswahrnehmung und Analyse durch passende Sensorik und entsprechende Sensordatenauswertung.
Insbesondere bildgebende Verfahren im Bereich des für den Menschen sichtbaren Spektrums finden sowohl in der Praxis als auch in der Forschung breite Anwendung.
Dadurch wird jedoch nur ein Bruchteil des elektromagnetischen Spektrums genutzt und folglich ein großer Teil der verfügbaren Informationen zur Umgebungswahrnehmung ignoriert.
Um das vorhandene Spektrum besser zu nutzen, werden in anderen Forschungsbereichen schon seit Jahrzehnten \sog spektrale Sensoren eingesetzt, welche das elektromagnetische Spektrum wesentlich feiner und in einem größeren Bereich im Vergleich zu klassischen Farbkameras analysieren. Jedoch können diese Systeme aufgrund technischer Limitationen nur statische Szenen aufnehmen. Neueste Entwicklungen der Sensortechnik ermöglichen nun dank der \sog Snapshot-Mosaik-Filter-Technik die spektrale Abtastung dynamischer Szenen.
In dieser Dissertation wird der Einsatz und die Eignung der Snapshot-Mosaik-Technik zur Umgebungswahrnehmung und Szenenanalyse im Bereich der autonomen Navigation in strukturierten und unstrukturierten Umgebungen untersucht. Dazu wird erforscht, ob die aufgenommen spektralen Daten einen Vorteil gegenüber klassischen RGB- \bzw Grauwertdaten hinsichtlich der semantischen Szenenanalyse und Klassifikation bieten.
Zunächst wird eine geeignete Vorverarbeitung entwickelt, welche aus den Rohdaten der Sensorik spektrale Werte berechnet. Anschließend wird der Aufbau von neuartigen Datensätzen mit spektralen Daten erläutert. Diese Datensätze dienen als Basis zur Evaluation von verschiedenen Klassifikatoren aus dem Bereich des klassischen maschinellen Lernens.
Darauf aufbauend werden Methoden und Architekturen aus dem Bereich des Deep-Learnings vorgestellt. Anhand ausgewählter Architekturen wird untersucht, ob diese auch mit spektralen Daten trainiert werden können. Weiterhin wird die Verwendung von Deep-Learning-Methoden zur Datenkompression thematisiert. In einem nächsten Schritt werden die komprimierten Daten genutzt, um damit Netzarchitekturen zu trainieren, welche bisher nur mit RGB-Daten kompatibel sind. Abschließend wird analysiert, ob die hochdimensionalen spektralen Daten bei der Szenenanalyse Vorteile gegenüber RGB-Daten bieten
Bei der subjektiven Interpretation von Mammographien werden Studien zufolge 10% bis 30% von Brustkrebserkrankungen im Frühstadium nicht erkannt. Eine weitere Fehlrate beziffert die fälschlich als möglichen Brustkrebs eingestuften Herde; diese Fehlrate wird mit 35% angegeben. Ein solche Fehleinschätzung hat für die Patientin weitreichende negative Folgen. Sie wird einer unnötigen psychischen und körperlichen Belastung ausgesetzt. Um solche Fehleinschätzungen zu minimieren, wird zunehmend die Computer-aided Detection/Diagnosis (CAD) eingesetzt. Das Ziel dieser Arbeit ist die Evaluation von Methoden multivariater Datenanalyse, eingesetzt zur Diagnose von Herdbefunden. Die aus der Gesichtserkennung bekannten Methoden Eigenfaces und Fisherfaces werden auf Mammographieaufnahmen angewendet, um eine Einordnung von Herdbefunden nach benign oder malign zu tätigen. Eine weitere implementierte Methode wird als Eigenfeature Regularization and Extraction bezeichnet. Nach einer Einführung zum medizinischen Hintergrund und zum aktuellen Stand der computer-assistierten Detektion/Diagnose werden die verwendete Bilddatenbank vorgestellt, Normierungsschritte aufgeführt und die implementierten Methoden beschrieben. Die Methoden werden der ROC-Analyse unterzogen. Die Flächen unterhalb der ROC-Kurven dienen als Maß für die Aussagekraft der Methoden. Die erzielten Ergebnisse zeigen, dass alle implementierten Methoden eine schwache Aussagekraft haben. Dabei wurden die Erwartungen an die Fisherface- und ERE-Methode nicht erfüllt. Die Eigenface-Methode hat, angewendet auf Herdbefunde in Mammogrammen, die höchsten AUC-Werte erreicht. Die Berücksichtigung der Grauwertnormierung in der Auswertung zeigt, dass die qualitativen Unterschiede der Mammogramme nicht ausschlaggebend für die Ergebnisse sind.
Die Ermittlung der Position und Orientierung einer Kamera aus Punktkorrespondenzen zwischen 3D-Positionen und deren Bildpositionen ist im Rechnersehen unter dem Begriff Poseschätzung bekannt. Viele moderne Anwendungen profitieren von dem Wissen über die Lage einer Kamera im Raum zum Zeitpunkt der Bildentstehung. Für eine robuste Schätzung der Pose wird in dieser Arbeit zunächst anhand eines Stereoalgorithmus aus einer Bildserie ein Modell in Form einer Menge von SIFT-Merkmalen erstellt. Bei der Modellerstellung kommt eine handelsübliche monokulare Kamera zum Einsatz, die frei Hand geführt werden kann. Es ist dafür kein Wissen über die Position der Kamera während der Modellerstellung nötig. In einem zweiten Schritt wird die Pose einer Kamera bestimmt, deren Bild teilweise Inhalte des zuvor erstellten Modells aufweist. Die Zuordnungen der im Bild gefundenen SIFT-Merkmale zu den Modellmerkmalen mit bekannter 3D-Position bilden die Basis der linearen Optimierungsverfahren, die zur Lösung des Poseproblems angewandt werden. Das System beruht dabei auf einer zuvor kalibrierten Kamera und der manuellen Selektion geeigneter SIFT-Merkmale zur Initialisierung der Epipolargeometrie während des Modellaufbaus.
Die Forschung im Bereich der modellbasierten Objekterkennung und Objektlokalisierung hat eine vielversprechende Zukunft, insbesondere die Gebäudeerkennung bietet vielfaltige Anwendungsmöglichkeiten. Die Bestimmung der Position und der Orientierung des Beobachters relativ zu einem Gebäude ist ein zentraler Bestandteil der Gebäudeerkennung.
Kern dieser Arbeit ist es, ein System zur modellbasierten Poseschätzung zu entwickeln, das unabhängig von der Anwendungsdomäne agiert. Als Anwendungsdomäne wird die modellbasierte Poseschätzung bei Gebäudeaufnahmen gewählt. Vorbereitend für die Poseschätzung bei Gebäudeaufnahmen wird die modellbasierte Erkennung von Dominosteinen und Pokerkarten realisiert. Eine anwendungsunabhängige Kontrollstrategie interpretiert anwendungsspezifische Modelle, um diese im Bild sowohl zu lokalisieren als auch die Pose mit Hilfe dieser Modelle zu bestimmen. Es wird explizit repräsentiertes Modellwissen verwendet, sodass Modellbestandteilen Bildmerkmale zugeordnet werden können. Diese Korrespondenzen ermöglichen die Kamerapose aus einer monokularen Aufnahme zurückzugewinnen. Das Verfahren ist unabhängig vom Anwendungsfall und kann auch mit Modellen anderer rigider Objekte umgehen, falls diese der definierten Modellrepräsentation entsprechen. Die Bestimmung der Pose eines Modells aus einem einzigen Bild, das Störungen und Verdeckungen aufweisen kann, erfordert einen systematischen Vergleich des Modells mit Bilddaten. Quantitative und qualitative Evaluationen belegen die Genauigkeit der bestimmten Gebäudeposen.
In dieser Arbeit wird zudem ein halbautomatisches Verfahren zur Generierung eines Gebäudemodells vorgestellt. Das verwendete Gebäudemodell, das sowohl semantisches als auch geometrisches Wissen beinhaltet, den Aufgaben der Objekterkennung und Poseschätzung genügt und sich dennoch an den bestehenden Normen orientiert, ist Voraussetzung für das Poseschätzverfahren. Leitgedanke der Repräsentationsform des Modells ist, dass sie für Menschen interpretierbar bleibt. Es wurde ein halbautomatischer Ansatz gewählt, da die automatische Umsetzung dieses Verfahrens schwer die nötige Präzision erzielen kann. Das entwickelte Verfahren erreicht zum einen die nötige Präzision zur Poseschätzung und reduziert zum anderen die Nutzerinteraktionen auf ein Minimum. Eine qualitative Evaluation belegt die erzielte Präzision bei der Generierung des Gebäudemodells.
Im Rahmen dieser Diplomarbeit wird ein Verfahren zur markerlosen Pose-Rekonstruktion vorgestellt. Die Modellierung des menschlichen Körpers geschieht auf Basis der Starrkörperphysik. Mittels eines probabilistischen Ansatzes wird das Modell in eine volumetrische Rekonstruktion der Szene eingepasst. Die hierfür zu bewältigende Suche in hochdimensionalen Zustandsräumen wird mittels eines Partikelfilters in Kombination mit Simulierter Abkühlung vorgenommen. Eine Berücksichtigung anthropometrischer Besonderheiten sowie kinematischer Grenzen wird zur weiteren Stützung des Verfahrens vorgenommen. Die vollständig Umsetzung des Verfahrens durch dreidimensionale Beobachtungs- und Messmodelle führt zu einer exakten Poserekonstruktion und vermeidet Mehrdeutigkeiten während der Auswertung.
Mit der Microsoft Kinect waren die ersten Aufnahmen von synchronisierten Farb- und Tiefendaten (RGB-D) möglich, ohne hohe finanzielle Mittel aufwenden zu müssen und neue Möglichkeiten der Forschung eröffneten sich. Mit fortschreitender Technik sind auch mobile Endgeräte in der Lage, immer mehr zu leisten. Lenovo und Asus bieten die ersten kommerziell erwerblichen Geräte mit RGB D-Wahrnehmung an. Mit integrierten Funktionen der Lokalisierung, Umgebungserkennung und Tiefenwahrnehmung durch die Plattform Tango von Google gibt es bereits die ersten Tests in verschiedenen Bereichen des Rechnersehens z.B. Mapping. In dieser Arbeit wird betrachtet, inwiefern sich ein Tango Gerät für die Objekterkennung eignet. Aus den Ausgangsdaten des Tango Geräts werden RGB D-Daten extrahiert und für die Objekterkennung verarbeitet. Es wird ein Überblick über den aktuellen Stand der Forschung und gewisse Grundlagen bezüglich der Tango Plattform gegeben. Dabei werden existierende Ansätze und Methoden für eine Objekterkennung auf mobilen Endgeräten untersucht. Die Implementation der Erkennung wird anhand einer selbst erstellten Datenbank von RGB-D Bildern gelernt und getestet. Neben der Vorstellung der Ergebnisse werden Verbesserungen und Erweiterungen für die Erkennung vorgeschlagen.
Online Handschrifterkennung chinesischer Schriftzeichen auf androidfähigen mobilen Endgeräten
(2014)
Um mobile Wörterbücher oder Übersetzer zu verwenden, braucht es eine Eingabe. Diese muss zuvor verarbeitet werden, um nutzbar zu sein. Für chinesische Zeichen bietet sich die Handschrift an, da die Schrift hauptsächlich aus Piktogrammen und Ideogrammen besteht.
In dieser Bachelorarbeit wird ein prototypisches Erkennungssystem auf einem mobilen Endgerät implementiert. Die Erkennung soll dabei online und somit während des Schreibens erfolgen. Dies kann dem Benutzer Zeit ersparen, indem verschiedene erkannte Vorschläge zur Laufzeit gegeben werden.
Es werden Grundlagen erläutert und ein Überblick über den aktuellen Stand der Forschung gegeben. Ein Ansatz wird ausgewählt und implementiert, der möglichst schnell ist und wenig Speicherplatz erfordert. Die Implementation wird getestet und es wird gezeigt, dass es möglich ist, eine schnelle Erkennung auf einem kleinen Gerät laufen zu lassen. Es werden Verbesserungen und Erweiterungen vorgeschlagen, sowie ein Ausblick gegeben.
Orientierung aus Silhouetten
(2010)
Anhand der sogenannten "Analyse durch Synthese" soll in der folgenden Qualifikationsarbeit versucht werden, zum Zeitpunkt einer Aufnahme auf dem Campus der Universität Koblenz die Orientierung der Kamera zu bestimmen. Die Lösungsidee für diese Problemstellung liegt in Form eines merkmalsbasierten Ansatzes vor. Zu diesem Zweck ist die grobe Position im 3D-Campusmodell der Universität Koblenz zum Zeitpunkt der entsprechenden Aufnahme gegeben. Um das Bild einer realen Aufnahme mit einem künstlichen Bild des 3D-Modells vergleichen zu können, ist ein Ähnlichkeitsmaß notwendig, welches die Ähnlichkeit zwischen diesen beiden Bildern mit einem Wert ausdrückt. Der Vergleich erfolgt anhand der Silhouette der einzelnen Bilder, während die Orientierung der Kamera mit Hilfe eines nicht linearen Opitimierungsverfahrens bestimmt wird.
Personenverfolgungssysteme bestehen oft aus teurer und meist an Personen befestigter Trackinghardware, die die Bewegungsfreiheit der Personen deutlich einschränkt. Durch die in den letzten Jahrzehnten angestiegene Rechenleistung der Computersysteme ist es möglich, Bilddaten von digitalen Video-, Foto- oder Webkameras in Echtzeit auszuwerten. Dadurch erschließen sich neue Möglichkeiten, die eine Verfolgung von Personen auch ohne die störrige Trackinghardware erlauben. In dieser Arbeit soll ein System zum Verfolgen von Personen auschließlich unter Zuhilfenahme einer Videokamera und eines Computers, also ohne Marker, entwickelt werden.
In dieser Arbeit wird die Umsetzung und Modifikation des Verfahrens von Finlayson et al. zur Schattenentfernung in einzelnen Farbbildern unter Verwendung des Retinex-Algorithmus vorgestellt. Für die benötigte Detektion von Schattenkanten wurde ein Verfahren von Finlayson et al. umgesetzt und angepasst. Die erforderliche Kamerakalibrierung wurde dabei nicht mit Tageslicht, sondern unter Verwendung künstlicher Lichtquellen realisiert. Anhand von Campus-Bildsequenzen wird ein qualitativer Vergleich des umgesetzten Verfahrens mit dem von Weiss zur Schattenentfernung in Bildserien vorgenommen. Außerdem wird ein erster Ansatz vorgestellt, wie Verfahren zur Schattenentfernung quantitativ bewertet werden können. Die Erzeugung der benötigten Ground-truth-Daten wird mit Hilfe von Laboraufnahmen realisiert, sodass keine manuelle Segmentierung von Schatten erforderlich ist. Anhand der Ergebnisse von Experimenten wird gezeigt, inwieweit die definierten Maße eine Bewertung und einen Vergleich der beiden Verfahren erlauben.
Die Erstellung räumlicher Abbilder aus planaren Ansichten gewinnt immer mehr Bedeutung in der modernen Medizintechnik. 3D-Rekonstruktionen haben wesentlich zur besseren Detektion,wie auch zu Optimierung und Innovation in der Diagnostik und Behandlungsmethodik bestimmter Krankheitsbilder beigetragen. Durch die Verfahren der Bildverarbeitung ist es möglich, aus Bildsequenzen eine 3D-Abbildung der gefilmten Szene zu erstellen. Ziel dieser Diplomarbeit soll es sein, zu untersuchen, inwieweit sich aus der Aufnahmetechnik aus einer Reihe unkalibrierter Endoskopiebilder weitere Rückschlüsse über die Oberflächenbeschaffenheit des betrachteten Gewebes ziehen lassen. Hierbei wird das Phänomen zugrundegelegt, daß bei der Aufnahme der Bilder Glanzlichter auftreten, wenn die Beleuchtung am Kamerakopf orthogonal zur Gewebeoberfläche auftrifft. Diese Glanzlichter geben daher implizit Aufschluss über die Oberflächenorientierung des Gewebes. Aufgabe ist es nun, diese Glanzlichter in einer Reihe von unkalibrierten Endoskopieaufnahmen zu finden, die Bilder aus der Sequenz einander zuzuordnen, also Korrespondenzen zwischen den Bildern zu finden, und unter Einbeziehung der Kamerageometrie Rückschlüsse auf die Gewebeoberfläche zu ziehen. Zuerst müssen hierfür die Glanzlichter in den Einzelbildern der Sequenz gefunden werden. Dazu wird ein Verfahren verwendet, welches die Glanzlichter durch eine Zerlegung des HSV-Farbraums detektiert und deren Mittelpunkt errechnet. Um die Kamerageometrie zu schätzen, werden mihilfe eines Punktverfolgers Punktkorrespondenzen zwischen den Einzelbildern erstellt, anhand derer sich die Fundamentalmatrix durch RANSAC errechnen läßt. Unter Anwendung eines Autokalibrierungsverfahrens werden aus den geschätzten Fundamentalmatrizen dann in einem abschließenden Schritt die internen Kameraparameter ermittelt. So sollte möglich sein, die Glanzlichter durch eine Sequenz von Bildern zu verfolgen und die Oberflächennormalen einem Referenzbild zuzuordnen.
In dieser Studienarbeit wird ein Verfahren zur Extraktion eines Oberflächenbegrenzungsmodells aus einem Tiefenbild vorgestellt. Das Modell beschreibt die im Tiefenbild dargestellte Szene durch die Geometrie und die Topologie der planaren Flächen, die in der Szene gefunden werden. Die Geometrie ist gegeben durch die Angabe der Ebenengleichungen der gefundenen Flächen sowie der 3D-Koordinaten der Eckpunkte der Polygone, die diese Flächen beschreiben. Die Informationen über die Topologie der Szene besteht aus einer Nachbarschaftsliste, die für jede Flaeche angibt, über welche Kante diese Fläche mit welcher anderen Fläche verbunden ist. Aufbauend auf einem Algorithmus zur Tiefenbildsegmentierung aus PUMA werden die Polygone bestimmt, die die Flächen der Szene beschreiben. Anschließend wird versucht, diese Polygone über Kanten und Eckpunkte zu verbinden, um ein möglichst geschlossenes Modell der Szene zu erhalten.
In der vorliegenden Arbeit wird dem Leser aufgezeigt, welche Methoden zur Kurvenskelettierung von 3D-Modellen existieren und welche Ansätze bei bisherigen Forschungsergebnissen von Skelettierungsmethoden in der Bildverarbeitung verfolgt werden. Der Autor geht im weiteren Verlauf auf einen aktuellen Kurvenskelettierungsansatz ein. Die Implementierung dieses Ansatzes wird detailliert analysiert und ein algorithmisches Verfahren entwickelt, um die Kurvenskelette der analysierten Methode hin zu 3D-Skeletten einer eigenen Kurvenskelettdefinition zu modifizieren, mit der es möglich ist, Merkmalsvektoren für Ähnlichkeitsvergleiche zwischen 3D-Objekten zu berechnen. Es wird eine Ground Truth durch menschliche Ähnlichkeitsbestimmung gebildet. Des Weiteren wird auf Grundlage der modifizierten Skelette eine Ähnlichkeitsberechnung durchgeführt. Danach wird die menschliche Ähnlichkeitsbestimmung der algorithmisch berechneten Ähnlichkeitsberechnung gegenüber gestellt und nach bekannten Verfahren aus dem Information Retrieval ausgewertet.
Das sichere Befahren von komplexen und unstruktierten Umgebungen durch autonome Roboter ist seit den Anfängen der Robotik ein Problem und bis heute eine Herausforderung geblieben. In dieser Studienarbeit werden drei Verfahren basierend auf 3-D-Laserscans, Höhenvarianz, der Principle Component Analysis (PCA) und Tiefenbildverarbeitung vorgestellt, die es Robotern ermöglichen, das sie umgebende Terrain zu klassifizieren und die Befahrbarkeit zu bewerten, sodass eine sichere Navigation auch in Bereichen möglich wird, die mit reinen 2-D-Laserscannern nicht sicher befahren werden können. Hierzu werden 3-D-Laserscans mit einem 2-D-Laserscanner erstellt, der auf einer Roll-Tilt-Einheit basierend auf Servos montiert ist, und gleichzeitig auch zur Kartierung und Navigation eingesetzt wird. Die einzeln aufgenommenen 2-D-Scans werden dann anhand des Bewegungsmodells der Roll-Tilt-Einheit in ein emeinsames 3-D-Koordinatensystem transformiert und mit für die 3-D-Punktwolkenerarbeitung üblichen Datenstrukturen (Gittern, etc.) und den o.g. Methoden klassifiziert. Die Verwendung von Servos zur Bewegung des 2-D-Scanners erfordert außerdem eine Kalibrierung und Genauigkeitsbetrachtung derselben, um zuverlässige Ergebnisse zu erzielen und Aussagen über die Qualität der 3-D-Scans treffen zu können. Als Ergebnis liegen drei Implementierungen vor, welche evolutionär entstanden sind. Das beschriebene Höhenvarianz-Verfahren wurde im Laufe dieser Studienarbeit von einem Principle Component Analysis basierten Verfahren, das bessere Ergebnisse insbesondere bei schrägen Untergründen und geringer Punktdichte bringt, abgelöst. Die Verfahren arbeiten beide zuverlässig, sind jedoch natürlich stark von der Genauigkeit der zur Erstellung der Scans verwendeten Hardware abhängig, die oft für Fehlklassifikationen verantwortlich war. Die zum Schluss entwickelte Tiefenbildverarbeitung zielt darauf ab, Abgründe zu erkennen und tut dies bei entsprechender Erkennbarkeit des Abgrunds im Tiefenbild auch zuverlässig.
Zur Erstellung von 3-D-Oberflächenmodellen real existierender Objekte wird häufig sehr teure Hardware eingesetzt, z.B. 3-D-Laser-Range-Scanner. Da diese keine Grauwert- oder Farbinformationen erfassen können, muss das Objekt zur Wiedergabe farbiger Strukturen zusätzlich abfotografiert und mit den Bildern registriert werden. Die Arbeit entwickelt demgegenüber ein Verfahren zum Einsatz eines kalibrierten Stereokamerasystems. Aus den erhaltenen Sequenzen zweidimensionaler Stereobilder kann ein texturiertes 3-D-Mesh rekonstruiert werden. Im Vergleich zum Einsatz eines Scanners ist dieses Verfahren zwar weniger genau, aber dafür preisgünstiger, platzsparend und schneller einsetzbar. Den Schwerpunkt der Arbeit bilden die Fusionierung der Tiefenkarten und die Erstellung eines texturierten Meshs aus diesen.
Es gibt einige Gaze Tracking Systeme, sowohl high- als auch low-cost. Low-cost Systeme gehen meist mit low-resolution Kameras einher. Da hier die Bildqualität schlechter ist, müssen die Algorithmen umso besser arbeiten. Aber wie soll man die Algorithmen die der Erkennung der Blickrichtung dienen, testen, wenn die Bildqualität geringer ist und man nie korrekte Aussagen über die Referenzpunkte treffen kann? Hier greift die Idee dieser Arbeit: Mit Hilfe synthetischer Augenbilder testet man die betreffenden Algorithmen und kann diese, da die Referenzpunkte bekannt sind, analysieren. Eine Veränderung der Komplexität dieser Bilder z. B. mit Hilfe eines zuschaltbaren Gaußrauschens oder eines weiteren Reflektionspunktes, macht es möglich, diese in Stufen der Realität anzunähern. Im Idealfall kann man die Algorithmen mit den aus den Testreihen gewonnenen Erkenntnissen verbessern und bei Anwendung innerhalb eines low-resolution Systems dessen Genauigkeit erhöhen.
Für diese Studienarbeit können zwei Schwerpunkte genannt werden. Einerseits sollten verschiedene Verfahren zur Fluchtpunktschätzung aus Wissenschaft und Forschung eingänglich untersucht und erörtert werden. Dies im Hinblick auf ein detaillierteres Analyseverfahren, das die Möglichkeit bietet, mehrere Gebäudeseiten automatisiert entzerren zu können. Andererseits sollten sich die gewünschten Verbesserungen in das bereits vorhandene Gesamtsystem des Projekts Ornamente eingliedern, um so das Endergebnis der Klassifizierung von Ornamenten zu verbessern. Daraus entstanden die in Kapitel 1 genannten Hauptaufgaben. Neben dem TAM-Verfahren, dass im vorhandenen Teilprozess der Entzerrung bereits zum Einsatz kam, wurde in Kapitel 2 das Verfahren KHT nach Tuytelaars beschrieben. Ansätze der KHT waren im Bestehenden zu erkennen, wie sich während der anfänglichen Einarbeitung in das Themengebiet Fluchtpunktfindung und dem Gesamtsystem der Ornamentklassifizierung herausstellte. Allerdings waren einige Aspekte, wie sie von Tytelaars et al. in [TGPM98] zur KHT beschrieben sind, nicht enthalten. Der erste Lösungsansatz zur Entzerrung von mehreren Gebäudeseiten bestand darin, die KHT unabhängig von allen Prozessen des Gesamtsystems zu implementieren, um so die Genauigkeit der Fluchtpunktdetektion zu erhöhen. Mit dieser detaillierteren Fluchtpunktfindung sollte das bereits bestehende Modul der Entzerrung zu besseren Ergebnissen führen. Um die Entzerrung für sich alleine nutzen zu können, musste sie vorerst von der vorhandenen Fluchtpunktschätzung isoliert werden. Während der in Kapitel 3 beschriebenen Umstrukturierung und Trennung der beiden Prozesse wurde das eigentliche Problem der Verarbeitung von mehreren Gebäudeseiten erkannt. Nicht die Fluchtpunkte und die Verfahren für ihre Detektion sind ausschlaggebend, weitere Ebenen im Bild erkennen zu können. Vielmehr verhindert dies der fehlende Rückschluss von extrahierten Kanten auf die Lage, Größe und Anzahl der im Bild vorhandenen Gebäudeseiten. Wären hierzu Informationen bekannt, könnten, wie auch für ornamentale Bereiche, ROIs festgelegt werden, die mit einer hohen Wahrscheinlichkeit eine abgegrenzte Gebäudeseite beinhalten. Um diese daraufhin zu entzerren, kann das jetzt isolierte Programm zur Entzerrung genutzt werden. Die KHT umzusetzen, wurde als Lösungsweg verworfen und der eigene Lösungsansatz "Level of Detail" aus Kapitel 3 wurde entwickelt. Die entstandenen Programme wurden wie gefordert in PUMA, der "Programmierumgebung für die Musteranalyse" eingebunden. Wie die Test aus Kapitel 4 jedoch zeigen, konnte damit keine Verbesserung erzielt werden.
Das Ziel dieser Bachelorarbeit ist es, die diskrete Fouriertransformation, die diskrete Kosinustransformation und die Hadamard-Walsh Transformation im Kontext der Bildverarbeitung zu vermitteln und diese unter ausgewählten Gesichtspunkten zu vergleichen. Hierfür soll allgemein das Wissen für den aus der linearen Algebra stammenden Begriff der Transformation gefördert werden und auf die Bildverarbeitung übertragen werden. Anschließend wird das Verständnis für die Fouriertransformation sukzessive aufgebaut und mit den beiden weiteren Transformationen verknüpft. Abschließend werden die Transformationen verglichen und ihr Nutzen innerhalb der Bildverarbeitung erläutert.
Diese Arbeit behandelt einen Vergleich verschiedener Algorithmen zur Vorhersage der Bewegung einer Person bei der Ausführung einer sportlichen Aktivität. Als Grundlage für die Vorhersage dienen Bildströme, welche mittels zweier Hochgeschwindigkeitskameras aufgezeichnet wurden. Im Laufe der Arbeit werden Vor- und Nachteile der umgesetzten Ansätze theoretisch erläutert und anschliessend an einer Reihe von Messergebnissen nachgewiesen. Für die Messungen wurde eine Anwendung eingesetzt, welche ebenfalls im Rahmen der Arbeit entwickelt wurde. Neben realen Aufnahmen, wurden zusätzlich synthetische Bildfolgen betrachtet, um Erkenntnisse über das Verhalten der betrachteten Algorithmen unter optimalen Bedingungen zu erlangen.