004 Datenverarbeitung; Informatik
Filtern
Erscheinungsjahr
Dokumenttyp
- Diplomarbeit (185)
- Bachelorarbeit (162)
- Studienarbeit (136)
- Ausgabe (Heft) zu einer Zeitschrift (126)
- Masterarbeit (81)
- Dissertation (48)
- Konferenzveröffentlichung (6)
- Buch (Monographie) (1)
- Habilitation (1)
- Bericht (1)
Sprache
- Deutsch (543)
- Englisch (201)
- Mehrsprachig (3)
Volltext vorhanden
- ja (747) (entfernen)
Schlagworte
- Bildverarbeitung (13)
- Augmented Reality (10)
- Robotik (10)
- Computergraphik (9)
- Computersimulation (9)
- OpenGL (8)
- Routing (8)
- Semantic Web (8)
- Computerspiel (7)
- Informatik (7)
Institut
- Fachbereich 4 (270)
- Institut für Computervisualistik (222)
- Institut für Informatik (114)
- Institut für Wirtschafts- und Verwaltungsinformatik (104)
- Institut für Management (48)
- Institut für Softwaretechnik (47)
- Institute for Web Science and Technologies (34)
- Institut für Integrierte Naturwissenschaften (4)
- An-Institute (1)
In dieser Arbeit werden die Möglichkeiten der Echtzeitvisualisierung von
OpenVDB-Dateien untersucht. Die Grundlagen von OpenVDB, dessen
Möglichkeiten, und NanoVDB, der GPU-Schnittstelle, werden erforscht.
Es wird ein System entwickelt, welches PNanoVDB, die Grafik-APIPortierung
von OpenVDB, verwendet. Außerdem werden Techniken
zur Verbesserung und Beschleunigung eines Einzelstrahlansatzes zur
Strahlenverfolgung getestet und angepasst. Um eine Echtzeitfähigkeit
zu realisieren, werden zwei Einzelstreuungsansätze implementiert, von
denen einer ausgewählt, weiter untersucht und optimiert wird.
Dies ermöglicht potenziellen Nutzern eine direkte Rückmeldung über
ihre Anpassungen zu erhalten, sowie die Möglichkeit, alle Parameter zu
ändern, um einen freien Gestaltungsprozess zu gewährleisten.
Neben dem visuellen Rendering werden auch entsprechende Benchmarks
gesammelt, um verschiedene Verbesserungsansätze zu vergleichen und
deren Relevanz zu beweisen. Um eine optimale Nutzung zu erreichen,
wird auf die Rendering-Zeiten und den Speicherverbrauch auf der GPU
geachtet. Ein besonderes Augenmerk wird auf die Integrierbarkeit und
Erweiterbarkeit des Programms gelegt, um eine einfache Integration in
einen bestehenden Echtzeit-Renderer wie U-Render zu ermöglichen.
Soziale Netzwerke sind allgegenwärtige Strukturen, die wir jeden Tag generieren und bereichern, während wir uns über Plattformen der sozialen Medien, E-Mails und jede andere Art von Interaktion mit Menschen verbinden. Während diese Strukturen für uns nicht greifbar sind, sind sie sehr wichtige Informationsträger. Zum Beispiel kann die politische Neigung unserer Freunde ein Näherungswert sein, um unsere eigenen politischen Präferenzen zu identifizieren. Gleichermaßen
kann die Kreditwürdigkeit unserer Freunde entscheidend bei der Gewährung oder Ablehnung unserer eigenen Kredite sein. Diese Erklärungskraft wird bei der Gesetzgebung, bei Unternehmensentscheidungen und in der Forschung genutzt, da sie maschinellen Lerntechniken hilft, genaue Vorhersagen zu treffen. Diese Verallgemeinerungen kommen jedoch häufig nur der Mehrheit der Menschen zugute, welche die allgemeine Struktur des Netzwerks prägen, und benachteiligen unterrepräsentierte Gruppen, indem sie ihre Mittel und Möglichkeiten begrenzen. Daher ist es wichtig zuerst zu verstehen, wie sich soziale Netzwerke bilden, um dann zu überprüfen, inwieweit ihre Mechanismen der Kantenbildung dazu beitragen, soziale Ungleichheiten in Algorithmen des maschinellen Lernens zu verstärken.
Zu diesem Zweck schlage ich im ersten Teil dieser Arbeit HopRank und Janus vor, zwei Methoden um die Mechanismen der Kantenbildung in realen ungerichteten sozialen Netzwerken zu charakterisieren. HopRank ist ein Modell der Daten-Hamsterei in Netzwerken. Sein Schlüsselkonzept ist ein gezinkter zufälliger Wanderer, der auf Übergangswahrscheinlichkeiten zwischen K-Hop-Nachbarschaften basiert. Janus ist ein Bayessches Rahmenwerk, mit dem wir plausible Hypothesen der Kantenbildung in Fällen identifizieren und bewerten können, in denen Knoten zusätzliche Daten enthalten. Im zweiten Teil dieser Arbeit untersuche ich die Auswirkungen dieser Mechanismen - welche die Kantenbildung in sozialen Netzwerken erklären - auf das maschinelle Lernen. Insbesondere untersuche ich den Einfluss von Homophilie, bevorzugter Bindung, Kantendichte, Anteil von Minderheiten und der Richtung von Verbindungen sowohl auf Leistung als auch auf systematische Fehler von kollektiver Klassifizierung und auf die Sichtbarkeit von Minderheiten in Top-K-Rängen. Meine Ergebnisse zeigen eine starke Korrelation zwischen der Netzwerkstruktur und den Ergebnissen des maschinellen Lernens. Dies legt nahe, dass die systematische Diskriminierung spezieller Personen: (i) durch den Netzwerktyp vorweggenommen und (ii) durch strategisches Verbinden im Netzwerk verhindert werden kann.
Semantic-Web-Technologien haben sich als Schlüssel für die Integration verteilter und heterogener Datenquellen im Web erwiesen, da sie die Möglichkeit bieten, typisierte Verknüpfungen zwischen Ressourcen auf dynamische Weise und nach den Prinzipien von sogenannten Dataspaces zu definieren. Die weit verbreitete Einführung dieser Technologien in den letzten Jahren führte zu einer großen Menge und Vielfalt von Datensätzen, die als maschinenlesbare RDF-Daten veröffentlicht wurden und nach ihrer Verknüpfung das sogenannte Web of Data bilden. Angesichts des großen Datenumfangs werden diese Verknüpfungen normalerweise durch Berechnungsmethoden generiert, den Inhalt von RDF-Datensätzen analysieren und die Entitäten und Schemaelemente identifizieren, die über die Verknüpfungen verbunden werden sollen. Analog zu jeder anderen Art von Daten müssen Links die Kriterien für Daten hoher Qualität erfüllen (z. B. syntaktisch und semantisch genau, konsistent, aktuell), um wirklich nützlich und leicht zu konsumieren zu sein. Trotz der Fortschritte auf dem Gebiet des maschinellen Lernens ist die menschliche Intelligenz für die Suche nach qualitativ hochwertigen Verbindungen nach wie vor von entscheidender Bedeutung: Menschen können Algorithmen trainieren, die Ausgabe von Algorithmen in Bezug auf die Leistung validieren, und auch die resultierenden Links erweitern. Allerdings sind Menschen – insbesondere erfahrene Menschen – nur begrenzt verfügbar. Daher kann die Ausweitung der Datenqualitätsmanagementprozesse von Dateneigentümern/-verlegern auf ein breiteres Publikum den Lebenszyklus des Datenqualitätsmanagements erheblich verbessern.
Die jüngsten Fortschritte bei Human Computation und bei Peer-Production-Technologien eröffneten neue Wege für Techniken zur Verwaltung von Mensch-Maschine-Daten, die es ermöglichten, Nicht-Experten in bestimmte Aufgaben einzubeziehen und Methoden für kooperative Ansätze bereitzustellen. Die in dieser Arbeit vorgestellten Forschungsarbeiten nutzen solche Technologien und untersuchen Mensch-Maschine-Methoden, die das Management der Verbindungsqualität im Semantic Web erleichtern sollen. Zunächst wird unter Berücksichtigung der Dimension der Verbindungsgenauigkeit eine Crowdsourcing Methode zur Ontology Alignment vorgestellt. Diese Methode, die auch auf Entitäten anwendbar ist, wird als Ergänzung zu automatischen Ontology Alignment implementiert. Zweitens werden neuartige Maßnahmen zur Dimension des Informationsgewinns eingeführt, die durch die Verknüpfungen erleichtert werden. Diese entropiezentrierten Maßnahmen liefern Datenmanagern Informationen darüber, inwieweit die Entitäten im verknüpften Datensatz Informationen in Bezug auf Entitätsbeschreibung, Konnektivität und Schemaheterogenität erhalten. Drittens wenden wir Wikidata - den erfolgreichsten Fall eines verknüpften Datensatzes, der von einer Gemeinschaft von Menschen und Bots kuratiert, verknüpft und verwaltet wird - als Fallstudie an und wenden deskriptive und prädiktive Data Mining-Techniken an, um die Ungleichheit der Teilnahme und den Nutzerschwung zu untersuchen. Unsere Ergebnisse und Methoden können Community-Managern helfen, Entscheidungen darüber zu treffen, wann/wie mit Maßnahmen zur Nutzerbindung eingegriffen werden soll. Zuletzt wird eine Ontologie zur Modellierung der Geschichte der Crowd-Beiträge auf verschiedenen Marktplätzen vorgestellt. Während der Bereich des Mensch-Maschine-Datenmanagements komplexe soziale und technische Herausforderungen mit sich bringt, zielen die Beiträge dieser Arbeit darauf ab, zur Entwicklung dieses noch aufstrebenden Bereichs beizutragen.
Aktuell gibt es in den Geisteswissenschaften eine Vielzahl von digitalen Werkzeugen, wie beispielsweise Annotations-, Visualisierungs-oder Analyseanwendungen, welche Forscherinnen bei ihrer Arbeitunterstützen und ihnen neue Möglichkeiten zur Bearbeitung unterschiedlicher Forschungsfragen bieten. Allerdings bleibt die Nutzung dieser Werkzeuge stark hinter den Erwartungen zurück. In der vorliegenden Arbeit werden im Rahmen einer Design-Science-Theorie zwölf Verbesserungsmaßnahmen entwickelt, um der fehlenden Nutzungsakzeptanz entgegenzuwirken. Durch die Implementierungen der entwickelten Design-Science-Theorie, können SoftwareentwicklerInnen die Akzeptanz ihrer digitalen Werkzeuge, im geisteswissenschaftlichen Kontext, steigern.
Softwaresprachen und Technologien zu verstehen, die bei der Entwicklung einer Software verwendet werden, ist eine alltägliche Herausforderung für Software Engineers. Textbasierte Dokumentationen und Codebeispiele sind typische Hilfsmittel, die zu einem besseren Verständnis führen sollen. In dieser Dissertation werden verschiedene Forschungsansätze beschrieben, wie existierende Textpassagen und Codebeispiele identifiziert und miteinander verbunden werden können. Die Entdeckung solcher bereits existierender Ressourcen soll dabei helfen Softwaresprachen und Technologien auf einem konzeptionellen Level zu verstehen und zu vergleichen. Die Forschungsbeiträge fokussieren sich auf die folgenden Fragen, die später präzisiert werden. Welche existierenden Ressourcen lassen sich systematisch identifizieren, um strukturiertes Wissen zu extrahieren? Wie lassen sich die Ressourcen extrahieren? Welches Vokabular wird bereits in der Literatur verwendet, um konzeptionelles Wissen zur Struktur und Verwendung einer Software auszudrücken? Wie lassen sich Beiträge auf Wikipedia wiederverwenden? Wie können Codebeispiele zur Verwendung von ausgewählten Technologien auf GitHub gefunden werden? Wie kann ein Modell, welches Technologieverwendung repräsentiert, reproduzierbar konstruiert werden? Zur Beantwortung der Forschungsfragen werden qualitative Forschungsmethoden verwendet, wie zum Beispiel Literaturstudien. Des Weiteren werden Methoden entwickelt und
evaluiert, um relevante Artikel auf Wikipedia, relevante Textpassagen in der Literatur und Codebeispiele auf GitHub zu verlinken. Die theoretischen Beiträge werden in Fallstudien evaluiert. Die folgenden wissenschaftlichen Beiträge werden dabei erzielt: i.) Eine Referenzsemantik zur Formalisierung von Typen und Relationen in einer sprachfokussierten Beschreibung von Software; ii.) Ein Korpus bestehend aus Wikipedia Artikeln zu einzelnen Softwaresprachen; iii) Ein Katalog mit textuell beschriebenen Verwendungsmustern einer Technologie zusammen mit Messergebnissen zu deren Frequenz auf GitHub; iv.) Technologiemodelle, welche sowohl mit verschiedenen existierenden Codebeispielen als auch mit Textpassagen verknüpft sind.
On the recognition of human activities and the evaluation of its imitation by robotic systems
(2023)
This thesis addresses the problem of action recognition through the analysis of human motion and the benchmarking of its imitation by robotic systems.
For our action recognition related approaches, we focus on presenting approaches that generalize well across different sensor modalities. We transform multivariate signal streams from various sensors to a common image representation. The action recognition problem on sequential multivariate signal streams can then be reduced to an image classification task for which we utilize recent advances in machine learning. We demonstrate the broad applicability of our approaches formulated as a supervised classification task for action recognition, a semi-supervised classification task for one-shot action recognition, modality fusion and temporal action segmentation.
For action classification, we use an EfficientNet Convolutional Neural Network (CNN) model to classify the image representations of various data modalities. Further, we present approaches for filtering and the fusion of various modalities on a representation level. We extend the approach to be applicable for semi-supervised classification and train a metric-learning model that encodes action similarity. During training, the encoder optimizes the distances in embedding space for self-, positive- and negative-pair similarities. The resulting encoder allows estimating action similarity by calculating distances in embedding space. At training time, no action classes from the test set are used.
Graph Convolutional Network (GCN) generalized the concept of CNNs to non-Euclidean data structures and showed great success for action recognition directly operating on spatio-temporal sequences like skeleton sequences. GCNs have recently shown state-of-the-art performance for skeleton-based action recognition but are currently widely neglected as the foundation for the fusion of various sensor modalities. We propose incorporating additional modalities, like inertial measurements or RGB features, into a skeleton-graph, by proposing fusion on two different dimensionality levels. On a channel dimension, modalities are fused by introducing additional node attributes. On a spatial dimension, additional nodes are incorporated into the skeleton-graph.
Transformer models showed excellent performance in the analysis of sequential data. We formulate the temporal action segmentation task as an object detection task and use a detection transformer model on our proposed motion image representations. Experiments for our action recognition related approaches are executed on large-scale publicly available datasets. Our approaches for action recognition for various modalities, action recognition by fusion of various modalities, and one-shot action recognition demonstrate state-of-the-art results on some datasets.
Finally, we present a hybrid imitation learning benchmark. The benchmark consists of a dataset, metrics, and a simulator integration. The dataset contains RGB-D image sequences of humans performing movements and executing manipulation tasks, as well as the corresponding ground truth. The RGB-D camera is calibrated against a motion-capturing system, and the resulting sequences serve as input for imitation learning approaches. The resulting policy is then executed in the simulated environment on different robots. We propose two metrics to assess the quality of the imitation. The trajectory metric gives insights into how close the execution was to the demonstration. The effect metric describes how close the final state was reached according to the demonstration. The Simitate benchmark can improve the comparability of imitation learning approaches.
Leichte Sprache (LS) ist eine vereinfachte Varietät des Deutschen in der barrierefreie Texte für ein breites Spektrum von Menschen, einschließlich gering literalisierten Personen mit Lernschwierigkeiten, geistigen oder entwicklungsbedingten Behinderungen (IDD) und/oder komplexen Kommunikationsbedürfnissen (CCN), bereitgestellt werden. LS-Autor*innen sind i.d.R. der deutschen Standardsprache mächtig und gehören nicht der genannten Personengruppe an. Unser Ziel ist es, diese zu befähigen, selbst am schriftlichen Diskurs teilzunehmen. Hierfür bedarf es eines speziellen Schreibsystems, dessen linguistische Unterstützung und softwareergonomische Gestaltung den spezifischen Bedürfnissen der Zielgruppe gerecht wird. EasyTalk ist ein System basierend auf computerlinguistischer Verarbeitung natürlicher Sprache (NLP) für assistives Schreiben in einer erweiterten Variante von LS (ELS). Es stellt den Nutzenden ein personalisierbares Vokabular mit individualisierbaren Kommunikationssymbolen zur Verfügung und unterstützt sie entsprechend ihres persönlichen Fähigkeitslevels durch interaktive Benutzerführung beim Schreiben. Intuitive Formulierungen für linguistische Entscheidungen minimieren das erforderliche grammatikalische Wissen für die Erstellung korrekter und kohärenter komplexer Inhalte. Einfache Dialoge kommunizieren mit einem natürlichsprachlichen Paraphrasengenerator, der kontextsensitiv Vorschläge für Satzkomponenten und korrekt flektierte Wortformen bereitstellt. Außerdem regt EasyTalk die Nutzer*innen an, Textelemente hinzuzufügen, welche die Verständlichkeit des Textes für dessen Leserschaft fördern (z.B. Zeit- und Ortsangaben) und die Textkohärenz verbessern (z.B. explizite Diskurskonnektoren). Um das System auf die Bedürfnisse der Zielgruppe zuzuschneiden, folgte die Entwicklung von EasyTalk den Grundsätzen der menschzentrierten Gestaltung (UCD). Entsprechend wurde das System in iterativen Entwicklungszyklen ausgereift, kombiniert mit gezielten Evaluierungen bestimmter Aspekte durch Gruppen von Expert*innen aus den Bereichen CCN, LS und IT sowie L2-Lernende der deutschen Sprache. Eine Fallstudie, in welcher Mitglieder der Zielgruppe das freie Schreiben mit dem System testeten, bestätigte, dass Erwachsene mit geringen Lese-, Schreib- und Computerfähigkeiten mit IDD und/oder CCN mit EasyTalk eigene persönliche Texte in ELS verfassen können. Das positive Feedback aller Tests inspiriert Langzeitstudien mit EasyTalk und die Weiterentwicklung des prototypischen Systems, wie z.B. die Implementierung einer s.g. Schreibwerkstatt.