004 Datenverarbeitung; Informatik
Filtern
Erscheinungsjahr
Dokumenttyp
- Ausgabe (Heft) zu einer Zeitschrift (14)
- Dissertation (6)
- Studienarbeit (5)
- Diplomarbeit (3)
- Masterarbeit (3)
- Bachelorarbeit (2)
- Habilitation (1)
Schlagworte
- Semantic Web (3)
- ontology (3)
- Linked Open Data (2)
- Maschinelles Lernen (2)
- OWL (2)
- OWL <Informatik> (2)
- Ontology (2)
- RDF <Informatik> (2)
- SPARQL (2)
- mobile phone (2)
Institut
- Institute for Web Science and Technologies (34) (entfernen)
This habilitation thesis collects works addressing several challenges on handling uncertainty and inconsistency in knowledge representation. In particular, this thesis contains works which introduce quantitative uncertainty based on probability theory into abstract argumentation frameworks. The formal semantics of this extension is investigated and its application for strategic argumentation in agent dialogues is discussed. Moreover, both the computational as well as the meaningfulness of approaches to analyze inconsistencies, both in classical logics as well as logics for uncertain reasoning is investigated. Finally, this thesis addresses the implementation challenges for various kinds of knowledge representation formalisms employing any notion of inconsistency tolerance or uncertainty.
The content aggregator platform Reddit has established itself as one of the most popular websites in the world. However, scientific research on Reddit is hindered as Reddit allows (and even encourages) user anonymity, i.e., user profiles do not contain personal information such as the gender. Inferring the gender of users in large-scale could enable the analysis of gender-specific areas of interest, reactions to events, and behavioral patterns. In this direction, this thesis suggests a machine learning approach of estimating the gender of Reddit users. By exploiting specific conventions in parts of the website, we obtain a ground truth for more than 190 million comments of labeled users. This data is then used to train machine learning classifiers to use them to gain insights about the gender balance of particular subreddits and the platform in general. By comparing a variety of different approaches for classification algorithm, we find that character-level convolutional neural network achieves performance with an 82.3% F1 score on a task of predicting a gender of a user based on his/her comments. The score surpasses 85% mark for frequent users with more than 50 comments. Furthermore, we discover that female users are less active on Reddit platform, they write fewer comments and post in fewer subreddits on average, when compared to male users.
Mit der zunehmenden Verbreitung digitaler Kameras nimmt die Anzahl der aufgenommen Fotos drastisch zu. Fotos werden sowohl für den privaten Gebrauch aufgenommen und auf eigenen Festplatten gespeichert, als auch im Internet verbreitet. Die Verwaltung dieser großen Datenmengen stellt eine Herausforderung dar, bei der Benutzer zunehmend unterstützt werden müssen. Die automatische Analyse von Bildinhalten anhand von Algorithmen ist ein ungelöstes Problem und kann kaum die Bedürfnisse menschlicher Nutzer erfüllen. Daher werden häufig Metainformationen genutzt, um z.B. abgebildete Szenen textuell zu beschreiben oder Bewertungen zu Fotos zu speichern. Im Rahmen dieser Arbeit wird untersucht, wie diese Metainformationen ohne zusätzlichen Aufwand für Benutzer generiert werden können. Dazu werden Augenbewegungen von Benutzern mit einem Eyetrackinggerät erfasst und die daraus abgeleitete visuelle Aufmerksamkeit als Informationsquelle genutzt.
Aufgrund von fallenden Hardwarepreisen bei gleichzeitig zunehmender Konkurrenz sind die Preise für Eyetracker in den letzten Jahren stark gefallen und ihre Bedienbarkeit wurde vereinfacht. Es wird angenommen, dass die Erfassung von Blickdaten bald mit alltäglichen Geräten wie Laptops möglich sein wird, während Benutzer z.B. verschiedenen Beschäftigungen mit digitalen Bildern nachgehen. Die Auswertung dieser Blickinformationen erlaubt es, Informationen ohne zusätzlichen Aufwand für den Menschen bereitzustellen.
Im ersten Teil dieser Arbeit wird untersucht, ob durch die Auswertung von Blickinformationen, Schlagworte Bildregionen zugewiesen werden können, mit dem Ziel abgebildete Szenen zu beschreiben. Insgesamt wurden drei Experimente durchgeführt um die Qualität der Beschreibungen zu untersuchen. Im ersten Experiment entschieden Teilnehmer durch das Drücken bestimmter Tasten, ob ein gegebenes Objekt auf einem Foto zu sehen war. In der zweiten Studie suchten Benutzer mit einer simulierten Bildersuche nach Fotos von bestimmten Objekten. Im dritten Experiment klassifizierten Benutzer Fotos bezüglich gegebener Objektnamen in einem eyetracking-gesteuerten Spiel. In jedem Experiment wurden die Augenbewegungen aufgezeichnet und die Objektnamen bzw. Suchbegriffe entsprechenden Bildregionen zugeordnet. Die Ergebnisse zeigen, dass in den verschiedenen Anwendungen Bildinhalte durch Blickpfadanalysen sinnvoll beschrieben werden können. Im zweiten Teil wird die Identifizierung von interessanten Fotos in einer Sammlung von Fotos anhand von Blickbewegungen erforscht, mit dem Ziel, Benutzern individuelle Fotoauswahlen anzubieten, nachdem sie Fotos in einer Sammlung betrachtet haben. Durch den Vergleich der unter Einbeziehung der visuellen Aufmerksamkeit automatisch erstellten Auswahlen mit manuell von den Benutzer erstellten Auswahlen, wird das Potential von Blickinformation in der Erkennung wichtiger Fotos deutlich.
Die Ergebnisse dieser Arbeit zeigen das große und bisher ungenutzte Potential der impliziten Nutzung von Blickdaten. Es kann von menschlichen Fähigkeiten profitiert werden, besonders dort, wo Algorithmen die menschliche Wahrnehmung noch lange nicht simulieren können.
Social-Media Plattformen wie Twitter oder Reddit bieten Nutzern nahezu ohne Beschränkungen die Möglichkeit, ihre Meinungen über aktuelle Ereignisse zu veröffentlichen, diese mit anderen zu teilen und darüber zu diskutieren. Während die Mehrheit der Nutzer diese Plattformen nur als reines Diskussionsportal verwenden, gibt es jedoch Nutzergruppen, welche aktiv und gezielt versuchen, diese veröffentlichten Meinungen in ihrem Sinne zu beeinflussen bzw. zu manipulieren. Durch wiederholtes Verbreiten von bearbeiteten Fake-News oder stark polarisierenden Meinungen im gesamten politischen Spektrum können andere Nutzer beeinflusst, manipuliert und unter Umständen zum Träger von Hassreden und extremen politischen Positionen werden. Viele dieser Nutzergruppen sind vor allem in englischsprachigen Portalen anzutreffen, in denen sie sich überwiegend als Muttersprachler ausgeben. In dieser Arbeit stellen wir eine Methode vor, englische Muttersprachler und Nicht-Muttersprachler, die Englisch als Fremdsprache verwenden, anhand von ausgewählten englischen Social Media Texten zu unterscheiden. Dazu implementieren wir textmerkmalbasierte Modelle, welche für traditionelle Machine-Learning Prozesse und neuartigen AutoML-Pipelines zur Klassifizierung von Texten verwendet werden. Wir klassifizieren dabei Sprachfamilie, Muttersprache und Ursprung eines beliebigen englischen Textes. Die Modelle werden an einem bestehenden Datensatz von Reddit, welcher hauptsächlich aus englischen Texten von europäischen Nutzern besteht, und einem neu erstellten Twitter Datensatz, der Tweets von aktuellen Themen in verschiedenen Ländern enthält, angewandt. Wir evaluieren dabei vergleichsweise die erhaltenen Resultate unserer Pipeline zu traditionellen Maschinenlernprozessen zur Texterkennung anhand von Präzision, Genauigkeit und F1-Maßen der Vorhersagen. Wir vergleichen zudem die Ergebnisse auf Unterschiede der Sprachnutzung auf den unterschiedlichen Plattformen sowie den ausgewählten Themenbereichen. Dabei erzielen wir eine hohe Vorhersagewahrscheinlichkeit für alle gewählten Kategorien des erstellten Twitter Datensatzes und stellen unter anderem eine hohe Abweichung in Bezug auf die durchschnittliche Textlänge insbesondere bei Nutzern aus dem baltoslawischen Sprachraum fest.