004 Datenverarbeitung; Informatik
Filtern
Erscheinungsjahr
Dokumenttyp
- Ausgabe (Heft) zu einer Zeitschrift (14)
- Dissertation (6)
- Studienarbeit (5)
- Diplomarbeit (3)
- Masterarbeit (3)
- Bachelorarbeit (2)
- Habilitation (1)
Schlagworte
- Semantic Web (3)
- ontology (3)
- Linked Open Data (2)
- Maschinelles Lernen (2)
- OWL (2)
- OWL <Informatik> (2)
- Ontology (2)
- RDF <Informatik> (2)
- SPARQL (2)
- mobile phone (2)
Institut
- Institute for Web Science and Technologies (34) (entfernen)
Social-Media Plattformen wie Twitter oder Reddit bieten Nutzern nahezu ohne Beschränkungen die Möglichkeit, ihre Meinungen über aktuelle Ereignisse zu veröffentlichen, diese mit anderen zu teilen und darüber zu diskutieren. Während die Mehrheit der Nutzer diese Plattformen nur als reines Diskussionsportal verwenden, gibt es jedoch Nutzergruppen, welche aktiv und gezielt versuchen, diese veröffentlichten Meinungen in ihrem Sinne zu beeinflussen bzw. zu manipulieren. Durch wiederholtes Verbreiten von bearbeiteten Fake-News oder stark polarisierenden Meinungen im gesamten politischen Spektrum können andere Nutzer beeinflusst, manipuliert und unter Umständen zum Träger von Hassreden und extremen politischen Positionen werden. Viele dieser Nutzergruppen sind vor allem in englischsprachigen Portalen anzutreffen, in denen sie sich überwiegend als Muttersprachler ausgeben. In dieser Arbeit stellen wir eine Methode vor, englische Muttersprachler und Nicht-Muttersprachler, die Englisch als Fremdsprache verwenden, anhand von ausgewählten englischen Social Media Texten zu unterscheiden. Dazu implementieren wir textmerkmalbasierte Modelle, welche für traditionelle Machine-Learning Prozesse und neuartigen AutoML-Pipelines zur Klassifizierung von Texten verwendet werden. Wir klassifizieren dabei Sprachfamilie, Muttersprache und Ursprung eines beliebigen englischen Textes. Die Modelle werden an einem bestehenden Datensatz von Reddit, welcher hauptsächlich aus englischen Texten von europäischen Nutzern besteht, und einem neu erstellten Twitter Datensatz, der Tweets von aktuellen Themen in verschiedenen Ländern enthält, angewandt. Wir evaluieren dabei vergleichsweise die erhaltenen Resultate unserer Pipeline zu traditionellen Maschinenlernprozessen zur Texterkennung anhand von Präzision, Genauigkeit und F1-Maßen der Vorhersagen. Wir vergleichen zudem die Ergebnisse auf Unterschiede der Sprachnutzung auf den unterschiedlichen Plattformen sowie den ausgewählten Themenbereichen. Dabei erzielen wir eine hohe Vorhersagewahrscheinlichkeit für alle gewählten Kategorien des erstellten Twitter Datensatzes und stellen unter anderem eine hohe Abweichung in Bezug auf die durchschnittliche Textlänge insbesondere bei Nutzern aus dem baltoslawischen Sprachraum fest.
Mit der zunehmenden Verbreitung digitaler Kameras nimmt die Anzahl der aufgenommen Fotos drastisch zu. Fotos werden sowohl für den privaten Gebrauch aufgenommen und auf eigenen Festplatten gespeichert, als auch im Internet verbreitet. Die Verwaltung dieser großen Datenmengen stellt eine Herausforderung dar, bei der Benutzer zunehmend unterstützt werden müssen. Die automatische Analyse von Bildinhalten anhand von Algorithmen ist ein ungelöstes Problem und kann kaum die Bedürfnisse menschlicher Nutzer erfüllen. Daher werden häufig Metainformationen genutzt, um z.B. abgebildete Szenen textuell zu beschreiben oder Bewertungen zu Fotos zu speichern. Im Rahmen dieser Arbeit wird untersucht, wie diese Metainformationen ohne zusätzlichen Aufwand für Benutzer generiert werden können. Dazu werden Augenbewegungen von Benutzern mit einem Eyetrackinggerät erfasst und die daraus abgeleitete visuelle Aufmerksamkeit als Informationsquelle genutzt.
Aufgrund von fallenden Hardwarepreisen bei gleichzeitig zunehmender Konkurrenz sind die Preise für Eyetracker in den letzten Jahren stark gefallen und ihre Bedienbarkeit wurde vereinfacht. Es wird angenommen, dass die Erfassung von Blickdaten bald mit alltäglichen Geräten wie Laptops möglich sein wird, während Benutzer z.B. verschiedenen Beschäftigungen mit digitalen Bildern nachgehen. Die Auswertung dieser Blickinformationen erlaubt es, Informationen ohne zusätzlichen Aufwand für den Menschen bereitzustellen.
Im ersten Teil dieser Arbeit wird untersucht, ob durch die Auswertung von Blickinformationen, Schlagworte Bildregionen zugewiesen werden können, mit dem Ziel abgebildete Szenen zu beschreiben. Insgesamt wurden drei Experimente durchgeführt um die Qualität der Beschreibungen zu untersuchen. Im ersten Experiment entschieden Teilnehmer durch das Drücken bestimmter Tasten, ob ein gegebenes Objekt auf einem Foto zu sehen war. In der zweiten Studie suchten Benutzer mit einer simulierten Bildersuche nach Fotos von bestimmten Objekten. Im dritten Experiment klassifizierten Benutzer Fotos bezüglich gegebener Objektnamen in einem eyetracking-gesteuerten Spiel. In jedem Experiment wurden die Augenbewegungen aufgezeichnet und die Objektnamen bzw. Suchbegriffe entsprechenden Bildregionen zugeordnet. Die Ergebnisse zeigen, dass in den verschiedenen Anwendungen Bildinhalte durch Blickpfadanalysen sinnvoll beschrieben werden können. Im zweiten Teil wird die Identifizierung von interessanten Fotos in einer Sammlung von Fotos anhand von Blickbewegungen erforscht, mit dem Ziel, Benutzern individuelle Fotoauswahlen anzubieten, nachdem sie Fotos in einer Sammlung betrachtet haben. Durch den Vergleich der unter Einbeziehung der visuellen Aufmerksamkeit automatisch erstellten Auswahlen mit manuell von den Benutzer erstellten Auswahlen, wird das Potential von Blickinformation in der Erkennung wichtiger Fotos deutlich.
Die Ergebnisse dieser Arbeit zeigen das große und bisher ungenutzte Potential der impliziten Nutzung von Blickdaten. Es kann von menschlichen Fähigkeiten profitiert werden, besonders dort, wo Algorithmen die menschliche Wahrnehmung noch lange nicht simulieren können.
The content aggregator platform Reddit has established itself as one of the most popular websites in the world. However, scientific research on Reddit is hindered as Reddit allows (and even encourages) user anonymity, i.e., user profiles do not contain personal information such as the gender. Inferring the gender of users in large-scale could enable the analysis of gender-specific areas of interest, reactions to events, and behavioral patterns. In this direction, this thesis suggests a machine learning approach of estimating the gender of Reddit users. By exploiting specific conventions in parts of the website, we obtain a ground truth for more than 190 million comments of labeled users. This data is then used to train machine learning classifiers to use them to gain insights about the gender balance of particular subreddits and the platform in general. By comparing a variety of different approaches for classification algorithm, we find that character-level convolutional neural network achieves performance with an 82.3% F1 score on a task of predicting a gender of a user based on his/her comments. The score surpasses 85% mark for frequent users with more than 50 comments. Furthermore, we discover that female users are less active on Reddit platform, they write fewer comments and post in fewer subreddits on average, when compared to male users.
This habilitation thesis collects works addressing several challenges on handling uncertainty and inconsistency in knowledge representation. In particular, this thesis contains works which introduce quantitative uncertainty based on probability theory into abstract argumentation frameworks. The formal semantics of this extension is investigated and its application for strategic argumentation in agent dialogues is discussed. Moreover, both the computational as well as the meaningfulness of approaches to analyze inconsistencies, both in classical logics as well as logics for uncertain reasoning is investigated. Finally, this thesis addresses the implementation challenges for various kinds of knowledge representation formalisms employing any notion of inconsistency tolerance or uncertainty.
Current political issues are often reflected in social media discussions, gathering politicians and voters on common platforms. As these can affect the public perception of politics, the inner dynamics and backgrounds of such debates are of great scientific interest. This thesis takes user generated messages from an up-to-date dataset of considerable relevance as Time Series, and applies a topic-based analysis of inspiration and agenda setting to it. The Institute for Web Science and Technologies of the University Koblenz-Landau has collected Twitter data generated beforehand by candidates of the European Parliament Election 2019. This work processes and analyzes the dataset for various properties, while focusing on the influence of politicians and media on online debates. An algorithm to cluster tweets into topical threads is introduced. Subsequently, Sequential Association Rules are mined, yielding wide array of potential influence relations between both actors and topics. The elaborated methodology can be configured with different parameters and is extensible in functionality and scope of application.
Graphen sind eine gute Wahl um strukturierte Daten zu repräsentieren. TGraphen (typisierte, attributierte, geordnete und gerichtete Graphen) sind eine sehr generische Graphenart, die in vielen Bereichen verwendet werden können. Das Java Graphenlabor (JGraLab) bietet eine effiziente Implementierung von TGraphen mit all ihren Eigenschaften. Zusätzlich stellt es, unter anderem, die Anfragesprache GReQL2 zur Verfügung, die dazu verwendet werden kann, Daten aus einem Graphen zu extrahieren. Es verfügt jedoch nicht über eine generische Bibliothek von gängigen Graphalgorithmen. Diese Studienarbeit ergänzt JGraLab durch eine generische Algorithmenbibliothek namens Algolib, die eine generische und erweiterbare Implementierung einiger wichtiger gängiger Graphalgorithmen enthält. Das Hauptaugenmerk dieser Arbeit liegt auf der Generizität von Algolib, ihrer Erweiterbarkeit und der Methoden der Softwaretechnik die benutzt wurden um beides zu erreichen. Algolib ist auf zwei Weisen erweiterbar. Bereits enthaltene Algorithmen können erweitert werden um speziellere Probleme zu lösen und weitere Algorithmen können auf einfache Weise der Bibliothek hinzugefügt werden.
Die nächste Generation des World Wide Web, das Semantic Web, erlaubt Benutzern, Unmengen an Informationen über die Grenzen von Webseiten und Anwendungen hinaus zu veröffentlichen und auszutauschen. Die Prinzipien von Linked Data beschreiben Konventionen, um diese Informationen maschinenlesbar zu veröffentlichen. Obwohl es sich aktuell meist um Linked Open Data handelt, deren Verbreitung nicht beschränkt, sondern explizit erwünscht ist, existieren viele Anwendungsfälle, in denen der Zugriff auf Linked Data in Resource Description Framework (RDF) Repositories regelbar sein soll. Bisher existieren lediglich Ansätze für die Lösung dieser Problemstellung, weshalb die Veröffentlichung von vertraulichen Inhalten mittels Linked Data bisher nicht möglich war.
Aktuell können schützenswerte Informationen nur mit Hilfe eines externen Betreibers kontrolliert veröffentlicht werden. Dabei werden alle Daten auf dessen System abgelegt und verwaltet. Für einen wirksamen Schutz sind weitere Zugriffsrichtlinien, Authentifizierung von Nutzern sowie eine sichere Datenablage notwendig.
Beispiele für ein solches Szenario finden sich bei den sozialen Netzwerken wie Facebook oder StudiVZ. Die Authentifizierung aller Nutzer findet über eine zentrale Webseite statt. Anschließend kann beispielsweise über eine Administrationsseite der Zugriff auf Informationen für bestimmte Nutzergruppen definiert werden. Trotz der aufgezeigten Schutzmechanismen hat der Betreiber selbst immer Zugriff auf die Daten und Inhalte aller Nutzer.
Dieser Zustand ist nicht zufriedenstellend.
Die Idee des Semantic Webs stellt einen alternativen Ansatz zur Verfügung. Der Nutzer legt seine Daten an einer von ihm kontrollierten Stelle ab, beispielsweise auf seinem privaten Server. Im Gegensatz zum zuvor vorgestellten Szenario ist somit jeder Nutzer selbst für Kontrollmechanismen wie Authentifizierung und Zugriffsrichtlinien verantwortlich.
Innerhalb der vorliegenden Arbeit wird ein Framework konzeptioniert und entworfen, welches es mit Hilfe von Regeln erlaubt, den Zugriff auf RDF-Repositories zu beschränken. In Kapitel 2 werden zunächst die bereits existierenden Ansätze für die Zugriffssteuerung vertraulicher Daten im Sematic Web vorgestellt. Des Weiteren werden in Kapitel 3 grundlegende Mechanismen und Techniken erläutert, welche in dieser Arbeit Verwendung finden. In Kapitel 4 wird die Problemstellung konkretisiert und anhand eines Beispielszenarios analysiert.
Nachdem Anforderungen und Ansprüche erhoben sind, werden in Kapitel 6 verschiedene Lösungsansätze, eine erste Implementierung und ein Prototyp vorgestellt. Abschließend werden die Ergebnisse der Arbeit und die resultierenden Ausblicke in Kapitel 7 zusammengefasst.
The way information is presented to users in online community platforms has an influence on the way the users create new information. This is the case, for instance, in question-answering fora, crowdsourcing platforms or other social computation settings. To better understand the effects of presentation policies on user activity, we introduce a generative model of user behaviour in this paper. Running simulations based on this user behaviour we demonstrate the ability of the model to evoke macro phenomena comparable to the ones observed on real world data.
In this paper, we compare two approaches for exploring large,rnhierarchical data spaces of social media data on mobile devicesrnusing facets. While the first approach arranges thernfacets in a 3x3 grid, the second approach makes use of arnscrollable list of facets for exploring the data. We have conductedrna between-group experiment of the two approachesrnwith 24 subjects (20 male, 4 female) executing the same set ofrntasks of typical mobile users" information needs. The resultsrnshow that the grid-based approach requires significantly morernclicks, but subjects need less time for completing the tasks.rnFurthermore, it shows that the additional clicks do not hamperrnthe subjects" satisfaction. Thus, the results suggest thatrnthe grid-based approach is a better choice for faceted searchrnon touchscreen mobile devices. To the best of our knowledge,rnsuch a summative evaluation of different approaches for facetedrnsearch on mobile devices has not been done so far.
Mittels SPARQL können Anfragen in Form von RDF Tripeln auf RDF Dokumente gestellt werden. OWL-DL Ontologien sind eine Teilmenge von RDF und können über spezifische OWL-DL Ausdrücke erstellt werden. Solche Ontologien über RDF Tripel anzufragen kann je nach Anfrage kompliziert werden und eine vermeidbare Fehlerquelle darstellen.
Die SPARQL-DL Abstract Syntax (SPARQLAS) löst dieses Problem indem Anfragen mittels OWL Functional-Style Syntax oder einer der Manchester Syntax ähnlichen Syntax gestellt werden. SPARQLAS ist eine echte Teilmenge von SPARQL und verwendet nur die nötigsten Konstrukte, um mit möglichst wenig Schreibaufwand schnell die gewünschten Ergebnisse zu Anfragen auf OWL-DL Ontologien zu erhalten.
Durch die Verringerung des Umfangs einer Anfrage und der Verwendung einer dem Nutzer bekannten Syntax lassen sich komplexe und verschachtelte Anfragen auf OWL-DL Ontologien einfacher realisieren. Zur Erstellung der spezifischen SPARQLAS Syntax wird das Eclipse Plugin EMFText verwendet. Die Implementation von SPARQLAS beinhaltet zudem noch eine ATL Transformation zu SPARQL. Diese Transformation erspart die Entwicklung eines Programms zur direkten SPARQLAS Verarbeitung und erleichtert so die Integration von SPARQLAS in bereits laufende Entwicklungsumgebungen.