.png)
Mit dem Aufkommen der künstlichen Intelligenz hat nur die Bedeutung der Datenqualität zugenommen. Schließlich werden die meisten KIs auf der Grundlage einer Vielzahl von Daten trainiert und optimiert. Muell Rein = Muell Graus. Es gilt aber auch für die Daten, die von KI in der Produktion verwendet werden, wie z. B. interne Dokumente einer Organisation oder Daten aus Datenbanken. Schlechte Qualität führt zu schlechten Antworten. Und obwohl datengetriebenes Arbeiten mindestens 20 Jahre alt ist, erkennen fast alle unsere Kunden, dass sie hier noch einiges zu tun haben. Und sie fragen, ob wir eine Lösung haben. Unsere Antwort: die semantische Schicht.
Wer bedeutet Datenqualität?
The term data quality is very simple and is often used. In der Praxis ist es jedoch nicht so einfach, wann Sie ihn anwenden werden. Wann ist die Datenqualität schlecht und wann ist die Qualität gut genug? Der Internationale Datenqualitätsstandard (ISO25012/24) beschreibt 15 Ansätze zur Bestimmung der Datenqualität, darunter Genauigkeit, Vollständigkeit, Aktualität, Konsistenz, Präzision und Rückverfolgbarkeit. Dieser Standard wurde konzipiert für Strukturierte Daten aus Datenbanken, Tabellen, Nachrichten usw. Aber ich verarbeitet auch hauptsächlich unstrukturierte Datierung Aus Dokumenten, Texten oder Audiodateien. Und sie möchten auch in der Lage sein, die Qualität davon zu bestimmen. Wessen Machtmensch ist das? Einer der schwierigsten Aspekte ist dabei die Bedeutung (Semantik) der Daten. Mehr dazu gleich.
Diese Praxis
Wir schauen uns zunächst die Praxis an, jede Organisation kennt sie bereits. Die strukturierten Daten wurden in zahlreichen Datenbanken gespeichert. In Data Warehouses, Data Lakes und Data Fabrics wurden diese Daten mit großem Aufwand gesammelt, verknüpft und die Qualität verbessert. Dies ist ein langfristiger und fortlaufender Prozess, da sie ständig auf Unterschiede stoßen. Specific fields in databases are created by users. Ein Feld hat zu einem bestimmten Zeitpunkt eine andere Bedeutung angenommen. Systems use the same field, know it but in the practice different. Oder ein Beispiel, das jeder kennt: Jemand ist ein „Kunde“ im Vertriebssystem, der möglicherweise etwas kaufen kann, im Bestellsystem ist ein „Kunde“, der bereits etwas gekauft hat, während während der Buchhaltung dieselbe Person als „Schuldner“ bezeichnet wird. Kurzum, es werden große Anforderungen gestellt, um die Daten aus allen Systemen gemeinsam nutzen zu können. Das Ergebnis sind komplizierte Tabellen mit zahlreichen Fremdschlüsseln, Regeln und Linktabellen. Idealerweise würden Sie Ihre KI direkt mit diesen Systemen verbinden, aber jeder hat das Gefühl, dass das nicht einfach ist.
Zurück zu den Grundlagen
Zu Beginn der IT-Branche war es notwendig, die Bedeutung von Daten zu beschreiben. Schließlich sind Daten nichts anderes als eine Anzahl von Zeichen mit einer bestimmten Syntax. Sie müssen auch genau beschreiben, was diese Zeichen bedeuten: Semantik. Innerhalb eines Systems, aber auch zwischen Systemen und in Ketten. Dies folgt dem DIKW-Ansatz methodisch. Wenn Sie von DATEN (D) zu INFORMATION (I) übergehen wollen, müssen Sie die Bedeutung der Daten beschreiben. And then can over information to KNOW (K), through you add rules and logic. To then can overgoing to WEISHEIT (W), when you win new relations and erkenntnisse. In beiden letztgenannten Fällen spiele ich auch eine wichtige Rolle.
The meaning structured data is described since 50 years by data models and agreement about all. This data models were mainly used as design for the databases. The data models describe concepts and definitions. Oft wurde versucht, Konzepte wie „Kunde“ so weit wie möglich zu standardisieren und zu vereinheitlichen. Wir haben nun festgestellt, dass diese alte Art der Bedeutungsbeschreibung viele Einschränkungen hatte und kleine, kontextuelle Bedeutungsunterschiede nicht bewältigen konnten. Aus diesem Grund wurden neue Modellierungstechniken entwickelt, die selbst kleinste Bedeutungsunterschiede in verschiedenen Kontexten berücksichtigen können. Und noch besser: The new semantical models can be used both for structured data as also for unstructured documents. Außerdem hat die niederländische Regierung diese neuen Modellierungstechniken inzwischen übernommen: den internationalen SKOS-Standard, der auf den Linked Data-Standards basiert, siehe https://www.forumstandaardisatie.nl/open-standaarden/skos#:~:text=SKOS%20bouwt%20voort%20op%20de,tussen%20verschillende%20open%20databronnen%20zichtbaar.
Kurz gesagt, wir kehren tatsächlich zu den Grundlagen zurück, aber mit einer modernen Technik, um ihre Bedeutung zu modellieren. With this models we create a so-called semantical level. Und diese Ebene fungiert als Brücke zwischen Ihren Daten und den Endbenutzern. Sie bietet Einblicke in die Informationen, die in den strukturierten Daten und den unstrukturierten Dokumenten versteckt sind, und macht diese Informationen dann beispielsweise für generative und agentenbasierte KI-Anwendungen nutzbar.
Was ist eine semantische Schicht?
We bei Y.digital glauben an die Macht von Rohdaten in Kombination mit Wissens- und Erfahrungsmodellen innerhalb von Organisationen. Um diese Kombination zu gestalten, verwenden wir Wissensgraphen. This based on the years of science innovation and possible to identify connection between data on a way, which both is understand for human as also be efficient processing by software applications. The Knowledge Graphs are saved and managed in a separate component. The component provides a connection to all data sources here, which must be accessible, and can be used via APIs.
With an semantical level must manage no complex tables with unzählige fremdschlüsseln and linked tables. Stattdessen erstellen Sie direkte Links zwischen Entitäten mit Beschreibungen, die der Terminologie und den Prozessen Ihrer Organisation entsprechen. This is the maintenance is overview and less work intensive. Da das semantische Modell direkt mit den gespeicherten Daten verknüpft ist, sind Änderungen einfach umzusetzen und sofort sichtbar.
Warum ist das Gewicht?
A important strength of a Knowledge Graphen is the flexibility, you use multiple definitions of a terms by context. Dies verhindert, dass Sie Geschäftsbegriffe auf eine einzige Definition reduzieren müssen, z. B. den „Kunden“, wodurch wichtige Nuancen verloren gehen würden. Dank eines Knowledge Graphen can you can use this context nebeneinander, sodass die jeweiligen Bedeutungen und Eigenschaften der jeweiligen Situation erhalten bleiben. Dadurch eignet es sich besonders für KI-Anwendungen wie SemanticSearch oder Retrieval Augmented Generation (RAG).
With an semantical level create a flexible infrastructure for your (un) structural data. This level provides not only for a better data quality, but provides your data also for future safe KI applications. Darüber hinaus lässt sich ein Knowledge Graph mühelos in eine Vielzahl von Datenquellen wie relationalen Datenbanken, NoSQL-Systemen und APIs integrieren, sodass Sie die Semantik all Ihrer Systeme erfassen können.
Willst du mehr wissen?
Sind Sie gespannt, wie eine semantische Ebene Ihrer Organisation helfen kann? Oder möchten Sie wissen, welche anderen Optionen in Kombination mit KI verfügbar sind? Nehmen Sie gerne Kontakt mit uns auf result@y.digital oder rufen Sie uns an unter +31 (0) 30-2074274. We think like with you with!