DQM

DQM - Regeln

Die Regeln bilden das Herzstück des Data Quality Management (DQM)-Moduls von Syncler.
Sie sind die Grundlage für die Prüfung, Bewertung und Verbesserung der Datenqualität und werden innerhalb des Workflows von Syncs oder DQM-Projekten ausgeführt.
Je nach Regeltyp lassen sich Daten prüfen, korrigieren, ergänzen, validieren oder automatisch verarbeiten.

Überblick und Verwaltung von Regeln

Der Bereich „Regeln“ kann über die Hauptnavigation „DQM“ → „Regeln“ aufgerufen werden.
Hier wird eine Liste aller vorhandenen Regeln angezeigt.

Einige Regeln sind bereits als Standardregeln bzw. Vorlagen im System enthalten. Diese sind in der Liste markiert und können nicht verändert, aber kopiert und angepasst werden.
Regeln können zudem exportiert und importiert werden, um sie in anderen Projekten wiederzuverwenden.

Über die Schaltfläche „Neu“ kann eine neue Regel erstellt werden.

Jede Regel benötigt:

Einen eindeutigen Namen
Einen Regeltyp, der die Funktionalität bestimmt
Optional: ein System und ein Schemaobjekt, um verfügbare Felder zu definieren und den Einsatzbereich der Regel festzulegen

Beispiel: Eine Regel für Personendaten kann nicht in einem Sync verwendet werden, der auf Firmendaten basiert.

Regelbasis

Regeltypen

Syncler unterscheidet verschiedene Regeltypen, die jeweils eigene Konfigurationsmöglichkeiten und Aufgabenbereiche haben.
Im Folgenden werden alle Regeltypen im Detail beschrieben.

Regel „Daten prüfen“

Diese Regel führt Validierungsprüfungen durch und liefert ein Ergebnis, das innerhalb des Workflows für Verzweigungen genutzt werden kann.

Die Konfiguration erfolgt feldbezogen:
Es können einzelne Felder oder mehrere Felder gleichzeitig geprüft werden – abhängig davon, wie das Ergebnis später im Workflow weiterverarbeitet wird.

Falls das Prüfergebnis gespeichert werden soll, kann es in einem externen System am Quelldatensatz abgelegt werden.
Dafür müssen Quellsystem, Quellschema und Zielfeld definiert werden.
Das Ergebnis wird als mehrzeiliger Text gespeichert.

Ergebnis speichern

Die Prüfparameter werden tabellarisch definiert.
Per Klick auf eine Zeile öffnet sich die Detailkonfiguration des gewählten Feldes.

Unterstützte Prüfungen

Mindestlänge
Maximallänge
Pflichtfeld – leere Werte sind nicht zulässig
Eindeutig – wird nur in Projekten ausgewertet (Prüfung auf Dubletten im Bestand)
Ist Emailadresse – prüft das Format einer E-Mail-Adresse
Regulärer Ausdruck – prüft, ob der gesamte Inhalt dem definierten Ausdruck entspricht
Aus Auswahlliste – der Wert muss in der Liste enthalten sein
Auswahlliste zum Speichern von Fehlern – fehlerhafte Werte werden hier gespeichert
Formel – liefert einen Wahrheitswert, unterstützt Platzhalter
Datumsvergleich – prüft Datumswerte mit Relation und Delta (z. B. Gültigkeit)

Prüfung

Regel „Daten anpassen“

Dieser Regeltyp ermöglicht automatische Korrekturen und Anpassungen an Datenfeldern.
Die Regel wird nicht verzweigt, sondern wirkt direkt auf die Daten ein.

Feldspezifische Anpassungen werden in einer Tabelle definiert.
Durch Anklicken einer Zeile öffnet sich die Detailansicht mit allen Parametern.

Unterstützte Anpassungen

Regulärer Ausdruck – der erste Treffer wird als Wert übernommen
Mit Auswahlliste ersetzen – Werte werden mit Einträgen aus der Liste ersetzt
Formel für Wert – erzeugt den neuen Wert durch eine Formel mit Platzhaltern

Anpassung

Regel „Duplikate suchen“

Diese Regel identifiziert Dubletten mithilfe verschiedener Ähnlichkeitsalgorithmen.
Sie kann sowohl in Syncs als auch in DQM-Projekten eingesetzt werden.

Unterschiedliche Funktionsweise je nach Einsatzort

Im Sync: prüft, ob der aktuelle Datensatz bereits im Bestand existiert, um Dubletten zu vermeiden oder zusammenzuführen.
Im Projekt: gruppiert potenzielle Dubletten, um sie manuell oder automatisch zu bereinigen.

Allgemeine Konfiguration

Zur effizienten Duplikatsprüfung wird eine Support-Datenbank-Tabelle verwendet.
Diese kann automatisch über die Parameter „Tabelle für Suche“ und „Sync für Suchtabelle“ erzeugt werden.
Diese Funktion verwendet die definierten Felder als Basis, weshalb Sie vorher die Suchfelder definieren sollten. Mit dem Button und dem anschließenden Speichern legen Sie die Elemente an und müssen den Sync dann noch manuell oder zeitgesteuert ausführen.

Weitere Parameter:

Zieldatensatz per Sortierung festlegen (z. B. ältester oder neuester Datensatz)
Zieldatensatz absteigend sortieren
Zieldatensatz per Formel definieren (z. B. bevorzugte Kundennummern)
Nur eindeutige Ergebnisse zulassen – Dieser Parameter ist im Sync relevant. Da Ähnlichkeitsverfahren auch falsche Treffer generieren können, kann eine Mehrdeutigkeit ausgeschlossen werden. Mehrdeutigkeit führt dabei zu keinem Treffer.
Formel für Unterteilung der Suchdaten – Dieser Parameter ist für Projekte relevant. Die Formel unterteilt den Datenbestand in zwei Gruppen und sucht die positiven Ergebnisse in den negativen. So kann eine Unterteilung in zusammenführbar (z.B. Interessenten) und nicht zusammenführbar (z.B. Kunden) erreicht werden.

Suche allgemein

Feldspezifische Einstellungen

Für jedes Feld kann definiert werden:

Ähnlichkeitswert – definiert die Mindestähnlichkeit zwischen Werten
Gewichtung für die Suche – legt fest, wie stark ein Feld in die Bewertung eingeht
Leere Werte berücksichtigen – beeinflusst Vergleich und Relevanz
Mit Auswahlliste ersetzen – normalisiert Inhalte (z.B. Unternehmensformen)

Suche Details

Regel Sync ausführen

Diese Regel startet einen anderen Sync aus dem Workflow heraus.
Der Quelldatensatz wird dabei übergeben.

Im Sync: Der Prozess wartet, bis die Ausführung abgeschlossen ist.
Im Projekt: Der Sync wird für alle übergebenen Datensätze ausgeführt.

Sync ausführen

Regel Email senden

Diese Regel versendet E-Mails über einen konfigurierten E-Mail-Konnektor.
Sie orientiert sich funktional an den Möglichkeiten im Ablauf.

Betreff, Inhalt und Empfänger können Platzhalter enthalten
Der Inhalt wird über eine Seriendruckvorlage erstellt
Pro Datensatz wird eine E-Mail gesendet (Achtung bei großen Datenmengen, z.B. in Projekten)

Sync ausführen

Regel Datensatz mit Databyte erweitern

Diese Regel nutzt die Databyte-Firmendatenbank, um Datensätze anzureichern.
Erforderlich ist der Databyte-Konnektor.

Das Export-Schema bestimmt Informationsumfang und Abrufkosten
Suchfelder dienen zur Identifikation bei Databyte
Exportfelder definieren, wohin abgerufene Daten gespeichert werden

Databyte

Regel Entscheiden

Diese Regel entspricht „Daten prüfen“, speichert die Ergebnisse jedoch nicht.
Sie wird ausschließlich für Verzweigungen im Workflow verwendet.
Dies ist vorallem in Projekten relevant, da dort Fehler aus der Prüfung protokolliert werden und sich ansonsten mit Entscheidungen vermischen würden.

Regel Adressen

Diese Regel ist auf Adressdaten spezialisiert und nutzt den Syncler Geo-Service. In On-Prem Umgebungen muss dieser separat installiert werden. Sie kann Adressen prüfen, Koordinaten ermitteln oder Daten korrigieren.

Ergebnis kann im Quellsystem gespeichert werden
Ausführungsart: „Adresse prüfen“, „Koordinaten ermitteln“ oder „Adresse korrigieren“
Adressfelder und Zielkoordinaten werden individuell festgelegt

Ergebnis speichern

Die Ausführungsart "Adresse auf Fehler prüfen" nimmt die Daten gemäß der Definition und prüft diese auf Gültigkeit. Das Ergebnis wird als Verzweigung im Workflow genutzt. Die Ausführungsart "Koordinaten zur Adresse ermitteln" nimmt die Daten gemäß der Definition und versucht die geographischen Koordinaten zu bestimmten. Wenn dies nicht möglich ist, wird die Ausführung als Fehler eingestuft und verzweigt. Die Ausführungsart "Adresse korrigieren" nimmt die Daten gemäß der Definition und versucht diese ggf. zu korrigieren. Die korrigierte Fassung wird in die zugeordneten Felder übertragen. Sollte die Korrektur nicht möglich sein, da z.B. zu wenig Ausgangsdaten vorhanden sind, wird die Ausführung als Fehler eigestuft und verzweigt.

Ergebnis speichern

Regel Mistral KI und OpenAI

Diese Regeltypen ermöglichen die Nutzung von KI-Modellen (LLMs) zur automatisierten Datenanalyse.
Beide Varianten unterscheiden sich nur in der Modellauswahl und Konnektorkonfiguration.

Parameter

Modell – Auswahl des zu verwendenden LLM (z. B. GPT-4, Mistral Large)
Abfrage – frei formulierbare Anfrage mit Platzhaltern
Resultatliste – Zuordnung der Antwortfelder zu Zielfeldern
Typ – erwarteter Datentyp (Text, Zahl, Wahrheitswert)
Regulärer Ausdruck/Formel – Auswertung für den Workflow

OpenAI

Die Regel enthält eine Testfunktion, mit der Anfragen sofort ausgeführt und geprüft werden können.

Standard-Regeln

Drei Standard-Regeln stehen zusätzlich für die Workflow-Steuerung zur Verfügung:

Regel	Beschreibung
Fehlgeschlagen	Stoppt die Verarbeitung.
Überspringen	Überspringt den aktuellen Datensatz.
Wiederholen	Wiederholt die Verarbeitung des Datensatzes.

Diese Standard-Regeln dienen der flexiblen Steuerung von Sync-Workflows.