AS MearchBox
Vergleich

Der Vergleich


Bei einer Identifikationssoftware geht es letztendlich immer um den Vergleich und die Bewertung zweier Datensätze, egal ob eine Online-Suche, einen Bestandsvergleich oder eine Dublettensuche durchgeführt wird. Verglichen werden immer die vorher analysierten und standardisierten Datensätze.

Der wohl wichtigste Punkt für eine individuelle und flexible, an Ihre speziellen Bedürfnisse angepasste Identifikation, ist die inhaltsgerechte Vergleichsmethode (Vorname, PLZ oder Hausnummern dürfen nicht auf die gleiche Art und Weise miteinander verglichen werden!) und die Ausgabe aller Teilergebnisse. Der zweite Punkt ist für die letztendliche Entscheidungsregel (z. B. „Wenn Nachname > 80 und Vorname > 78 und Postalische Adresse > 77, dann Treffer“) von ausschlaggebender Bedeutung, da die Verwendung eines einzigen Gesamtergebnisses in vielen Fällen schlecht und unbrauchbar ist. Beispielsweise kann ein Gesamtergebnis von 80 Punkten bedeuten, dass Nachname, Vorname und postalische Adresse alle 80 Punkte erhalten oder aber das die postalische Adresse exakt gleich, also 100 ist, die Namenspunkte jedoch bei 60 liegen. Im ersten Fall liegt mit hoher Wahrscheinlichkeit ein Treffer vor, im zweiten handelt es sich wohl eher um eine andere Person bzw. Organisation mit der gleichen postalischen Anschrift.

Ermittlung der Vergleichswerte

Auf Basis der Analyseergebnisse werden die Einzelelemente miteinander verglichen. Für die Anschriftendaten sind dies normalerweise:

Vergleich der PLZ
Vergleich des Ortsnamens (incl. Ortszusatz)
Vergleich des Straßennamens (inkl. Straßentyp und Straßennamen-Zusatz)
Vergleich der Hausnummer (inkl. des Hausnummernzusatzes)

Für die Namenselemente werden, je nach dem, ob es sich um Privatpersonen oder Organisationen handelt, folgende Einzelvergleiche durchgeführt:

Organisationen
Firmennamen-Matrix-Vergleich
Firmennamen-Akronym-Vergleich
Gesellschaftsformen-Vergleich

Privatpersonen
Vergleich der Initiale bzw. Anfangsbuchstaben eines Vornamens
Vergleich der Vornamen
Vergleich der Nachnamen (inkl. Präfixe)

Darüber hinaus gibt es eine große Anzahl mathematisch basierter Vergleichsverfahren, die auf alle Bestandteile einer Adresse einzeln oder in Kombination verwendet werden können. Die Notwendigkeit mehrerer Vergleichsverfahren ergibt sich häufig aus der Tatsache, dass einzelne, spezielle Verfahren in bestimmten Situationen sehr schlechte Werte liefern. In diesen Fällen kann dann eine andere Vergleichsmethode dieses Problem beheben. In der AS MearchBox stehen Ihnen derzeit u. a. folgende Vergleichsverfahren zur Verfügung:

exakter Stringvergleich
Bigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
Trigrammenvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
Imagevergleich mit und ohne Berücksichtigung unterschiedlicher Längen
mehrere phonetische Vergleichsverfahren
Levenshteinvergleich mit und ohne Berücksichtigung unterschiedlicher Längen
Short-String Vergleich

Auf Basis dieser mathematischen Vergleichsverfahren haben wir eine ganze Reihe spezieller Verfahren entwickelt, die auf den jeweils auf den zu vergleichenden Inhalt hin optimiert wurden. Daraus entstanden u.a. spezielle Vergleichsmethoden für den Vergleich von:

Postleitzahlen
Ortsnamen
Straßennamen
Hausnummernvergleich (mit und ohne Hausnummernzusatz)
E-Mail-Adressen
Internet-URLs
Kreditkartennummern
Kontonummern
Bankleitzahlen
Telefon- und Faxnummern
Geburtsdaten (bzw. allgemein Datum)
Vornamensvergleich (z. B. auch Vergleich Vorname/Initial)
Nachnamensvergleich
Initialen- bzw. Anfangsbuchstabenvergleich
Organisationsformenvergleich
Organisationsnamenvergleich
Vergleichsverfahren für den Vergleich von Privatpersonen mit Organisationen

Nachfolgend werden einige dieser Vergleichsverfahren kurz erläutert und anhand eines Beispiels illustriert, wobei die Angabe "Score" den Vergleichswert auf einer Skala von 0-100 repräsentiert (0=keine Ähnlichkeit, 100=identisch).

PLZ-Vergleich

Der PLZ-Vergleich ist länderspezifisch und berücksichtigt bspw. für deutsche Adressen, dass die häufigsten Fehler bei der Eingabe einer PLZ in den letzten drei Ziffern geschehen. Andererseits wird z.B. Zahlendrehern Rechnung getragen, d.h. der Vergleich liefert ein relativ hohes Ergebnis, wenn zwei aufeinanderfolgende Ziffern nur in ihrer Reihenfolge vertauscht sind.

Beispiel 1

erste Ziffer falsch
PLZ 1 79197
PLZ 2 39197
Score 77

Beispiel 2

letzte Ziffer falsch
PLZ 1 79197
PLZ 2 79193
Score 82

Beispiel 3

Zahlendreher
PLZ 1 79197
PLZ 2 79179
Score 92

Ortsnamen-Vergleich

Für den Vergleich der Ortsnamen wurde ein Mechanismus entwickelt, der sowohl für den Ortsnamen, als auch für den Ortszusatz sogenannte „Zeichenketten-Distanzen“ ermittelt, der z.B. das Fehlen oder Mehrfachvorkommen einzelner Buchstaben besonders berücksichtigt. Der Ortszusatz fließt nur dann in das Ergebnis ein, wenn dieser in beiden Ortsnamen enthalten ist oder der Ortszusatz mit dem Ort des zu vergleichenden Datensatzes eine höhere Ähnlichkeit besitzt.

Beispiel 1

Ort 1 Stuttgart
Ort 2 Stutgart
Score 95

Beispiel 2

Ort 1 Ditzingen
Ort 2 Stuttgart‑Ditzingen
Score 90

Straßennamen-Vergleich

Ähnlich wie beim Ortsnamenvergleich werden die Straßennamen auf Basis von „Zeichenketten-Distanzen“ ermittelt. In das Vergleichsergebnis fließt der Straßentyp, eventuelle Straßenzusätze und der identifizierende Straßenname ein. Beim Straßentypen werden durch die vorangegangene Analyse eventuelle Abkürzungen berücksichtigt.

Beispiel 1

abgekürzter Straßentyp
Straße 1 Bergstr.
Straße 2 Bergstraße
Score 100

Beispiel 2

leichte Abweichung im Namen und unterschiedlicher Straßentyp
Straße 1 Graf‑Schellart‑Platz
Straße 2 Graf‑Schellert‑Weg
Score 90

Hausnummern-Vergleich

Beim Vergleich der Hausnummern werden spezielle Vergleichsmechanismen verwendet, die neben der numerischen Differenz der Hausnummer auch Zahlendreher, ungewollte Doppelanschläge, fehlende Ziffern und mögliche „Bereichsüberschneidung“ bewerten, die sich durch den Hausnummernzusatz ergeben.

Beispiel 1

fehlende Ziffer
Hausnummer 1 418
Hausnummer 2 1418
Score 66

Beispiel 2

Überschneidung
Hausnummer 1 6‑10
Hausnummer 2 8
Score 95

Beispiel 3

in der Nähe; gleiche Straße
Hausnummer 1 7
Hausnummer 2 9
Score 95

Spezielle Namensvergleiche

Organisationsnamen-Matrixvergleich

Da Organisationsnamen i.a. aus mehreren Begriffen bestehen und zusätzlich häufig Namen von Personen, Orten, Berufen etc. beinhalten, kann aufgrund der durchgeführten Namensanalyse eine Matrix der zu vergleichenden Einzelelemente aufgestellt werden, in der dann die jeweiligen Bestandteile der Namen gegenübergestellt und verglichen werden. Dabei werden nur Vergleiche zwischen Datenelementen durchgeführt, die für einen Namen „signifikant“ sind. Insbesondere bedeutet dies, dass z. B. Worte, die Bestandteil einer Gesellschaftsform sind, von dem Vergleich ausgeschlossen werden können.

Beispiel

normaler Matrixvergleich
Name 1 Reku-Plast Reicholzheimer Kunststoff Erzeugnisse GmbH
Name 2 Reku-Plast Reichholz- heimer Kunststoff-Erzeugnisse Gesell. m b H
  reku plast reichholzheimer kunststoff erzeugnisse
reku 100 0 40 20 0
plast 0 100 0 16 0
reichholz 40 0 80 0 8
heimer 0 0 68 0 11
kunststoff 20 16 0 100 0
erzeugnisse 0 0 6 0 100

Organisationsnamen-Akronymvergleich

Häufig werden Organisationsnamen in abgekürzter Schreibweise (z.B. ADAC) abgelegt, bei der ein normaler Matrixvergleich mit der vollständigen Schreibweise einen sehr niedrigen Score liefert. Deshalb haben wir ergänzend eine zusätzliche Vergleichsmethode entwickelt, die einen Akronym-Vergleich durchgeführt.

Beispiel

Akronymvergleich
Name 1 PIETZSCH Automatisierungstechnik GmbH
Name 2 PAT GMBH
Score 100

Im Beispiel oben wird deutlich, dass die Akronymerkennung nur deswegen funktionieren kann, weil „Automatisierung“ und „Technik“ als Einzelteile separiert werden können und somit PAT die Anfangsbuchstaben des Vergleichnamens repräsentiert.

Gesellschaftsform-Vergleich

Die Analyse des Namens liefert als Ergebnis u.a. die Gesellschaftsform eines Firmeneintrags (falls vorhanden!). Diese Gesellschaftsform kann in die Vergleichsszenarien einbezogen werden, so dass eine unterschiedliche Rechtsform zu einem geringeren Namensgesamtwert führt. Folgende Beispiele verdeutlichen, wie die Erkennung und der Vergleich der Gesellschaftsformen durchgeführt wird.



Beispiel 1

Name 1 Crailsheimer Volksbank eG
Gesellschaftsform 1 eG
Name 2 Crailsheimer Volksbank eingetragene Genossenschaft
Gesellschaftsform 2 eG
Score 100

Beispiel 2

Name 1 SPEEDWAVE GmbH & Co. Computer Integrated Manufacturing
Gesellschaftsform 1 GmbH & Co
Name 2 Speedwave GmbH & Co. KG Computer Integrated
Gesellschaftsform 2 GmbH & Co KG
Score 80
Die Analyse

Aufbau eines standardisierten Analysebestands unter Einbeziehung unserer riesigen Wissens- und Regeldatenbank

Der Vergleich

Vergleich zweier Datensätze (bzw. Adressen).

Anwendungen

Integration in eigene Projekte