AS MearchBox
Analyse

Die Analyse

Wenn Sie bereits etwas durch unsere Website geblättert haben sind Ihnen sicherlich schon häufiger Begriffe wie wissens- und regelbasierte Analyse und Interpretation begegnet. Da diese Vorabanalyse die eigentliche Grundlage für eine hochqualitative, treffsichere und fehlertolerante Identifikation ist, erklären wir hier ausführlich, was wir darunter verstehen und wie wir diese Vorgabe umsetzen. Bedenken Sie, dass nur eine detailgenaue Analyse und Interpretation aller Adressbestandteile verhindert, dass „Äpfel mit Birnen“ verglichen werden. Wissens- und regelbasierte Analyse und Interpretation ist bei uns kein Marketingschlagwort sondern eine gelebte Philosophie.

Analyseaufbau

Das Besondere an unseren Basiskomponenten ist die vorgeschaltete, detailgenaue Analyse aller Bestandteile eines Namens, z. B. Firmeneigennamen (z. B. Oracle, Delta V, Microsoft, etc.), Firmenidentifikatoren (z. B. "Bank", "Versicherung", "EDV", "Service", etc.), Ortsangaben (z. B. "Düsseldorfer", "Köln", "Deutschland"), Rechtsformen (z. B. "GmbH", "AG", "GbR", etc.) und aller anderen Bestandteile, die in Firmennamen vorkommen können, auf Basis einer großen Wissens- und Regeldatenbank, die eine effiziente, performante, fehlertolerante Analyse gewährleistet. Das gleiche Verfahren funktioniert natürlich genauso auf Basis privatpersonenrelevanter Informationen (z. B. Vor- & Nachnamenslisten, Titel, Anrede, Präfix, Suffixe, Berufe, etc.). Die erwähnten Wissens- & Regeldatenbanken enthalten dabei EU-weites Wissen und werden insbesondere auch auf internationale Datenbestände optimiert.

Die Analyse von Namen

Das Ergebnis der Analyse der Namensdaten ist eine Zeichenkette, in der alle Namensbestandteile mit ihrer Bedeutung in normalisierter Form abgelegt werden. Als Eingabeparameter wird lediglich der Originalname – d. h. die Aneinanderkettung aller Namenselemente aus dem Adressbestand – übergeben. Die Analyse identifiziert automatisch die Bestandteile von Personen- oder Firmennamen.

Beispiele für die Analyse

Das Ergebnis der Analyse der Namensdaten ist eine Zeichenkette, in der alle Namensbestandteile mit ihrer Bedeutung in normalisierter Form abgelegt werden. Als Eingabeparameter wird lediglich der Originalname – d. h. die Aneinanderkettung aller Namenselemente aus dem Adressbestand – übergeben. Die Analyse identifiziert automatisch die Bestandteile von Personen- oder Firmennamen.

Eingabe :
        Herr Graf Dipl.-Ing. Hans-Josef von Thun und Hohenstein sr.

Ausgabe :

Anrede herr
Adelstitel graf
Akademischer Titel dipl ing
Vorname hans josef
Präfix von
Nachname thun und hohenstein
Suffix sr

Eingabe :
        T & A Systemgesell. f. DV-Integration mbH

Ausgabe :

mögliches Akronym ta
Firmenwort system
Teil der Gesellschaftsform GmbH gesell
Abkürzung f
mögliches Akronym dv
Firmenwort integration
Teil der Gesellschaftsform GmbH mbh

Vergleich von Namenselementen

Der Vergleich von zwei Namen ist eine Wissenschaft für sich und keinesfalls mit einfachen, mathematischen Vergleichsalgorithmen ausreichend durchführbar. Bei der AS MearchBox (und natürlich auch bei der AS ConvertBox) versuchen wir auf Basis einer riesigen, internationalen Wissensdatenbank zuerst alle Bestandteile eines Namens zu erkennen und ihnen die im jeweiligen Kontext gültige Bedeutung zuzuordnen. Erst nachdem diese Vorabanalyse der Namensbestandteile durchgeführt wurde, kann ein exakter Vergleich erfolgen. Dies entspricht der üblichen Vorgehensweise des Menschen, wenn er die Ähnlichkeit zweier Namen bestimmt.

Beispiele

Aachener Immobilienberatungsgesellschaft mbH --- AIB GmbH 

Der Mensch weiß, dass "Immobilienberatungsgesellschaft" aus den Teilwörtern "Immobilie", "Beratung" und "Gesellschaft" besteht. "Gesellschaft" ist Teil der Rechtsform, es handelt sich also beim ersten Namen um eine GmbH. Zusammen mit "Aachener" ergeben die beiden Firmentätigkeitsworte "Immobilie" und "Beratung" zudem eine hohe Ähnlichkeit mit "AIB", es handelt sich hier um ein sogenanntes Akronym. Insgesamt erkennt der Mensch auf Basis dieser wissensbasierten, intelligenten Bestimmung der einzelnen Bestandteile dieser beiden Namen eine sehr hohe Ähnlichkeit, die durch ein rein mathematisches Vergleichsverfahren nicht möglich wäre.

Herbert Arzt, Zimmermann --- Herbert Zimmermann, Arzt

Hier verhält es sich genau anders herum als bei dem anderen Beispiel: Die mathematische Ähnlichkeit der beiden Namen ist extrem hoch, während der Mensch sofort erkennt, dass es sich hierbei gar nicht um die gleiche Person handeln kann. Beide Personen heißen zwar „Herbert“ mit Vornamen, während jedoch die erste Person mit Nachnamen „Arzt“ heißt und von Beruf „Zimmermann“ ist, ist der Name der zweiten Person „Zimmermann“ und der Beruf ist „Arzt“.

Zusammenfassung

Diese beiden einfachen Beispiele sollen Ihnen die Notwendigkeit eines wissenbasierten, intelligenten Vergleichsverfahrens verdeutlichen, damit nicht "Äpfel mit Birnen" verglichen werden. Das die wissens- und regelbasierte Vorgehensweise der AS MearchBox keine leere Marketinghülse darstellt, soll im folgenden genauer erläutert werden.

Vorabanalyse der Namens-bestandteile

Der Namensvergleich wird in einem mehrstufigen Verfahren durchgeführt und berücksichtigt u. a. ob zwei Privatpersonen, zwei Organisationen oder eine Privatperson mit einer Organisation verglichen werden. Dabei erkennt die AS MearchBox bei der Vorabanalyse mit einer extrem hohen Trefferwahrscheinlichkeit, ob es sich bei einem Datensatz um eine Organisation oder eine (bzw. mehrere) Privatperson(en) handelt. Diese Vorabanalyse versucht auch sofort alle Bestandteile eines Namens zu erkennen.

Bei Privatpersonen werden u. a. die folgenden, möglichen Bestandteile eines Namens erkannt:

Anrede bzw. Titulatur „Herr“,„Frau“, „Eheleute“, „Familie“, etc.
Titel „Prof. Dr.“, „Dipl.-Stat.“, „General“, etc.
Präfixe „von den“, „van der“, „del“, etc.
Vornamen „Hans-Peter“, „Erwin“, etc.
Initial „HPB van den Bosch“ ==> „H.P.B. sind Initiale“
Nachnamen auch zusammengehörende Nachnamen
Suffixe z. B. „sr.“ oder „jun.“
Berufe z. B. „Zahnarzt“ oder „Schreiner“

Bei Organisationen werden u. a. die folgenden, möglichen Bestandteile eines Namens erkannt:

Firmeneigenname z. B. „Address Solutions“, „Oracle“, „Microsoft“, etc.
Firmentätigkeitsworte z. B. „Versicherung“, „Immobilien“, „Beratung“, „Software“, etc.
Firmenwortsplittung z. B. „Immobilienberatung“ ==> „Immobilie“, „Beratung“, „Kindertagesstätte“ ==> „Kind“, „Tag“, „Stätte“
Erkennung von Plural und Standardisierung auf Singular
Erkennung und Separierung der Gesellschaftsform z. B. „Müller Beratungsges. f. Immobilien mbH und CoKG“ ==> „GmbH & Co.KG“, „Albert Einstein Stift.“ ==> „Stiftung“, etc.
Geografische Begriffe z. B. „München“, „Asien“, „Gerolsteiner“, „Brabantse“, „New York“, etc.
privatpersonenrelevante Bestandteile, die auch in Organisationsnamen vorkommen können
Erkennung von Akronymen z. B. „AIB Aachener Immobilienberatung“

Analyse von Straßendaten

Bei der Analyse der Straßendaten werden Straßenname, Straßentyp und Hausnummer voneinander getrennt und in separaten Analysefeldern abgelegt, so dass bei einem anschließenden Vergleich diese Elemente unabhängig voneinander bewertet werden.

Beispiel

Eingabe :                 
Am Burgweg 21-23

Ausgabe :

Straßenname Zusatz am
Straßenname Identifikationswort burg
Straßenart weg
Hausnummer 21
Hausnummernzusatz -23

Analyse von Ortsdaten

Bei der Analyse der Ortsdaten werden – analog zur Vorgehensweise bei Straßennamen – alle Elemente entsprechend ihrer Bedeutung in separate Felder abgelegt.

Beispiel

Eingabe :                 
52223 Stolberg/Münsterbusch

Ausgabe :

Postleitzahl 52223
Ort stolberg
Ortsteil muensterbusch
Die Analyse

Aufbau eines standardisierten Analysebestands unter Einbeziehung unserer riesigen Wissens- und Regeldatenbank

Der Vergleich

Vergleich zweier Datensätze (bzw. Adressen).

Anwendungen

Integration in eigene Projekte