Structuration du ou des fichiers à traiter - Afin d´optimiser la deduplication ou le dedoublonnage, il est parfois nécessaire :
- d´épurer les champs à comparer, de tous les signes, sigles, mots ou particules non significatifs : Articles ou particules variés (de, du, la, l´, les…), signes ou sigles (tirets, apostrophe, point virgule….)
- de normaliser et homogénéiser les abrévations des types de voie (boulevard, place, rue, avenue …)
- de restructurer le volet adresse (ré affectation de chaque composant du volet de l´adresse dans la zone adéquate).
- de découper le fichier en deux sous bases : Personnes physiques - personnes morales. Ceci pour permettre l´établissement d´une méthodologie de rapprochement adaptée aux particularités de chacun de ces deux sous fichiers. Cette distinction concerne essentiellement le champs "NOM PRENOM" pour les personnes physiques et le champ "RAISON SOCIALE" pour les personnes morales.
|