Data dedupliceren in een no-code workflow — zo doe je dat correct

Stel je voor: je hebt een database met 12.000 contacten. Maar 1.800 daarvan staan er twee keer in. Of drie keer. Misschien zelfs vier.

▶Inhoudsopgave

Waarom Duplicaten Een Groter Probleem Zijn Dan Je Denkt
Wat Is Data Dedupliceren Eigenlijk?
Zo Bouw Je een Deduplicatie-Workflow Zonder Code
Veelgemaakte Fouten Die Je Kunt Vermijden
De Beste Tools voor Dedupliceren Zonder Code
Conclusie: Begin Vandaag, Niet Morgen

Je marketingtool stuurt dezelfde mail keer op keer naar dezelfde persoon, je CRM raakt overzichteloos, en je rapportages liegen je keihard in het gezicht. Klinkt herkenbaar? Dan is het hoog tijd om écht aan de slag te gaan met data dedupliceren — en gelukkig hoef je daar geen programmeur voor te zijn.

In dit artikel laten we je zien hoe je duplicaten opspoort en opruimt binnen een no-code workflow. Geen technisch jargon, geen codeblokken, gewoon heldere stappen die je vandaag al kunt toepassen. Of je nu werkt met Make, Zapier, n8n of een ander platform — de principes zijn universeel.

Waarom Duplicaten Een Groter Probleem Zijn Dan Je Denkt

Duplicaten lijken onschuldig. "Ach, het is maar een paar dubbele rijen." Maar die paar dubbele rijen hebben een sneeuwbeleffect.

Je e-mailmarketingtool zoekt uit wie er dubbele ontvangers zijn — en tja, ineens stuur je drie mails naar dezelfde persoon. Dat kost niet alleen geld (tools als Mailchimp en ActiveCampaign rekenen per contact), maar het verpest ook je statistieken. Open rates dalen, click-through rates worden onbetrouwbaar, en je denkt dat je campagne slecht presteert terwijl het gewoon je data is die schreeuwt om een schoonmaakbeurt.

En het stopt niet bij marketing. Denk aan je klantenservice: als dezelfde klant drie keer in je systeem staat onder drie verschillende namen, krijgt iedere medewerker een ander beeld.

Dat leidt tot fouten, frustratie en uiteindelijk naar klanten die vertrekken. Uit onderzoek van Experton Group blijkt dat bedrijven gemiddeld 15 tot 25 procent van hun databestanden bevatten uit duplicaten. Bij een bedrijf met 10.000 klanten betekent dat dus tot wel 2.500 dubbele records. Dat is geen detail — dat is een probleem.

Wat Is Data Dedupliceren Eigenlijk?

Dedupliceren betekent simpelweg: dubbele gegevens opsporen en samenvoegen of verwijderen. Maar het moeilijke zit hem in de details.

Want wanneer is iets echt een duplicaat? Als twee records dezelfde e-mailadres hebben, is het duidelijk. Maar wat als de naam net iets anders gespeld is?

"Jan Jansen" versus "J. Jansen"? Of als het telefoonnummer mist bij de ene entry maar wel aanwezig is bij de andere?

Exacte match: het e-mailadres is letterlijk hetzelfde.
Fuzzy match: namen lijken op elkaar, maar zijn niet identiek. Denk aan "Robert" versus "Robrecht" of "BV" versus "B.V."
Combinatiematch: de naam is anders, maar het e-mailadres en telefoonnummer komen overeen.

Daarom werk je in een goede deduplicatie-workflow met wat we "matchregels" noemen.

Dit zijn criteria die bepalen wanneer twee records als dubbel worden beschouwd. De meest voorkomende zijn: Hoe specifieker je matchregels, hoe minder je fout-positieven krijgt — dus minder kans dat je twee verschillende mensen per ongeluk samenvoegt.

Zo Bouw Je een Deduplicatie-Workflow Zonder Code

De kracht van no-code platforms is dat je dit soort logica visueel kunt bouwen. Geen programmeerkennis nodig, gewoon logisch denken en de juiste blokken aan elkaar koppelen.

Stap 1: Haal Je Data Op uit de Bron

Hieronder de stappen die in vrijwel elk platform — of het nu Make, Zapier, n8n of Integromat is — terugkomen.

Stap 2: Normaliseer Je Data Voordat Je Vergelijkt

Allereerst verbind je je databron met je workflow. Dat kan een Google Sheet zijn, een Airtable-base, een CRM zoals HubSpot of Salesforce, of zelfs een e-mailmarketingplatform. Het idee is dat je periodiek — bijvoorbeeld elke nacht om 3:00 uur — alle records ophaalt en door je workflow laat lopen.

Dit is de stap die de meeste mensen overslaan, en het is precies de stap die het verschil maakt tussen een slopende en een scherpe deduplicatie. Normaliseren betekent: zorg ervoor dat alle data in hetzelfde formaat staat voordat je begint met vergelijken.

Alles omzetten naar kleine letters (lowercase), zodat "JAN@BEDRIJF.NL" en "jan@bedrijf.nl" als hetzelfde worden herkend.
Spaties aan het begin en einde van velden verwijderen.
Afscheidingstekens in telefoonnormaliseren: "+31 6 12345678" en "06-12345678" moeten als gelijk worden beschouwd.
Bedrijfsnamen standaardiseren: "B.V." altijd maken naar "BV", of andersom.

Concreet betekent dat: In een no-code tool kun je dit doen met tekstfuncties zoals "trim", "lowercase", "replace" en "regex". De meeste platforms bieden deze functionaliteit standaard aan. Nu komt het echte werk.

Stap 3: Vergelijk Records op Basis van Je Matchregels

Je loopt door je dataset en vergelijkt elke record met de rest.

In een no-code workflow efficiënt beheren doe je dit meestal met een "iterator" of "loop"-module die record voor record verwerkt. De eenvoudigste aanpak: gebruik het e-mailadres als primaire sleutel. Als twee records hetzelfde e-mailadres hebben, markeren ze als potentieel duplicaat.

Voor een robuustere aanpak voeg je een tweede controle toe: als het e-mailadres mist, vergelijk je op naam én telefoonnummer. Let op: bij grote datasets (meer dan 5.000 records) kan dit intensief worden voor je platform.

Stap 4: Bepaal Welke Record Behoudt Blijft

Zorg dan dat je werkt met batches — bijvoorbeeld steeds 500 records tegelijk — om timeouts te voorkomen. Als je een duplicaat hebt gevonden, moet je beslissen: welke versie houd je? De oudste? De meest recente? De meest complete? Dit noemen we "survivorship rules" — en het is belangrijk dat je hier bewust een keuze in maakt.

Een veelgebruikte strategie: behoud de record met de meeste ingevulde velden. Of: behoud de meest recent bijgewerkte record, en vul ontbrekende velden aan met gegevens uit het duplicaat.

Stap 5: Voeg Samen of Verwijder, en Log Altijd Wat Je Doet

Zo verlies je geen informatie. De laatste stap is het daadwerkelijk opschonen.

Je workflow voegt de records samen in je bronsysteem, of verwerkt ze naar een schone lijst. Maar — en dit is cruciaal — log altijd wat je hebt gedaan. Bewaar een overzicht van welke records zijn samengevoegd of verwijderd, met datum en tijd.

Waarom? Omdat er altijd iets mis kan gaan.

En als je geen log hebt, kun je nooit achterhalen wat er is gebeurd. Een simpele Google Sheet met kolommen zoals "Record ID oud", "Record ID nieuw", "Datum", "Actie" is al voldoende. Die 20 minuten investeren kan je later een hoop ellende besparen.

Veelgemaakte Fouten Die Je Kunt Vermijden

We zijn niet voor niets even stilgelegd bij wat er mis kan gaan. Want dedupliceren gaat vaker fout dan je denkt.

Hier zijn de drie grootste valkuilen. Veel tools bieden een "automatische deduplicatie" aan. Klinkt fantastisch, maar het gevaar is groot. Algoritmes maken fouten.

Fout 1: Blind Vertrouwen op Automatische Matching

Ze voegen mensen samen die toevallijk dezelfde naam hebben, of ze missen duplicaten omdat een letter verschilt.

Gebruik automatisering als hulpmiddel, niet als enige waarborg. Voeg altijd een menselijke controle toe bij twijfgevallen. Dit klinkt als een open deur, maar je zou versteld staan hoeveel mensen direct beginnen met opschonen zonder eerst een back-up te maken. Maak altijd een kopie van je originele dataset.

Fout 2: Geen Back-up Maken Voor Je Begint

In een no-code workflow kun je dit automatiseren: de eerste module in je flow regelt automatisch back-ups van je bedrijfsdata. Mocht er iets misgaan, kun je altijd terug.

Dedupliceren is geen eenmalige klus. Het is een proces. Nieuwe data komt continu binnen, en daar zitten weer duplicaten in.

Fout 3: Eenmalig Opschonen in Plaats van Structureel

Stel daarom een periodieke controle in — wekelijks of maandelijks, afhankelijk van hoe snel je data groeit.

Automatiseer het zodat het vanzelf draait. Dan heb je er nooit meer naar te kijken, en blijft je data schoon.

De Beste Tools voor Dedupliceren Zonder Code

Er zijn talloze platforms die je hiermee kunnen helpen. Hier een paar die uitblinken in gebruiksgemak en functionaliteit. Make (voorheen Integromat) is een van de meest krachtige no-code automatiseringstools op de markt.

Met de ingebouwde "router" en "iterator" modules kun je iterators en arrays gebruiken in Make voor het bouwen van complexe logica bij het vergelijken en samenvoegen van records.

Ideaal voor middelgrote datasets tot zo'n 10.000 records. n8n is een open-source alternatief dat je zelf kunt hosten.

Dat betekent volledige controle over je data — belangrijk als je met gevoelige informatie werkt. De leercurve is iets steiler, maar de flexibiliteit is ongeëvenaard. Airtable biedt zelfs ingebouwde deduplicatie-functionaliteit.

Als je data al in Airtable staat, kun je duplicaten rechtstreeks opsporen via de "Find duplicates" functie.

Voor simpele use cases is dit vaak al voldoende. Voor wie liever een gespecialiseerde tool gebruikt: WinPure en Data Ladder zijn softwarepakketen die zich richten op data cleansing en deduplicatie. Ze bogen geavanceerde fuzzy-matching algoritmes en zijn geschikt voor grotere, complexere datasets.

Conclusie: Begin Vandaag, Niet Morgen

Data dedupliceren is niet het meest sexy onderwerp ter wereld. Maar het is een van de meest impactvolle dingen die je kunt doen voor de kwaliteit van je bedrijfsprocessen.

Betere marketingstatistieken, tevreden klanten, betere beslissingen op basis van betrouwbare data — het begint allemaal met een schone dataset. En het mooie: je hebt geen ontwikkelaar nodig. Met de juiste no-code tool en de stappen die we hier hebben beschreken, kun je vandaag nog beginnen.

Begin klein — kies één databron, bouw een simpele workflow, en test grondig. Als het werkt, schaal je uit.

Voorkom dat je data een rommel wordt. Want rommeldata levert rommelinzichten op, en daar bouwt niemand een succesvol bedrijf op.