Wat is data mining? | Betekenis & Voorbeelden
Data mining is het proces van het extraheren van betekenisvolle informatie uit grote hoeveelheden gegevens. Met behulp van data mining-methoden kunnen organisaties verborgen patronen, relaties en trends in gegevens ontdekken. Deze kunnen ze gebruiken om zakelijke problemen op te lossen, voorspellingen te doen en hun winst of efficiëntie vergroten.
De term “data mining” is eigenlijk onjuist, omdat het doel niet is om de gegevens zelf te extraheren, maar eerder betekenisvolle informatie uit de gegevens te halen.
Wat is data mining?
Data mining, ook wel bekend als knowledge discovery in data (KDD), is een tak van datawetenschap. Hierbij worden computersoftware, machine learning (het proces van machines leren hoe ze van gegevens kunnen leren zonder menselijke tussenkomst) en statistieken samengebracht om bruikbare informatie uit enorme datasets te extraheren of te “minen”.
Door onze online interacties met bedrijven, overheidsinstanties of onderwijsinstellingen produceren we een grote hoeveelheid gegevens. Deze “big data” bestaat uit datasets die zo groot zijn dat het voor een mens niet mogelijk is om ze te analyseren. In plaats daarvan wordt dit gedaan met behulp van een computer.
Data mining transformeert deze ruwe gegevens (raw data) in praktische kennis die organisaties helpt belangrijke vragen over hun gebruikers of consumenten te beantwoorden. Toepassingen van data mining zijn onder andere het analyseren van consumentengedrag, verkoopvoorspellingen en fraudedetectie.
Welke data mining-technieken zijn er?
Data mining-technieken putten uit verschillende vakgebieden, zoals machine learning (ML) en statistiek. Hier zijn enkele veelvoorkomende data mining-technieken:
- Classificatie is de taak van het toewijzen van nieuwe gegevens aan bestaande of vooraf gedefinieerde categorieën. Een voorbeeld hiervan is het sorteren van een dataset met e-mails als “spam” of “geen spam”.
- Clustering is het proces van het groeperen van gegevens die gemeenschappelijke kenmerken delen in subgroepen of clusters. In tegenstelling tot classificatie (waar groepen vooraf zijn gedefinieerd), is clustering een ontdekkingsmethode die ons helpt patronen te identificeren. Dit stelt bedrijven in staat om klantsegmenten te creëren op basis van loyaliteit, communicatievoorkeuren of andere kenmerken die uit de gegevens naar voren komen.
- Association Rule Learning is een techniek waarbij op zoek wordt gegaan naar relaties tussen datapunten. Een supermarktketen kan associatie-regel leren gebruiken om te ontdekken welke producten vaak samen worden gekocht en deze inzichten gebruiken voor promoties.
- Regressie is een statistische methode die wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te modelleren. Het doel is om de waarde van de afhankelijke variabele te voorspellen op basis van de waarden van de onafhankelijke variabelen. Zo zouden we bijvoorbeeld de toekomstige waarde van een huis kunnen voorspellen op basis van historische gegevens over huizen met vergelijkbare kenmerken.
- Anomalie- of uitschieterdetectie (outlier) is het proces waarbijongebruikelijke gegevens binnen een dataset (dat wil zeggen gegevens die niet het algemene patroon volgen) worden geïdentificeerd. Deze gegevens kunnen interessant zijn (bijvoorbeeld als ze een piek in de verkoop van bepaalde producten laten zien) of verder onderzoek vereisen (bijvoorbeeld als ze potentiële gevallen van fraude tonen).
Hoe werkt data mining?
Het data mining-proces omvat het gebruik van statistische methoden en machine learning-algoritmes om patronen in data te identificeren. Dankzij de vooruitgang in verwerkingskracht en snelheid van computers is data-analyse grotendeels geautomatiseerd.
Er zijn verschillende manieren om het data mining-proces te beschrijven, maar een veelgebruikt model is het Cross-Industry Standard Process for Data Mining (CRISP-DM) dat de volgende fasen omvat:
- Bedrijfsbegrip (business understanding)
- Data understanding
- Data preparation
- Gegevensmodellering
- Evaluatie
- Implementatie
Bedrijfsbegrip
In de fase van bedrijfsbegrip (business understanding) moeten we het probleem identificeren dat we willen oplossen door middel van data mining. Een voorbeeld hiervan is een bedrijf dat een meer gerichte marketingcampagne wil creëren.
Datawetenschappers en andere relevante belanghebbenden moeten het zakelijke probleem definiëren, waarna de vragen worden bepaald die als leidraad voor het project dienen. Extra onderzoek kan nodig zijn om het zakelijke kader te begrijpen. Het bepalen van projectdoelen en succescriteria is belangrijk om de juiste gegevens te verzamelen en resultaten van het project te kunnen evalueren.
Data understanding
Nadat het probleem is gedefinieerd, moeten we benodigde datatype bepalen en relevante bronnen identificeren. In deze stap verzamelen datawetenschappers gegevens uit verschillende bronnen, zoals transactiegegevens en klantendatabases.
Niet elk gegevenspunt is echter relevant voor het project. Zo kan een bedrijf bijvoorbeeld alleen geïnteresseerd zijn in aankopen via creditcard. Het doel hier is ervoor te zorgen dat alleen de noodzakelijke gegevens worden meegenomen. Tegen het einde van de fase van data understanding (ook wel databegrip genoemd) zou het data mining-team de subset van gegevens moeten hebben geselecteerd die nodig is om het probleem aan te pakken.
Data preparation
Data preparation (ook wel datavoorbereiding genoemd) is het meest tijdrovende stadium en omvat verschillende acties om de gegevens klaar te maken voor verdere verwerking en analyse. Dit kan het uitsluiten van duplicaten, ontbrekende gegevens of uitschieters uit de gegevens omvatten. Dit proces heet data cleansing.
Gegevens uit meerdere bronnen kunnen worden samengevoegd, georganiseerd of aangepast op verschillende manieren ter voorbereiding op de volgende fase. Aan het einde van deze fase heeft het data mining-team de meest relevante variabelen geïdentificeerd en het definitieve gegevensbestand voorbereid.
Gegevensmodellering (data modeling)
Gegevensmodellering (data modeling) is het proces van het organiseren en begrijpen van gegevens op een gestructureerde manier. Het helpt data mining-teams om betekenisvolle patronen en inzichten te vinden in de beschikbare gegevens.
Datawetenschappers gebruiken verschillende modellen, afhankelijk van het type gegevens dat ze hebben en het probleem dat ze proberen op te lossen. Zo willen ze bijvoorbeeld identificeren welke producten vaak samen worden gekocht of verdachte transacties in banken detecteren. Hiervoor kunnen ze verschillende technieken gebruiken.
Zo kunnen ze classificatietechnieken toepassen om gelabelde gegevens te categoriseren of clusteringstechnieken gebruiken om vergelijkbare datapunten samen te groeperen. Door dit modelleerproces te herhalen proberen datawetenschappers de beste oplossing te bereiken.
Evaluatie
Tijdens de evaluatiefase beoordeelt het data mining-team de effectiviteit van het model door de beantwoording van hun oorspronkelijke vraag te evalueren. Dit is een mensgestuurde fase, omdat de projectleider moet beslissen of het model de oorspronkelijke vraag goed beantwoordt en of het nieuwe en voorheen onbekende patronen blootlegt.
In tegenstelling tot de technische beoordeling in de modelleringsfase, wordt bij de evaluatiefase bepaald welk model het beste voldoet aan de doelstellingen. Ook worden de vervolgstappen vastgesteld. Dit houdt in dat de resultaten worden afgezet tegen de succescriteria, dat het proces op eventuele omissies wordt gecontroleerd en dat bevindingen worden samengevat.
Het team kan bijvoorbeeld besluiten om door te gaan naar de volgende fase of juist alternatieve modellen verkennen als het model niet aansluit bij de gewenste doelstellingen. Ook kunnen de gegevens opnieuw worden bekeken.
Implementatie
De implementatiefase gaat over het in praktijk brengen van de kennis en inzichten die zijn opgedaan tijdens het project.
Afhankelijk van de oorspronkelijke vraag of het probleem kan implementatie iets eenvoudigs zijn (zoals een rapport of een visuele presentatie maken) of iets complexers (zoals een nieuwe verkoopstrategie genereren). Implementatie omvat het integreren van de resultaten in de operaties of besluitvormingsprocessen van de organisatie.
Data mining toepassingsvoorbeelden
Hier zijn enkele voorbeelden van data mining in de echte wereld:
- Marktmandanalyse. Winkeliers gebruiken datamining om grote datasets te analyseren en kooppatronen te ontdekken, zoals producten die vaak samen worden gekocht of seizoensgebonden trends. Deze informatie helpt ze om hun winkels of websites beter te organiseren, verkoopvoorspellingen te doen en gerichte promoties en aanbiedingen aan te bieden.
- Academisch onderzoek. In literatuuronderzoeken kunnen data mining-technieken worden gebruikt om teksten te analyseren en de emotiesvan auteurs of personages te begrijpen. Sentimentanalyse heeft betrekking op het gebruik van natuurlijke taalverwerking en machine learning-algoritmen om de emotionele toon van een tekst te bepalen.
- Onderwijs. Educatieve data mining (EDM) heeft als doel het leren te verbeteren door verschillende educatieve gegevens te analyseren, zoals de interacties van studenten met online leerplatforms of administratieve gegevens van scholen en universiteiten. Deze methode helpt onderwijsaanbieders om de behoeften van studenten beter te begrijpen en ze te ondersteunen, bijvoorbeeld door aangepaste lessen aan te bieden of risicostudenten te identificeren en met hen in contact te komen voordat ze uitvallen.
Andere interessante artikelen
Op zoek naar meer informatie over ChatGPT, AI tools, retoriek en onderzoeksbias? Bekijk onze artikelen met uitleg en voorbeelden!
Veelgestelde vragen
- Is data mining hetzelfde als data-analyse?
-
Data mining en data-analyse worden vaak door elkaar gebruikt, maar het zijn twee afzonderlijke processen in het veld van datawetenschap.
- Data mining is het proces waarbij verborgen patronen, trends of relaties worden gezocht in grote datasets. Het omvat verschillende technieken, zoals machine learning en statistiek, om nuttige informatie te vinden in complexe gegevens en om besluitvorming en planning te ondersteunen. Dit proces wordt ook wel “kennisontdekking” genoemd.
- Data-analyse daarentegen is een bredere term die het hele proces van inspectie, opschoning en organisatie van ruwe gegevens beschrijft. Het doel is om conclusies te trekken, inferenties te maken en besluitvorming te ondersteunen. Data-analyse omvat verschillende technieken, zoals descriptieve of beschrijvende statistiek, data mining, hypothesetoetsing en regressieanalyse.
Met andere woorden, data mining is een van de technieken die worden gebruikt voor data-analyse wanneer er behoefte is om verborgen patronen en relaties in de gegevens te ontdekken die bij andere methoden mogelijk over het hoofd worden gezien, terwijl data-analyse een breder scala aan activiteiten omvat.
- Waarom is data mining belangrijk?
-
Data mining is belangrijk omdat het ons in staat stelt om betekenisvolle patronen en relaties te ontdekken in grote hoeveelheden gegevens op een relatief snelle en efficiënte manier.
Data mining-technieken kunnen gebruikmaken van gegevens uit verschillende bronnen, zoals socialemediaplatforms of klantendatabases, en deze omzetten in nuttige inzichten. Met deze inzichten kunnen zakelijke vragen of onderzoeksvragen worden beantwoord, voorspellingen worden gedaan en besluitvorming worden ondersteund.
- Wat is het verschil tussen data mining en machine learning?
-
Data mining en machine learning zijn gerelateerde vakgebieden, maar ze hebben verschillende doelen:
- Het doel van machine learning is om algoritmes te ontwikkelen waardoor computers kunnen leren zonder menselijke tussenkomst. Het draait erom machines slimmer te maken, zodat ze taken kunnen uitvoeren die verband houden met menselijke intelligentie zonder menselijke sturing.
- Het doel van data mining is om grote datasets te doorzoeken en bruikbare informatie, zoals patronen en relaties, te extraheren die kunnen worden gebruikt om besluitvorming te ondersteunen. Met andere woorden, het is een tool voor mensen.
Hoewel data mining en machine learning verschillende doelen hebben, is er wel enige overlap in hun toepassingen. Machine learning kan worden gebruikt als een middel om data mining uit te voeren door automatisch patronen in data te detecteren. Aan de andere kant kunnen data die zijn verzameld via data mining worden gebruikt om machines te onderwijzen en hun leercapaciteiten te verbeteren.
Kortom, data mining en machine learning kunnen elkaar aanvullen, maar ze zijn verschillend in hun doelen en toepassingen.
Bronnen voor dit artikel
We raden studenten sterk aan om bronnen te gebruiken. Je kunt verwijzen naar ons artikel (APA-stijl) of je verdiepen in onderstaande bronnen.
Citeer dit Scribbr-artikel Bronnen