Ga naar content
Zoek op onderwerpen, blogs, diensten etc.

Hoe versnel je een Data Science casus?

Blogs
Data Driven
6-1-2022

Om met Data Science aan de slag te gaan, klap je al snel je laptop open, installeer je het een en ander en ga je aan de slag. Maar dan loop je al snel tegen problemen aan over schaalbaarheid, samenwerking, mogelijkheden om het uit te rollen, kwaliteit waarborgen, security en nog vele anderen. Vandaar dat we vandaag kijken naar een Enterprise Data Science oplossing die ons helpt bij al deze punten!

Een van deze producten is Dataiku. Dit is een zeer toegankelijk Data Science product. een voordeel van Dataiku is dat het volledig draait op een server. Via je browser kom je overal en altijd bij je projecten.

In deze blog geven we 5 tips om je Data Science project een boost te geven.

Tip 1: push down i.c.m. Snowflake.

Data Science modellen werken van goed doordat er ze van veel datapunten kunnen leren. Hierdoor werk je vaak met erg grote datasets. Vaak worden deze grote datasets ook nog gecombineerd met andere datasets. Hierdoor kun je snel tegen een limiet aanlopen. Door gebruik te maken van een database kun je dit oplossen. Dataiku kan dan ook een directe link maken naar een database, zodat je daar je data kunt opslaan en je berekeningen kunt doen. Dit resulteert in een betere performance. Voor de Dakar data hebben we hierbij gebruik gemaakt van een Snowflake database. 

Tip 2: Samen aan een project werken

Dataiku is dusdanig opgezet dat je op een makkelijke manier met anderen kunt samenwerken aan een project. Op deze manier kun je samen met een collega aan een project werken, en elkaar niet in de weg zitten. Doordat het gehost wordt op een server is het ook niet nodig dat alle teamleden Dataiku op het device hebben staan. Hierdoor kan een collega makkelijk even met je meekijken tijdens een project. Dataiku houdt zelf ook een timeline bij van alle veranderingen die er gedaan worden, welke collega’s toegang hebben tot het project, etc.

Tip 3: Snel features / variables ontwikkelen.

Een groot voordeel van Dataiku zijn de vooraf gedefinieerde datapreparatie functies. Eentje die goed werkt is de “windows” functie. Hierdoor kun je makkelijk en zonder extra code moving averages, rankings, gebeurtenissen x dagen/rijen voor een bepaald moment, etc. berekenen. Een zogenaamd window kan zowel over meerdere kolommen als over een enkele kolom berekend worden. In ons voorbeeld willen we over de afgelopen 10 seconden, 60 seconden en 600 seconden over de vele telemetrie parameters bepalen wat de min, max, avg, standaard deviatie, lag diff etc. is. Heel handig om alle waardes te selecteren en deze in bulk de juiste opties meet te geven. 

Tip 4: het vergelijken van modellen

Dataiku helpt bij het analyseren en kiezen van een model. Je kunt op een makkelijke manier verschillende modellen naast elkaar draaien op dezelfde dataset, en beoordelen welk model het beste werkt.  Ook slaat Dataiku je voorgaande modellen en instellingen op, zodat je altijd terug kunt naar een eerder, beter voorspellend, model. Hierdoor kun je makkelijk op een iteratieve manier tot het beste model komen en deze in productie nemen. Ook is het makkelijk te zien welke variabelen welk effect hebben op je te voorspellen waarde. Deze staan altijd op volgorde van 'variable importance'. In een oogopslag zie je dus welk model voor jou het beste werkt, en wat de belangrijke variabelen zijn.

Tip 5: In productie brengen

Zodra je het best werkende model gevonden hebt wil je dit vaak op een makkelijke manier met de gebruikers kunnen delen en hiermee in productie brengen. Afhankelijk van de casus ga je vaak 2 kanten op; 

1. Batch scoren, hiermee integreer je bijvoorbeeld het resultaat direct met een data warehouse laadproces. Hieronder is een voorbeeld te zien van de splitsing rondom het “trainen” van het model. Nadat het model in productie is gebracht, is het model makkelijk te gebruiken. De resultaten van het model zijn op een dusdanige manier weggeschreven zodat het mogelijk is hier bijv. een rapportage op te bouwen. Op deze manier kun je de resultaten van het model op een snelle en toegankelijke manier met veel gebruikers delen. 

2. Realtime scoren via API. Door middel van de API kunnen we Dataiku voeden met de relevante gegevens en de API komt met het juiste resultaat terug. Als eerste maken we een endpoint zodat deze door bijvoorbeeld applicaties te benaderen is. Hieronder is een test zichtbaar waarbij Gforces aangeleverd worden, en waarbij de predictie Offroad wordt gegeven. 

Volg de Century Racing 6

Tijdens de Dakar Rally van 2022 tracken wij de Century Racing 6 van Team Coronel. Bekijk hier de dashboards met alle data.