Inspireren met AI

DeepSeek: van AI-innovatie tot datalek

Wat betekent dit voor privacy en onderwijs?

Een open AI-revolutie

...met een kanttekening

In korte tijd is DeepSeek uitgegroeid tot een van de meest besproken open source AI-projecten. De modellen – vooral DeepSeek-Coder 6.7B – worden geroemd om hun prestaties in codegeneratie, redeneren en taalkundige coherentie. Wat het bijzonder maakt: het team erachter werkt met een beperkt budget, kleine teams en minimale rekenkracht in vergelijking met giganten als OpenAI of Google DeepMind.

En toch presteert het model op benchmarks vergelijkbaar met GPT-3.5 – een prestatie van formaat, die de AI-wereld wakker schudde. Maar er is ook een andere kant. Recent kwam aan het licht dat de backend van DeepSeek een open database bevatte met gevoelige gegevens, publiek toegankelijk voor iedereen. En dat roept niet alleen technische, maar ook ethische en geopolitieke vragen op.

Wie zit er achter DeepSeek?

DeepSeek is een initiatief van DeepSeek-Vision, een relatief onbekend AI-lab gevestigd in China. Het project positioneert zich als een “open alternative to closed models” en publiceert zijn modellen onder licenties die vrij gebruik toestaan voor onderzoek en ontwikkeling.

Wat DeepSeek uniek maakt, is dat het:

  • Met beperkte compute resources traint (vergeleken met GPT-4 of Gemini)
  • Transparant is over architectuur, datasources en benchmarks
  • Zich richt op praktische toepassingen zoals programmeren, documentanalyse en LLM-integratie in systemen

Maar: weinig is bekend over de financiering, governance en hostinginfrastructuur. En dat maakt het – zeker in de context van Chinese AI-ontwikkeling – gevoelig.

DeepSeek, open maar niet veilig

Het datalek

In het voorjaar van 2024 werd door Group-IB een groot beveiligingslek ontdekt:
Een publiek toegankelijke ClickHouse-database, waarin onder andere het volgende stond:

  • API-sleutels van gebruikers
  • Promptgeschiedenis, inclusief inhoudelijke interacties
  • Authenticatietokens
  • Interne logbestanden van modelinteracties

 

Hoewel DeepSeek snel actie ondernam, werpt het incident twijfels op over de volwassenheid van de beveiligingsstructuur van het project. Voor instellingen die overwegen het model te gebruiken – zeker in het onderwijs of bij gevoelige data – is dit een belangrijk signaal.

Wat zijn de risico's?

  1. Onbedoelde openbaarmaking van leer- of toetsdata. Promptgeschiedenis die herleidbaar is tot studenten of opdrachten kan gevoelige onderwijsinformatie prijsgeven.
  2. Verlies van intellectueel eigendom. Gebruikers die het model voeden met unieke ideeën of concepten lopen risico op onbedoelde herpublicatie of hergebruik.
  3. Geopolitieke risico’s: Chinese hosting en wetgeving. In China zijn AI-projecten onderhevig aan wetgeving zoals de Cybersecurity Law (2017), die toestaat dat de overheid toegang kan vragen tot datasets en gebruikersgegevens. Dit werpt vragen op over data-extractie en toezicht bij internationaal gebruik van DeepSeek-gehoste infrastructuur.

 

Kortom: “open source” betekent niet automatisch “open governance” of “veilig gebruik.”

Waarom het tóch interessant blijft

Dat een klein team in China erin slaagt om met minimale middelen een model van deze kwaliteit te bouwen, is een wake-up call. Het laat zien dat:

  • AI-democratisering niet alleen door Amerikaanse big tech bepaald wordt
  • Kennis, niet alleen compute, steeds meer bepalend is voor modelkwaliteit
  • Onderwijsinstellingen en ontwikkelaars steeds meer tools krijgen om zelf alternatieven te bouwen

 

Dat vraagt om nieuwe vormen van AI-geletterdheid: niet alleen promptvaardigheid, maar ook kennis over datastromen, governance en infrastructuur.

Lokaal draaien:

Meer controle, minder risico

In plaats van gebruik te maken van de publieke API’s of servers van DeepSeek, kiezen steeds meer gebruikers ervoor om het model zelf te draaien via tools als Ollama.

Voordelen van lokaal draaien:

  • Volledige controle over datastromen
  • Offline beschikbaar – ideaal voor onderwijsinstellingen of R&D-afdelingen
  • Geen afhankelijkheid van externe landen of partijen
  • Beveiliging en audit trail in eigen hand

 

Zelf draai ik DeepSeek-Coder lokaal, o.a. voor:

  • Prompt engineering in trainingen
  • AI-gestuurde scriptiebegeleiding
  • Codeanalyse voor educatieve doeleinden

Reflectie voor het onderwijsveld

Onderwijsinstellingen die AI willen integreren, moeten zich bewust zijn van de volledige AI-keten. Het gaat niet alleen om wat een model kan, maar ook:

  • Wie het model beheert
  • Waar de data naartoe gaan
  • Welke risico’s dat met zich meebrengt voor studenten, docenten en instellingen

DeepSeek is technisch gezien briljant – maar ethisch en juridisch nog geen veilige haven.

Conclusie: transparantie ≠ vertrouwen

DeepSeek toont aan dat AI zich razendsnel ontwikkelt – ook buiten Silicon Valley. Maar snelheid mag geen vervanging zijn voor veiligheid. Voor onderwijs, onderzoek en professioneel gebruik geldt: Vraag altijd wie toegang heeft, wie mee kan kijken en wie bepaalt.