Pour le pilote de notre nouvelle émission IA et Product “C’est pas SorciAI”, on s’intéresse au phénomène DeepSeek, la startup chinoise de l’IA. En compagnie de l’expert du Ticket, Fred Bardolle, Head of Product IA chez Scaleway.

⌛ 6 min de lecture "to seek deep"

🎫 Les membres Premium du Ticket ont un accès intégral à cet article


Le sommaire et points clés à retenir de ce décryptage sur DeepSeek : 

1. Qui est DeepSeek ?

2. Pourquoi tout le monde parle de DeepSeek ?

3. Quelles sont les originalités de DeepSeek ?

4. En quoi l’Open Sources est aussi un facteur de différenciation de DeepSeek ?

5. Quid de l’enjeu des données sur DeepSeek ?

6. Et la censure sur DeepSeek ?

7. Est-ce que ce type de modèle plus économe permettra à l’IA d’être un peu plus écologique (en tout cas moins énergivore) ? (spoil : non 😔)


Les 5 premières minutes de l'émission (la vidéo complète est dispo en version Premium ci-dessous) :

1. Qui est DeepSeek ?

DeepSeek est une startup chinoise fondée en 2023 par l’entrepreneur Liang Wenfeng, 40 ans, qui a fait fortune grâce à un fonds d'investissement lancé en 2015. Elle crée des modèles d’intelligence artificielle (IA), qui sont à la base des Large Language Model (LLM).

L’ambition de DeepSeek ? Être les premiers à atteindre une intelligence artificielle générale (IAG), un modèle en quelque sorte plus intelligent que les humains.

La société a sorti un modèle, appelé “V3”, il y a un mois, qui est l’équivalent de ChatGPT 4o. Et, fin janvier, DeepSeek en a dévoilé de nouveaux, notamment “R1” qui a beaucoup fait parler et est similaire aux modèles o1 ou o3 de OpenAI.

Il s’agit d’un modèle de raisonnement, c’est-à-dire que, avant de répondre, il va “réfléchir” et va produire beaucoup de token (du texte qu’on ne voit pas forcément, OpenAI le cache par exemple). En mode : “Si je réponds de cette manière à cette question, voici ce que je vais trouver. Et si je procède comme cela etc.”

La famille des modèles de DeepSeek

2. Pourquoi tout le monde parle de DeepSeek ?

Ce qui a provoqué le buzz médiatique (et les plongées en Bourse des acteurs américains comme le fabricant de puces NVIDIA), c’est le prix qu’aurait coûté l’entraînement de son modèle V3 : environ 6 millions de dollars. Alors que pour ce type de modèle, les montants sont généralement dix à cent fois supérieurs… pour des performances équivalentes !

Il faut en effet ce qu’on appelle des GPU, des cartes graphiques dont les plus puissantes peuvent coûter le prix d’une voiture (entre 30 000 $ et 40 000 $).

Sauf que si on prend le papier de recherche publié par DeepSeek, il est bien indiqué qu’il s’agit du montant de la dernière phase d’entraînement. Ne sont pas pris en compte les coûts de R&D, tous les tests préalables, l’infrastructure etc. 

Ce chiffre est donc vraiment à prendre avec des pincettes, même si tout le monde s’est arrêté dessus. D’autant qu’il touche également à un volet géopolitique : les États-Unis ont interdit l’export des meilleures puces NVIDIA à une majorité de pays, pour garder leur avantage stratégique. Notamment la “H100”, la rolls des GPU à l’heure actuelle.

Dans leur papier, DeepSeek dit qu’ils utilisent des H800, des cartes qu’ils avaient le droit d’avoir et qui sont une version bridée spéciale, avec moins de mémoire. Au passage, c’est ce qui a forcé DeepSeek à faire des choix malins pour réussir à tout faire rentrer dessus. Même s’il n’est pas impossible que, malgré les restrictions, des entreprises chinoises aient réussi à obtenir des H100. Selon des sources crédibles, DeepSeek posséderait plusieurs milliers de H100.

Crack - Source : Numerama

3. Quelles sont les originalités de DeepSeek ?

Malgré tout, DeepSeek présente de vraies prouesses technologiques. Il y en a 3 principales (avec des noms barbares qu’on va vulgariser) :

Cet article est réservé aux membres Premium du Ticket.

Le meilleur du Produit pour progresser et faire progresser ton équipe

Le Ticket Premium est lu par les meilleures équipes produit de France …

3 newsletters / mois

Pour connaître l’essentiel

L’intégralité des articles et guides

Pour creuser (vraiment) en profondeur les meilleures pratiques de l’écosystème

Le canal de veille Whatsapp

Pour avoir des infos produit régulières en version synthétique

2 émissions par mois dédiées à l'IA et le produit

Pour aller au delà du buzz

Les fiches de lecture Produit

Pour connaître les enseignements clés d’un bouquin en 10 min