DeepSeek est-il vraiment disruptif ?
Une avancée technologique significative
Les modèles de langage Open Source (LLM) suivent depuis toujours une règle quasi universelle : plus un modèle a de paramètres, plus il est performant, mais également plus il est lent et coûteux à entraîner.
Jusqu’à récemment, ce postulat restait incontesté, car les architectures les plus performantes étaient denses (activant tous leurs paramètres à chaque phase d'inférence).
Cependant, DeepSeek V3 introduit une rupture technologique majeure avec une architecture MoE (Mixture of Experts).
Qu'est-ce que l'architecture MoE ?
Contrairement aux modèles classiques, DeepSeek V3 n’est pas un seul bloc monolithique. Il combine plusieurs mini-modèles experts, chacun spécialisé dans un domaine, qui s'agrègent dynamiquement pour fournir une réponse optimale.
Cette approche permet d’activer seulement une fraction des paramètres nécessaires lors des phases d'inférence, réduisant ainsi considérablement les coûts et améliorant l'efficacité.
Comparaison DeepSeek V3 vs LLAMA 3.1
Modèle | Nombre total de paramètres | Paramètres activés lors de l’inférence |
---|---|---|
DeepSeek V3 | 671 milliards | 37 milliards |
LLAMA 3.1 | 405 milliards | 405 milliards |
Avec une activation de seulement 37 milliards de paramètres, DeepSeek V3 offre un rapport d'activation de 1/11 par rapport à LLAMA 3.1 - la majorité des tests (LongBench v2 (Acc.), LiveCodeBench (Pass@1-COT), MATH-500 (EM), C-Eval (EM)), confirme que le modèle est plus performant mais pas qu’il est plus rapide ou plus petit.
Une alternative sérieuse aux LLM traditionnels
DeepSeek V3 est l'un des premiers modèles Open Source à prouver que l'architecture MoE peut dépasser les LLM classiques en termes de performances et d'efficacité.
Il faut cependant rappeler que ce n’est pas le seul LLM basé sur cette architecture. En effet, Mixtral 8x7B est un modèle de Mistral apparu dès la fin de 2023 basé aussi sur une architecture MoE, mais n’a pas eu des résultats aussi convaincants que DeepSeek V3.
Selon de récentes rumeurs, GPT-4 serait aussi basé sur une architecture MoE sans que cela n'ait jamais été confirmé par OpenAI.
DeepSeek R1 : Une percée dans le raisonnement des modèles
DeepSeek ne s’arrête pas là. La version R1 introduit une avancée majeure en tentant de résoudre l’une des grandes limitations des LLM : leur incapacité à raisonner correctement.
L'apprentissage par renforcement a conduit au développement de DeepSeek R1. Parallèlement, des modèles distillés (basés sur Qwen et Llama) particulièrement performants ont également été conçus.
Avec toujours des coûts maîtrisés, DeepSeek R1 égale la référence OpenAI-o1 sur des benchmarks exigeants comme MATH-500 (pass@1). De plus, les modèles DeepSeek-R1 restent Open Source et disponibles sur HuggingFace.
Les solutions développées ont été évaluées selon des critères rigoureux incluant l'Exactitude Globale (ACC) et l'Exactitude sur les 25 % des prédictions les plus fiables (ACC25).
DeepSeek va-t-il remplacer ChatGPT ?
L'arrivée de DeepSeek sur le marché des LLM enrichit le choix pour les utilisateurs, avec des alternatives comme Gemini, LeChat de Mistral, ChatGPT, et bien d'autres.
Quels critères pour choisir son chatbot ?
Si les performances des modèles sont comparables, la décision dépendra davantage de facteurs comme :
- L'interface utilisateur
- La compatibilité multi-plateforme
- La qualité des applications mobiles
- Le coût des API
- L'intégration avec les outils du quotidien
Sur ces points, DeepSeek ne se distingue pas encore suffisamment pour s'imposer comme une référence incontournable.
Une analogie avec les moteurs de recherche
Tout comme pour les moteurs de recherche (Google pour son écosystème, Ecosia pour son engagement écologique, Brave pour la protection des données), l’avenir des LLM semble davantage lié à l’expérience utilisateur qu’à la seule performance technique.
Ainsi, l’évolution du marché des LLM se tourne plus vers améliorer leur UX qu’une amélioration uniquement des performances théoriques comme l’a fait DeepSeek.
Chez MARGO, nous aidons nos clients à exploiter la puissance de ces avancées pour booster leur business, en transformant la donnée en levier stratégique de croissance et d'innovation.
Vous souhaitez en savoir plus ? Contactez-nous.