L’Intelligence Artificielle générative s’est imposée dans les entreprises. Avec elle, une nouvelle architecture est devenue le standard pour interroger ses propres données privées de manière sécurisée : le RAG (Retrieval-Augmented Generation). Pourtant, si les entreprises se concentrent souvent sur le choix du modèle (GPT-5, Claude 4.7, Mistral …), elles négligent parfois un aspect crucial de l'ingénierie des données : l'optimisation des requêtes.

Au cœur de cette optimisation se trouve une notion fondamentale : le "chunking" (ou découpage de texte).

Pourquoi est-ce si important ? Et bien, parce que la facturation se fait au token dans le monde des LLM (Large Language Models).

Découvrez comment la préparation de vos données, l'art du chunking et les bonnes pratiques peuvent drastiquement réduire vos coûts et assurer le ROI de votre cas d’usage tout en améliorant la pertinence de vos applications IA et en réduisant l’impact carbone de l’utilisation de cet outil.

Comprendre le nerf de la guerre : Les tokens

Avant de parler d'optimisation, il faut comprendre ce que l'on paie.

Un token n’est pas un mot strict, mais une syllabe ou un morceau de mot .

La création d'un token textuel repose sur des algorithmes similaires (généralement le Byte-Pair Encoding - BPE ou SentencePiece). Le principe est simple :

  1. Le modèle commence par regarder chaque lettre ou symbole (octet) individuellement.
  2. Il repère les combinaisons de lettres qui reviennent le plus souvent (par exemple, "ent", "tion", ou le mot "bonjour" en entier).
  3. Il associe à ces combinaisons fréquentes un numéro unique (un ID). C'est ça, un token.

Plus le modèle est récent, plus son dictionnaire de combinaisons est grand, ce qui lui permet d'avoir des tokens qui englobent des mots très longs ou des expressions entières.

Aujourd'hui, les modèles proposent des fenêtres de contexte de plus en plus immenses.

La tentation est donc grande d'envoyer l'intégralité d'une base documentaire à l'IA à chaque question. C'est une erreur stratégique majeure.

Envoyer trop de contexte entraîne trois problèmes majeurs :

  1. L'explosion des coûts : Vous payez pour chaque token envoyé (input) et généré (output).
  2. La latence : Plus le contexte est lourd, plus le modèle met du temps à "lire" et à répondre.
  3. Le phénomène de "Lost in the Middle" : Les LLMs ont tendance à oublier les informations situées au milieu d'un très long texte, réduisant la précision de la réponse.

Qu'est-ce que le Chunking dans une architecture RAG ?

Le principe du RAG est de ne fournir au LLM que les extraits de documents strictement nécessaires pour répondre à la question de l'utilisateur.

C’est là que les Data Engineers interviennent. Ils doivent d'abord ingérer les documents de l'entreprise, les découper en petits morceaux, les transformer en vecteurs (embeddings) et les stocker dans une base de données vectorielle (comme Qdrant, Milvus,chromadb, base elastic search, ou pgvector).

Ce découpage en petits morceaux s'appelle le Chunking.

Un paramètre essentiel du chunking est l'Overlap (le chevauchement). Il s'agit de conserver une petite partie du morceau précédent dans le nouveau morceau. Cela évite de couper une phrase ou une idée en plein milieu, préservant ainsi le contexte sémantique indispensable à l'IA.

Quelles sont les stratégies de Chunking et les outils associés ?

Il n'existe pas de méthode universelle ; le choix dépend de vos données métier.
Voici les trois approches principales déployées par les experts chez Next Décision :

Stratégie de ChunkingPrincipe techniqueCas d'usage idéaux
Taille fixe (Fixed-size) Découpage brutal basé sur un nombre précis de caractères ou de tokens (ex: 500 tokens). Prototypage rapide, logs IT, données très structurées et uniformes.
Par structure (Structure-aware) Découpage respectant la mise en page (Markdown, HTML, paragraphes, sous-titres H2/H3). Contrats légaux, rapports financiers, pages web, articles de blog.
Sémantique (Semantic) Regroupement des phrases traitant d'une même idée, via des modèles de NLP avant vectorisation. Bases de connaissances complexes, documentation technique IT ou R&D.

5 bonnes pratiques pour réduire votre consommation de tokens

Une fois la bonne stratégie de chunking choisie, comment aller plus loin dans la maîtrise des coûts ? Voici nos recommandations appliqué à l'IA :

Le grand nettoyage "On-Premise" des documents

Avant même de penser au découpage ou d'appeler une API cloud, il faut nettoyer la donnée brute. L'utilisation d'outils open-source exécutés localement (on-premise) sur vos propres serveurs permet de préparer les fichiers sans consommer le moindre quota cloud payant.

Pour cela, des bibliothèques d'extraction documentaire (Document Parsing) comme Docling (développé par IBM) ou Unstructured.io sont devenues incontournables. Docling excelle particulièrement dans l'analyse de PDF complexes : il supprime le "bruit" (en-têtes, pieds de page, filigranes) et réussit à extraire parfaitement les tableaux croisés et la structure hiérarchique en un format Markdown propre.

Moins de bruit “purifie” le contexte et garantit moins de tokens facturés.

Optimiser le Vector Search avec le "Reranking"

Ne laissez pas votre base vectorielle renvoyer 10 ou 20 "chunks" au LLM si la réponse se trouve dans les 3 premiers. L'astuce technique consiste à utiliser un Reranker (comme Cohere Rerank ou le modèle open-source BGE-Reranker). Cette brique supplémentaire filtre et re-trie très précisément les résultats de la base vectorielle pour n'injecter que le "Top-3" le plus pertinent dans le prompt final.

Privilégier le résumé intermédiaire avec des SLM

Si un utilisateur interroge de gros documents croisés, utilisez d'abord un modèle peu coûteux, voire gratuit et auto-hébergé (un SLM - Small Language Model comme Mistral Nemo, Llama 3 8B ou Phi-3 via un moteur comme Ollama ou vLLM) pour résumer chaque chunk localement. Seule la synthèse finale sera envoyée à un grand modèle payant (comme GPT-4o ou Claude 3.5 Sonnet) pour la rédaction de la réponse finale à l'utilisateur.

Un Prompt Engineering concis

L'IA n'a pas besoin de formules de politesse. Dans le "system prompt" caché de vos applications, soyez direct. Demandez également des formats de sortie structurés et condensés (utilisez le mode JSON Output ou les Structured Outputs d'OpenAI) plutôt que de longues phrases littéraires lorsque cela n'est pas nécessaire pour le métier.

Exploiter le Prompt Caching

C'est la nouvelle norme chez les grands fournisseurs de modèles (OpenAI, Anthropic). Si vous envoyez souvent le même contexte de base (par exemple, la documentation de vos procédures internes), le Prompt Caching permet de ne payer l'ingestion de ces tokens qu'une seule fois, avec des réductions allant jusqu'à -50% sur le coût d'entrée. Une économie massive pour les usages répétitifs.

Conclusion : L'industrialisation de l'IA passe par l'optimisation

L'Intelligence Artificielle ne s'arrête pas à un simple "Chatbot".

Pour passer du prototype (POC) à une solution industrialisée et rentable, l'architecture des données, la préparation on-premise (avec des outils comme Docling) et l'ingénierie des prompts sont les véritables clés du succès.
Bien maîtriser son chunking et ses pipelines d'ingestion, c'est s'assurer une IA plus rapide, plus précise, et surtout, financièrement viable sur le long terme.

Vous souhaitez auditer vos projets d'IA actuels ou construire une architecture RAG sur mesure et optimisée pour votre entreprise avec les meilleurs outils du marché ? Contactez les experts Data & IA de Next Decision sur la page Contact