L'IA d'entreprise réussit quand on cesse de demander aux experts de trier leurs documents.

Sélection manuelle, mise à jour permanente, expertise mobilisée pour le bénéfice des autres : la qualification documentaire à la main ne tient pas dans la durée. Gr33t pre-RAG la remplace par un processus automatisé, piloté par règles métier, qui prépare une matière prête pour le RAG, qualifiée, à jour quotidiennement, et 10 fois plus frugale.

Interface Knowledge Graph Gr33t, taxonomie configurée et documents qualifiés
La réalité du RAG d'entreprise

La disproportion entre volume documentaire et matière utile à l'IA.

50 à 150 Go

de fichiers par collaborateur dans Microsoft 365, le patrimoine documentaire à qualifier

Gr33t, mesures clients

4 100 € / To / an

coût d'un RAG entreprise « en force » (indexation + stockage vectoriel + reranking)

Gr33t, modélisation 2026

10 à 50 ×

plus de documents traités par le RAG Microsoft que nécessaire

Gr33t, mesures clients

2 %

du volume documentaire effectivement utile au RAG, sur des bases bien qualifiées

Gr33t, cas Lecko (3 852 documents retenus sur 250 000 indexés)

L'impasse du tri manuel

Demander aux métiers de classer leurs documents ne tient pas. L'histoire l'a déjà démontré.

Pour qu'un agent IA réponde pertinemment, il doit s'appuyer sur des sources sélectionnées. La plupart des projets RAG commencent donc par demander aux experts métiers de désigner les documents à indexer.

Cela part d'une intention juste. Mais cela bute sur un obstacle que vingt ans de Knowledge Management ont rendu visible. Demander à un collaborateur de qualifier ses documents prend du temps, du temps qu'il n'a pas, sur un sujet dont les bénéficiaires sont les autres. Au démarrage, certains font l'effort. Au bout de six mois, presque plus personne. Les sources stagnent, l'IA répond avec des données obsolètes, la pertinence se dégrade.

Le verrou n'est pas une question de volonté. C'est une question d'échelle et de discipline dans la durée. Une qualification documentaire à grande échelle ne peut plus être un acte humain individuel. Elle doit être un processus automatique, piloté par des règles définies une fois, qui s'appliquent à tous les documents et se mettent à jour quotidiennement.

C'est exactement le pivot que Gr33t pre-RAG opère.

Collaborateur fatigué devant son ordinateur, illustration du décrochage face à la qualification documentaire dans la durée.
Rappel du fonctionnement du RAG

Comment un LLM répond avec la connaissance de votre entreprise

Par défaut, un LLM (GPT, Opus, Gemini, Mistral) s'appuie sur ses connaissances générales : celles disponibles au moment de son entraînement. On peut lui injecter quelques documents dans sa fenêtre de contexte, mais celle-ci reste limitée à quelques milliers de pages, insuffisant pour le patrimoine documentaire d'une entreprise.

Pour qu'il mobilise la connaissance interne, on utilise le RAG : on extrait le contenu des documents, on les découpe en chunks, on les vectorise via un modèle d'embedding, et on stocke ces vecteurs. À chaque requête, le système identifie les passages les plus pertinents et les réinjecte dans le contexte du LLM pour formuler la réponse.

Processus RAG : Savoirs vers Découpage (Chunk) vers Vectorisation vers Savoirs vectorisés, puis interrogés par un agent LLM.

Toute la qualité d'un RAG dépend donc de ce qui rentre dans le pipeline. Et c'est précisément là que la plupart des projets buttent.

Le verrou technique levé

Trier nécessite d'abord d'indexer tous les documents. Peu d'acteurs ont levé ce verrou.

L'idée de qualifier automatiquement les documents avant le RAG semble simple. Elle ne l'est pas. Pour décider quel document mérite d'être indexé, il faut d'abord pouvoir observer l'ensemble du patrimoine documentaire : libellés, chemins, formats, tailles, dates, propriétaires, droits d'accès, doublons. Sans cet inventaire complet et tenu à jour, aucune qualification fine n'est possible.

Or indexer tous les documents d'un patrimoine Microsoft 365 ou Google Workspace n'est pas trivial. Il faut gérer le throttling de l'API Microsoft Graph, traiter les volumes (50 à 150 Go par collaborateur), suivre les modifications en temps réel, détecter les versions et les similarités. C'est un travail d'infrastructure long, peu visible, qui n'a de valeur qu'une fois fait.

Gr33t a investi plusieurs années sur ce verrou. La technologie indexe l'ensemble du patrimoine documentaire, le met à jour quotidiennement, et collecte pour chaque fichier une dizaine de métadonnées exploitables. Cet inventaire devient le socle sur lequel les règles métier peuvent enfin s'appliquer à grande échelle.

Capture de l'interface Knowledge Graph Gr33t (cas Lecko, 244 804 documents indexés) : panneau Création d'une taxonomie à gauche, éditeur de Configuration de règles au centre (Activité : Proposition commerciale, conditions ET / OU / ET NON), et aperçu des 7 189 documents qualifiés à droite.
Cas Lecko : 250 000 documents indexés, mis à jour chaque jour. Une règle métier sur l'activité « Proposition commerciale » qualifie automatiquement 7 189 documents.
Qualification par règles métier

Une fois l'indexation faite, les métiers définissent leurs règles. Le système s'occupe du reste.

Le principe est simple : un métier définit une étiquette (par exemple Activité : Proposition commerciale) et y associe une règle exploitant les métadonnées collectées. Cette règle qualifie automatiquement tous les documents existants et futurs qui correspondent. Une personne définit, des milliers de documents bénéficient.

Une fois la taxonomie configurée, le métier décide quels périmètres alimentent quel pipeline RAG. Un agent IA pour les commerciaux exploitera les propositions commerciales, devis, livrables. Un agent IA pour les consultants exploitera les études, panoramas, synthèses. Chaque pipeline est nourri par une sélection précise, fraîche au jour le jour, sans dépendre de la discipline individuelle de classement.

Dans le cas Lecko, 4 pipelines actifs sélectionnent 3 852 documents uniques sur les 250 000 du patrimoine, soit moins de 2 % du volume, mais 100 % de la matière utile.

Exemple concret, cas Lecko
Étiquette : Activité : Proposition commerciale
Règle de qualification
  • • libellé du fichier contient : proposition, propale, devis
  • ET chemin du fichier contient : Commercial
  • ET format : PDF, PPT, Word
  • ET taille minimum : 1 Mo
  • ET NON libellé contient : consultation, bdc, facture
Résultat : 7 189 documents qualifiés Proposition commerciale parmi 250 000 documents indexés.
La fin du « classer pour les autres »

On a longtemps demandé aux experts de classer pour les autres. C'est terminé.

Pendant vingt ans, le Knowledge Management a fonctionné sur un postulat : si chacun classe correctement ses documents, l'entreprise saura. Le postulat était noble. Il n'a jamais tenu.

Il n'a pas tenu parce qu'il s'appuyait sur un effort individuel répété, dont les bénéfices vont aux autres. Demander à un consultant senior de tagger ses livrables, à un responsable produit de qualifier ses dossiers, à un commercial de classer ses propositions : c'est imposer un travail dont la valeur est diluée dans le collectif.

Avec le RAG, ce schéma revient. Mais l'IA ne pardonne pas l'inconstance, quand les sources ne sont plus à jour, elle hallucine et déçoit.

La sortie n'est pas dans une nouvelle politique de classement. Elle est dans un système qui qualifie à la place de l'humain, en s'appuyant sur ce que les documents disent d'eux-mêmes : leur nom, leur place, leur format, leur fraîcheur.

Comment Gr33t s'insère dans votre architecture IA

Gr33t pre-RAG s'insère en amont de votre solution IA, quelle qu'elle soit.

Gr33t n'est pas un agent IA. C'est la couche qui prépare la matière documentaire en amont des agents, quelle que soit la solution que vous avez retenue ou retiendrez. Microsoft Copilot, ChatGPT Enterprise, une Digital Workplace augmentée (LumApps, Powell, Elium), un RAG maison : Gr33t alimente l'un comme l'autre.

Avec Microsoft Copilot

Vous déployez Copilot largement et constatez le plafond de pertinence dû à la pollution des documents de travail. Gr33t qualifie en amont les sources, et vous configurez Copilot pour interroger un ensemble qualifié plutôt que tout M365. Le coût ne baisse pas (les licences sont les mêmes), mais la pertinence remonte significativement.

Avec un RAG OpenAI, Mistral ou maison

Vous avez fait le choix d'une alternative à Microsoft pour des raisons d'indépendance, de coût ou de souveraineté. Gr33t devient votre source de vérité documentaire : il alimente votre RAG avec une matière qualifiée, à jour, et 10 à 50 fois moins volumineuse que le patrimoine brut.

Avec une Digital Workplace augmentée

Vous exploitez LumApps, Powell ou Elium pour le portail collaborateur, avec des fonctions IA intégrées. Gr33t fournit à ces plateformes la matière documentaire qualifiée, sans dépendre de leurs propres systèmes de classement.

Bénéfices mesurables

Quatre bénéfices, mesurables dès les premières semaines.

Substitution à la sélection manuelle

Les experts métiers ne sont plus mobilisés pour trier. Une personne définit une règle, des milliers de documents sont qualifiés. La fraîcheur des sources est garantie par l'actualisation quotidienne.

Métrique pilotable : temps métier économisé · couverture documentaire actualisée

Pertinence augmentée

La taxonomie ajoutée aux documents priorise les chunks lors du reranking. Le LLM dispose d'indications contextuelles (chemin, format, propriétaire) pour interpréter le corpus. Moins d'hallucinations, plus de précision.

Métrique pilotable : score de pertinence des réponses · taux d'hallucinations détectées

Frugalité / 10+

Le pipeline RAG traite 20 à 50 fois moins de documents. Indexation initiale, ré-indexation hebdomadaire, stockage vectoriel : tous les postes de coût baissent dans cette proportion. Et l'empreinte environnementale aussi.

Métrique pilotable : coût € / To / an · volume vectorisé · empreinte CO₂

Indépendance technologique

Votre connaissance n'est plus enfermée dans M365 ou Google Workspace. Vous choisissez votre LLM, votre RAG, votre fournisseur cloud, et changez si nécessaire, sans repartir de zéro sur la qualification.

Métrique pilotable : portabilité du knowledge graph · réversibilité fournisseur
Cadre de confiance & architecture

Une architecture conçue pour la maîtrise du tenant client.

L'accès à l'ensemble du patrimoine documentaire impose une vigilance particulière. Gr33t opère en IaaS côté client : les extracteurs sont déployés dans l'infrastructure du client, en VM sans connexion entrante. Le client conserve la maîtrise complète de la sécurité de son tenant. Côté Gr33t, seules les métadonnées qualifiées circulent, pas les contenus de documents. Le knowledge graph reste à tout moment exportable et réversible, aucune dépendance enfermante.

Schéma d'architecture sécurisée Gr33t : flux M365 / Microsoft Graph vers Extractors côté client (pseudonymisation par salage et hashing, clé salt côté client) vers DB et Front Gr33t vers utilisateur, le tout en TLS 1.3
TLS 1.3
Chiffrement de bout en bout
Pseudonymisation
Clé de salage côté client uniquement
RGPD · CyberVadis 832
Conformité auditée
Ils nous font confiance

Ils préparent la matière de leur IA d'entreprise avec Gr33t

L'Oréal Beauty Tech
Accor
Technip Energies
Swiss Life
Systra

Voyons ensemble la matière documentaire qui alimente,
ou alimentera, votre IA.

45 minutes pour parcourir un knowledge graph Gr33t sur un patrimoine documentaire réel, configurer une première taxonomie, et imaginer comment pre-RAG s'insère dans votre architecture IA.