Optimisation du traitement documentaire : benchmark des modèles de résumé et d'embedding

Introduction

Dans le cadre du développement de Personal Assistant, nous avons développé une approche complète de traitement documentaire basée sur deux composants clés : la génération automatique de résumés et leur vectorisation sémantique. Cette approche permet une gestion efficace des documents à travers leur classification et leur recherche.

Notre démarche s'est articulée autour de deux axes majeurs :

L'évaluation des modèles de génération de résumés automatiques
L'analyse comparative des modèles d'embeddingUn embedding est une représentation vectorielle d'éléments distincts dans un espace à plusieurs dimensions. Chaque élément est mappé dans cet espace de manière à préserver certaines caractéristiques ou relations inhérentes à ces éléments. En d'autres termes, les embeddings traduisent les informations complexes et discrètes en un format continu, ce qui permet aux modèles d'IA de les manipuler plus facilement.

Embeddings dans le traitement du langage naturel

Dans le domaine du TAL, les embeddings de mots, comme Word2Vec ou GloVe, sont très courants. Ces techniques permettent de représenter chaque mot d'un vocabulaire par un vecteur de haute dimension.

L'aspect vraiment révolutionnaire des embeddings de mots est qu'ils parviennent à capturer la signification sémantique des mots. Dans l'espace des embeddings, les mots sémantiquement similaires se trouvent près les uns des autres. pour la vectorisation sémantique

La problématique principale était double : trouver un équilibre optimal entre la qualité des résumés générés et les ressources nécessaires, tout en assurant une vectorisation sémantique performante pour une comparaison efficace des documents, le tout avec une compatibilité multilingue (français et anglais).

Méthodologie d'évaluation

Benchmark des modèles de résumé

Notre benchmark évalue cinq critères principaux pour les modèles de résumé, avec une pondération spécifique pour chaque critère :

Similarité sémantique (x5)
Temps d'exécution (x2)
Utilisation RAM (x1)
Utilisation CPU (x1)
Taille du modèle (x1)

Benchmark des modèles d'embeddingUn embedding est une représentation vectorielle d'éléments distincts dans un espace à plusieurs dimensions. Chaque élément est mappé dans cet espace de manière à préserver certaines caractéristiques ou relations inhérentes à ces éléments. En d'autres termes, les embeddings traduisent les informations complexes et discrètes en un format continu, ce qui permet aux modèles d'IA de les manipuler plus facilement.

Embeddings dans le traitement du langage naturel

Dans le domaine du TAL, les embeddings de mots, comme Word2Vec ou GloVe, sont très courants. Ces techniques permettent de représenter chaque mot d'un vocabulaire par un vecteur de haute dimension.

L'aspect vraiment révolutionnaire des embeddings de mots est qu'ils parviennent à capturer la signification sémantique des mots. Dans l'espace des embeddings, les mots sémantiquement similaires se trouvent près les uns des autres.

Pour les modèles d'embeddingUn embedding est une représentation vectorielle d'éléments distincts dans un espace à plusieurs dimensions. Chaque élément est mappé dans cet espace de manière à préserver certaines caractéristiques ou relations inhérentes à ces éléments. En d'autres termes, les embeddings traduisent les informations complexes et discrètes en un format continu, ce qui permet aux modèles d'IA de les manipuler plus facilement.

Embeddings dans le traitement du langage naturel

Dans le domaine du TAL, les embeddings de mots, comme Word2Vec ou GloVe, sont très courants. Ces techniques permettent de représenter chaque mot d'un vocabulaire par un vecteur de haute dimension.

L'aspect vraiment révolutionnaire des embeddings de mots est qu'ils parviennent à capturer la signification sémantique des mots. Dans l'espace des embeddings, les mots sémantiquement similaires se trouvent près les uns des autres., nous avons évalué plus de 40 modèles selon un processus rigoureux en plusieurs étapes :

Prétraitement initial des modèles candidats
Test exhaustif sur l'ensemble des critères
Évaluation avec 13 métriques de similarité différentes
Analyse approfondie des performances

Jeux de test

Pour les résumés

Le benchmark utilise six fichiers de test, répartis équitablement entre le français et l'anglais :

Français :
- Small - textes courts
- Big - textes moyens
- XL - textes longs
Anglais :
- Small - textes courts
- Big - textes moyens
- XL - textes longs

Pour les embeddingsUn embedding est une représentation vectorielle d'éléments distincts dans un espace à plusieurs dimensions. Chaque élément est mappé dans cet espace de manière à préserver certaines caractéristiques ou relations inhérentes à ces éléments. En d'autres termes, les embeddings traduisent les informations complexes et discrètes en un format continu, ce qui permet aux modèles d'IA de les manipuler plus facilement.

Embeddings dans le traitement du langage naturel

Dans le domaine du TAL, les embeddings de mots, comme Word2Vec ou GloVe, sont très courants. Ces techniques permettent de représenter chaque mot d'un vocabulaire par un vecteur de haute dimension.

L'aspect vraiment révolutionnaire des embeddings de mots est qu'ils parviennent à capturer la signification sémantique des mots. Dans l'espace des embeddings, les mots sémantiquement similaires se trouvent près les uns des autres.

Nous avons utilisé un jeu de 18 phrases tests soigneusement sélectionnées :

9 phrases en français
9 phrases équivalentes en anglais

Résultats

Modèles de résumé

Falconsai arc_of_conversation (score global : 83.57)

Similarité sémantique 0.94

Temps d'exécution 3.57s

Utilisation mémoire 0.084 GB

Utilisation CPU 26.66%

Taille du modèle 0.228 GB

Modèles d'embeddingUn embedding est une représentation vectorielle d'éléments distincts dans un espace à plusieurs dimensions. Chaque élément est mappé dans cet espace de manière à préserver certaines caractéristiques ou relations inhérentes à ces éléments. En d'autres termes, les embeddings traduisent les informations complexes et discrètes en un format continu, ce qui permet aux modèles d'IA de les manipuler plus facilement.

Embeddings dans le traitement du langage naturel

Dans le domaine du TAL, les embeddings de mots, comme Word2Vec ou GloVe, sont très courants. Ces techniques permettent de représenter chaque mot d'un vocabulaire par un vecteur de haute dimension.

L'aspect vraiment révolutionnaire des embeddings de mots est qu'ils parviennent à capturer la signification sémantique des mots. Dans l'espace des embeddings, les mots sémantiquement similaires se trouvent près les uns des autres.

deepvk_USER-bge-m3 (score global : 0.92)

Similarité sémantique 0.92

Temps d'exécution 0.08s

Utilisation mémoire 2.0 GB

Utilisation CPU 28.45%

Taille du modèle 1.84 GB

Performance globale des solutions

Top 5 des modèles de résumé

Top 5 des modèles d'embeddingUn embedding est une représentation vectorielle d'éléments distincts dans un espace à plusieurs dimensions. Chaque élément est mappé dans cet espace de manière à préserver certaines caractéristiques ou relations inhérentes à ces éléments. En d'autres termes, les embeddings traduisent les informations complexes et discrètes en un format continu, ce qui permet aux modèles d'IA de les manipuler plus facilement.

Embeddings dans le traitement du langage naturel

Dans le domaine du TAL, les embeddings de mots, comme Word2Vec ou GloVe, sont très courants. Ces techniques permettent de représenter chaque mot d'un vocabulaire par un vecteur de haute dimension.

L'aspect vraiment révolutionnaire des embeddings de mots est qu'ils parviennent à capturer la signification sémantique des mots. Dans l'espace des embeddings, les mots sémantiquement similaires se trouvent près les uns des autres.

Conclusion

Notre analyse comparative approfondie nous a permis d'identifier la combinaison optimale pour notre système de traitement documentaire :

Pour la génération de résumés : Falconsai arc_of_conversation
Pour la vectorisation sémantique : deepvk_USER-bge-m3

Cette combinaison offre :

Une excellente qualité de résumé avec une forte similarité sémantique
Une vectorisation précise et performante en contexte multilingue
Des temps d'exécution optimaux
Une utilisation efficiente des ressources système

Perspectives

Les prochaines étapes de développement pour Personal Assistant incluent :

L'optimisation de l'intégration entre les deux modèles
L'amélioration continue des performances
L'extension du support multilingue
L'automatisation du processus de mise à jour des modèles

Cette approche constitue une base solide pour un système de gestion documentaire efficace, évolutif et performant, parfaitement adapté aux besoins de nos clients chez Nicely.