Evaluation : les LLM sont-ils juges et parties ?

Evaluation : les LLM sont-ils juges et parties ?

Tuesday, September 17, 2024 1:30 PM to 1:55 PM · 25 min. (Europe/Paris)
Salle Datagalaxy
visible

Information

Loin des métriques classiques du Machine Learning, les Large Language Models soulèvent de nouveaux défis pour l'évaluation de leur performance. Comment considérer qu'une complétion d'un chatbot est correcte, sur le plan syntaxique, sémantique ou encore factuel ? Il serait possible de faire évaluer ces points par des humains, spécialistes du langage ou de domaines de connaissance particuliers, mais cette approche se confronte bien vite à la réalité du temps et des coûts nécessaires. Vient alors l'idée de faire juger un LLM par... un autre LLM ! Mais que vaut cette approche ? Comment la met-on en oeuvre ? Quels en sont ses limites et biais ?

Log in