Découvrir la face cachée du pré entrainement du LLM LUCIE, l’IA Générative Open Source

Découvrir la face cachée du pré entrainement du LLM LUCIE, l’IA Générative Open Source

Tuesday, September 17, 2024 3:10 PM to 3:35 PM · 25 min. (Europe/Paris)
Salle Jems
visible

Information

L'objectif de cette conférence est de présenter les réalisations de la communauté OpenLLM France (https://openllm-france.fr/) sous la forme de démonstrations dans les domaines suivants : - la transcription - du résumé automatique sous différentes formes - sous-titrage - la fiabilisation des réponses générées par un ChatGPT-Like via l'utilisation du RAG Le tout de façon souveraine, sur des systèmes installés en local en exploitant tout le potentiel des technologies Open SourcE. Au-delà des cas d'usage, l'idée est d'expliquer la méthodologie de manière claire et exhaustive des différentes étapes d'un pré entraînement d'un LLM. Nous avons délivré un premier modèle en octobre 2023, CLAIRE, disponibles sur Hugging Face (https://huggingface.co/OpenLLM-France) dédié au français. Nous avons aussi acquis à cette occasion une solide expérience dans l'utilisation de la machine Jean ZAY. Nous travaillons actuellement au pré-entrainement d'un nouveau modèle, LUCIE, 100% Open Source et souverain. La conférence permettra d'aborder les problématiques du choix des données d'entraînements, l'optimisation du tokernizer pour gérer efficacement les langues européennes, les optimisations possibles pour paralléliser les taches d'entraînement sur plusieurs centaines de GPU sur Jean ZAY et enfin aborder les enjeux de l'évaluation de modèles de langage en langue française.

Log in