Moteur de recherche d'offres d'emploi Groupe EDF

Corrections des données structurées via LLMs et REGEX


Détail de l'offre

Informations générales

Référence

2024-120160  

Date de début de diffusion

23/10/2024

Date de modification

23/10/2024

Description du poste

Famille professionnelle / Métier

ETUDES REAL OUVR RES ELEC - Expertise / Recherche

Intitulé du poste

Corrections des données structurées via LLMs et REGEX

Type de contrat

Stage

Description de la mission

Contexte et objectif du stage

Rejoignez l’équipe R&D d’EDF et participez à l’amélioration de la qualité des données volumineuses.

En intégrant notre équipe, vous aurez l’opportunité de contribuer au développement de méthodes innovantes de correction et de fiabilisation des données. Vous travaillerez sur des techniques avancées de traitement automatique du langage naturel (NLP) et de génération de texte à l’aide de modèles de langage (LLMs, SLMs)

Déroulement du stage :

Le stage vise à proposer des méthodes de correction de données structurées, avec un cas d’application sur les schémas mécaniques des centrales nucléaires. Il consistera dans le développement d’un pipeline de suggestion de corrections potentielles. Les étapes principales du stage seront :

  • Etat de l’art des méthodes de correction des données erronées par génération d’expressions régulières (REGEX)
  • Implémentation et tests des méthodes suggérées
  • Comparaison des méthodes à base de RAG et/ou fine-tuning
  • Développement d’un pipeline de corrections des données

Ce stage permettra au stagiaire de prendre connaissance des schémas mécaniques des centrales nucléaires. Il participera aux réunions de clarification avec le client et devra assurer la livraison de son travail dans les délais.

Le stagiaire intégrera le groupe R4F « Fiabilité, IA, Cyber Sécurité, Interopérabilité et résilience des réseaux électriques » du Département SYSTEME à EDF R&D Lab Saclay.

Profil souhaité

Profil recherché :

Stage de fin d’études ou de césure Bac +4/+5

Étudiant(e) en école d’ingénieur ou en Master 1 ou 2.

Profil : Machine Learning / Deep Learning / LLMs

 

Compétences Obligatoires :

- Compétences en Programmation : Bonne maîtrise du langage Python, y compris des bibliothèques telles que Pandas, NumPy, et Matplotlib.
- Data science : Expérience avec les process de Data Science : Traitement des données structurées (csv, json, xml …), analyse et visualisation des données.
- GenAI & NLP : Connaissances des méthodes classiques de traitement du langage naturel et expérience avec les LLM (inférence/prompt engineering/fine-tuning). Maîtrise de la bibliothèque Transformers.
Compétences recommandées :
- Apprentissage automatique : Expérience d’entraînement des modèles d’IA (réseau des neurones ou modèles de ML classiques), ainsi qu’une maîtrise de bibliothèques (scikit-learn / pytorch ou tensorflow)
- Gestion de Projet et Outils Collaboratifs : Connaissance des principes de gestion de version avec Git et GitLab
Des expériences avec des systèmes de RAG seront appréciées.

 

Conditions du stage

Unité d’accueil : EDF Lab Saclay – Département SYSTEME

7 boulevard Gaspard Monge, 91120 Palaiseau

 

Durée : 5 à 6 mois à partir de mars/avril 2025
Le stage est rémunéré
Rémunération transport : 50%

Contacts
Ilias ELFRYAKH: ilias.elfryakh @edf.fr

Date souhaitée de début de mission

03/03/2025

Société

EDF

Localisation du poste

Localisation du poste

Europe, France, Ile-de-France, Essonne (91)

Ville

7 boulevard Gaspard Monge 91120 PALAISEAU

Langue de l'offre

Français

Critères candidat

Niveau de formation

04 - BAC +4 / BAC +5

Spécialisation du diplôme

  • Recherche & Développement
  • DATA - Mathématiques appliquées - Statistiques
  • Eco-efficacité énergétique
  • Electricité
  • Informatique / Système d'informations
  • Ingénierie d'Etudes
  • Logistique / Productique
  • Nucléaire
  • Numérique et DATA

Compétences transverses

  • Capacité d'adaptation
  • Sens du résultat
  • Autonomie
  • Rigueur / Respect des consignes
  • Capacité d'analyse / Esprit de synthèse