- Data
- Conférence
- 55 min
Au-delà de la hype : gérer des embeddings à l'échelle du milliard dans Elasticsearch et OpenSearch
Date mercredi
Horaire 11h30 à 12h25
Salle Amphi D
Description
La recherche sémantique promet une révolution : pertinence contextuelle et compréhension du langage naturel en quelques lignes de code seulement. Sur un notebook ou un POC, c'est magique. Mais que se passe-t-il lorsque votre index dépasse le milliard de vecteurs ? La magie cède rapidement la place à la brutalité de l'ingénierie : explosion de la latence, coûts d'infrastructure incontrôlés et défis liés à la RAM. Dans cette présentation, nous laissons le buzz marketing à la porte et plongeons dans les entrailles d'Elasticsearch et d'OpenSearch à très grande échelle. Nous aborderons comment : - Architecturer vos clusters pour gérer un milliard d'embeddings sans flancher. - Optimiser le compromis critique entre précision et latence. - Réduire les coûts en utilisant des stratégies de quantification et de chunking intelligent. Si vous devez passer d'une recherche sémantique « Hello World » à une production massive, cette session est votre guide de survie.
Orateur·ices
Pietro Mele
Italian, adopted by France not long ago, I am a constant learner, dedicated to computer science and discovery—whether uncovering solutions or gaining insights.
Lucian Precup
Lucian Precup is the CTO of [all.site](https://all.site/) - the collaborative search engine developed at [Station F](http://stationf.co) in Paris. With his colleagues at [Adelean](http://adelean.com), Lucian develops solutions for indexing, searching and analyzing data. Lucian regularly shares his knowledge in specialized conferences and organizes the [Search & Data Meetup](https://www.meetup.com/fr-FR/search-and-data/).
Actions rapides
Les sessions futures sur le même thème
- Data
- Conférence
Prédire les crues de la Vilaine avec le Deep Learning — de la donnée brute à la production
La Vilaine déborde. Pas une surprise pour les Bretons — mais peut-on vraiment l'anticiper 24h à l'avance, station par station, avec une marge d'erreur fiable ? Tout est parti d'une frustration : début février 2026, Vigicrues tombe en panne au pire moment — en pleine période de crues hivernales. En cherchant une alternative, je tombe sur l'API publique EauFrance — et l'idée germe : et si j'entraînais un modèle directement sur ces données brutes ? Au cœur du projet, une intuition : chaque station hydrométrique a sa propre dynamique, mais les stations ne sont pas indépendantes — une montée des eaux à l'amont annonce ce qui va se passer à l'aval. J'ai donc conçu une architecture où un LSTM par station capture la dynamique locale, et un mécanisme d'attention permet aux stations de "se parler" entre elles. Dans ce retour d'expérience, je vous raconte le chemin : les données croisées, les choix d'architecture, et les décisions d'ingénierie qui font la différence entre un modèle qui marche en notebook et un système qui tourne vraiment en production.
Jeudi 14h00 à 14h55 - Amphi C
- Data
- Conférence
[REX] Une plateforme de données moderne avec Airflow, OpenMetadata, DBT, Google Cloud et Terraform
Un SI moderne est souvent composé de nombreuses applications hétérogènes, portant chacune ses propres données. Comment dans ce cas vérifier la cohérence des données de ces différents référentiels, et centraliser une donnée fiable, notamment dans un but de reporting aux équipes métier ? Comment mettre en place une gouvernance des données, des tests de qualité sur ces données dans un contexte réparti ? Ce sont les questions que nous nous sommes posées, et auxquelles nous avons répondu par la création d'une plateforme de données utilisant la philosophie ELT (Extract, Load, Transform) basée sur l'orchestrateur Airflow, sur la brique de gouvernance OpenMetadata et sur DBT pour la gestion des transformations "as code", le tout déployé par Terraform sur Google Cloud. Lors de ce talk, nous partagerons notre retour d'expérience sur la création de cette plateforme : - Réflexions initiales et choix des briques technologiques - Prototypages de la solution et apprentissages - Industrialisation - État actuel de la plateforme et réflexions futures Nous zoomerons notamment sur les différentes briques techniques utilisées, sur notre compréhension de leur fonctionnement et sur nos retours d'utilisation. Nous expliquerons également comment nous avons cherché à rapprocher les pratiques Data, Dev, Ops et sécurité pour réduire le "time to insight" (le temps entre la génération d'une donnée et la mise à disposition d'analyses basées sur cette donnée) et augmenter le "data trust" (la confiance dans les données utilisées pour le reporting) tout en assurant la robustesse de la plateforme.
Vendredi 9h30 à 10h25 - Amphi A