
Senior/Principal Software Engineer, AI/ML Data Systems
- Ontario
- Permanent
- Temps-plein
Choose one track to focus on:Data & Feature Store InfrastructureDesign and implement scalable feature engineering systems for both batch and streaming computationBuild and maintain low-latency online feature serving systems with consistency between training and inferenceDevelop and maintain monitoring systems for feature freshness, data drift, and data qualityIntegrate feature management solutions with vector databases to support embeddings and retrieval-augmented generation (RAG) workflowsEnsure compliance, lineage, and best practices for infrastructure as codeLabeling & Human Feedback SystemsBuild and scale annotation platforms for diverse data types: text, image, video, audio, and 3DDevelop workflows for LLM alignment, including instruction tuning and RLHF (Reinforcement Learning from Human Feedback) output rankingEmbed LLM-assisted labeling features such as auto-labeling, policy checking, and active learningDrive annotation quality through processes such as inter-annotator agreement, gold standard samples, and anomaly detectionManage and scale internal/external labeling teams while maintaining secure data integrationMinimum Qualifications5+ years of experience in data engineering, ML platform, or backend development rolesProficiency in at least one modern programming language (Python preferred)Experience developing and operating distributed backend APIs and SDKsExperience working with cloud platforms (AWS, GCP, or Azure), containers (Docker/Kubernetes), and infrastructure-as-code tools (e.g., Terraform)Plus, one of the following specialization experiences:Feature Store Track: (At least have experience with TWO of the following)Hands-on experience with feature store frameworks (e.g., SageMaker Feature Store, Feast, Tecton, Hopsworks), or operating vector database systems for serving LLM use casesExperience with batch and/or streaming data pipelines (e.g., Kafka, Flink, Spark, Ray) and orchestration tools (e.g., Airflow, Argo Workflow)Demonstrated experience at least in one the data areas: data catalog, data validation, versioning, lineage, and security/complianceLabeling Track: (At least have experience with ONE of the following)Proven working experience with labeling platforms (e.g., GroundTruth, Label Studio)RLHF/instruction tuning, or annotation workflow developmentPreferred QualificationsExperience with LLM pipelines, including embeddings, retrieval-augmented generation (RAG), or prompt engineeringFamiliarity with labeling copilot tools, active learning, or managing hybrid annotation teamsKnowledge of knowledge graphs or semantic data modeling25WD90074, Ingénieur logiciel senior/principal, Systèmes de données IA/MLAperçu du posteRejoignez-nous pour concevoir les systèmes de données centraux qui alimentent à la fois l'apprentissage automatique traditionnel et les workflows IA/LLM génératifs de pointe. En tant qu'ingénieur logiciel senior/principal, vous vous spécialiserez dans l'un des deux domaines suivants :
- Infrastructure de stockage des données et des fonctionnalités : vous construirez des systèmes backend évolutifs pour l'ingestion de données, les pipelines ETL par lots/en continu, les magasins de fonctionnalités, les API compatibles avec les vecteurs et la conformité des données
- Systèmes d'étiquetage et de feedback humain : vous concevrez des plateformes d'annotation multimodales (texte, image, audio, vidéo, 3D), développerez des workflows RLHF (ajustement des instructions, classement des résultats) et piloterez des innovations en matière d'étiquetage assisté par LLM
- Concevoir et mettre en œuvre des systèmes d'ingénierie des fonctionnalités évolutifs pour le calcul par lots et en continu
- Construire et maintenir des systèmes de service de fonctionnalités en ligne à faible latence, avec une cohérence entre l'entraînement et l'inférence
- Développer et maintenir des systèmes de surveillance pour la fraîcheur des fonctionnalités, la dérive des données et la qualité des données
- Intégrer des solutions de gestion des fonctionnalités avec des bases de données vectorielles pour prendre en charge les workflows d'intégration et de génération augmentée par la récupération (RAG)
- Garantir la conformité, la traçabilité et les meilleures pratiques pour l'infrastructure en tant que code
- Construire et faire évoluer des plateformes d'annotation pour divers types de données : texte, image, vidéo, audio et 3D
- Développer des workflows pour l'alignement LLM, y compris le réglage des instructions et le classement des résultats RLHF (apprentissage par renforcement à partir du feedback humain)
- Intégrer des fonctionnalités d'étiquetage assisté par LLM telles que l'étiquetage automatique, la vérification des politiques et l'apprentissage actif
- Améliorez la qualité des annotations grâce à des processus tels que la concordance entre annotateurs, les échantillons de référence et la détection des anomalies
- Gérez et faites évoluer les équipes d'étiquetage internes/externes tout en maintenant une intégration sécurisée des données
- Au moins 5 ans d'expérience dans l'ingénierie des données, les plateformes ML ou le développement backend
- Maîtrise d'au moins un langage de programmation moderne (Python préféré).
- Expérience dans le développement et l'exploitation d'API et de SDK backend distribués
- Expérience de travail avec des plateformes cloud (AWS, GCP ou Azure), des conteneurs (Docker/Kubernetes) et des outils d'infrastructure en tant que code (par exemple, Terraform)
- Expérience pratique des frameworks de magasins de fonctionnalités (par exemple, SageMaker Feature Store, Feast, Tecton, Hopsworks) ou de l'exploitation de systèmes de bases de données vectorielles pour des cas d'utilisation LLM
- Expérience des pipelines de données par lots et/ou en streaming (par exemple, Kafka, Flink, Spark, Ray) et des outils d'orchestration (par exemple, Airflow, Argo Workflow)
- Expérience avérée dans au moins un des domaines suivants : catalogue de données, validation des données, gestion des versions, lignage et sécurité/conformité
- Expérience professionnelle avérée avec des plateformes de labellisation (par exemple, GroundTruth, Label Studio)
- RLHF/réglage des instructions ou développement de workflows d'annotation
- Expérience avec les pipelines LLM, y compris les intégrations, la génération augmentée par la récupération (RAG) ou l'ingénierie de prompts
- Connaissance des outils de copilotage de l'étiquetage, de l'apprentissage actif ou de la gestion d'équipes d'annotation hybrides
- Connaissance des graphes de connaissances ou de la modélisation sémantique des données