De vos fichiers brutsaux datasets exploitables
Une seule plateforme pour fusionner, profiler, nettoyer, joindre et publier vos données : 17 modules prêts à l'emploi (CSV, Excel, Parquet, PDF), API FastAPI, console Next.js, jobs reproductibles.
Découvrir les modulesIndustrialisez vos opérations data
Tout ce qu'il faut pour transformer un fichier brut en jeu de données fiable, sans script ad-hoc.
Contrat unique pour 17 modules
Une API REST homogène (upload → params → output → métadonnées) consommée par l'UI, la CLI et vos jobs.
FastAPI + pandas + Parquet
Pipeline en mémoire optimisé, OpenAPI 3 généré, tests unitaires et d'intégration.
Profil & santé des données
Score de qualité, complétude, unicité, dérives détectées avant publication.
Sécurité dès la racine
Validation MIME, anti-traversal, expiration des artefacts, stockage chiffré GCS/S3 prêt à brancher.
Observabilité native
Logs JSON, /metrics Prometheus, traces OpenTelemetry, dashboards Grafana fournis.
Extensible en quelques lignes
Ajoutez un module : 1 classe Python, 1 entrée registry.json — l'UI s'adapte automatiquement.
Une bibliothèque cohérente, un seul contrat API
Chaque module expose le même contrat (upload, params, output, métadonnées) et peut être déclenché depuis l'UI, la CLI ou un job.
Fusionnez plusieurs CSV avec gestion des séparateurs et encodages.
/api/v1/modules/csv_merger/runProfil complet : nulls, doublons, types, score de santé, aperçu.
/api/v1/modules/data_quality/runRetirez les doublons exacts ou par sous-ensemble de colonnes.
/api/v1/modules/duplicate_remover/runCompactez vos CSV en Parquet typé et optimisé.
/api/v1/modules/csv_to_parquet/runInner / left / right / outer entre deux tables hétérogènes.
/api/v1/modules/table_join/runRenommez, triez, nettoyez, normalisez vos colonnes.
/api/v1/modules/data_transformer/runUne tarification simple et transparente
De l'open-source self-hosted à l'offre Enterprise — choisissez ce qui correspond à votre maturité data.
Community
GratuitOpen-source, déployable n'importe où. Idéal pour les équipes qui veulent piloter leur data en interne.
- 17 modules data
- Auth + JWT
- Logs JSON + /metrics
- Stockage local FS
- Communauté GitHub
Team
49 € / moisHébergé par DataHub Cloud. SLA 99,9 %, sauvegardes automatiques, observabilité Grafana incluse.
- Tout Community
- Multi-utilisateurs
- GCS / S3 + URLs signées
- SSO Google / Microsoft
- Support email 24 h
Enterprise
Sur devisSingle-tenant, audit de sécurité, intégration RGPD, support dédié. Contactez-nous pour un POC.
- SSO SAML / OIDC
- VPC dédié
- Audit SOC2 / ISO 27001
- Politique de rétention sur mesure
- Roadmap influence
Conçu pour les données sensibles
Chiffrement, contrôle d'accès, audit, isolation des fichiers et expiration automatique des artefacts.
- Validation MIME + scan anti-mojibake
- Storage chiffré (GCS / S3) avec URLs signées
- Audit trail par utilisateur / module / job
- Conteneurs non-root, multi-stage, scan Trivy
Ils nous font confiance
Retail, transport, banque, public — DataHub fait tourner les pipelines de production d'équipes data exigeantes.
Une plateforme open-source qui s'appuie sur l'écosystème Python, Cloud et BI que vos équipes connaissent déjà.
Ils ont fiabilisé leurs pipelines avec DataHub
Data engineers, analysts, lead PM : ce qu'ils retiennent du quotidien sur la plateforme.
On a remplacé 3 jobs Glue + 1 notebook Databricks par 2 modules DataHub. Coût divisé par 4, et les analystes lancent les jobs eux-mêmes.
Le score de qualité avant publication a été un game-changer. On bloque les datasets à 60 % de complétude avant la prod, plus de surprises.
Auto-hébergé chez nous, RGPD-compliant, et l'équipe BI a appris l'API en 30 minutes. Le rapport coût / valeur est imbattable.
Discutons de votre cas d'usage
POC en 2 semaines, audit gratuit de votre stack, ou simple démo guidée — on s'adapte à votre rythme.
Prêt à industrialiser vos pipelines ?
Créez un compte, importez un fichier et lancez votre premier module en moins de 60 secondes.









