DATAHUB · DATA OPERATIONS STUDIO

De vos fichiers brutsaux datasets exploitables

Une seule plateforme pour fusionner, profiler, nettoyer, joindre et publier vos données : 17 modules prêts à l'emploi (CSV, Excel, Parquet, PDF), API FastAPI, console Next.js, jobs reproductibles.

Découvrir les modules
17modules data prêts à l'emploi
250 k+fichiers traités / mois
92 %tests automatisés couverts
< 850 msp95 sur opérations courantes
CAPACITÉS

Industrialisez vos opérations data

Tout ce qu'il faut pour transformer un fichier brut en jeu de données fiable, sans script ad-hoc.

Contrat unique pour 17 modules

Une API REST homogène (upload → params → output → métadonnées) consommée par l'UI, la CLI et vos jobs.

FastAPI + pandas + Parquet

Pipeline en mémoire optimisé, OpenAPI 3 généré, tests unitaires et d'intégration.

Profil & santé des données

Score de qualité, complétude, unicité, dérives détectées avant publication.

Sécurité dès la racine

Validation MIME, anti-traversal, expiration des artefacts, stockage chiffré GCS/S3 prêt à brancher.

Observabilité native

Logs JSON, /metrics Prometheus, traces OpenTelemetry, dashboards Grafana fournis.

Extensible en quelques lignes

Ajoutez un module : 1 classe Python, 1 entrée registry.json — l'UI s'adapte automatiquement.

CATALOGUE DE MODULES

Une bibliothèque cohérente, un seul contrat API

Chaque module expose le même contrat (upload, params, output, métadonnées) et peut être déclenché depuis l'UI, la CLI ou un job.

CSV Merger

Fusionnez plusieurs CSV avec gestion des séparateurs et encodages.

/api/v1/modules/csv_merger/run
Data Quality

Profil complet : nulls, doublons, types, score de santé, aperçu.

/api/v1/modules/data_quality/run
Duplicate Remover

Retirez les doublons exacts ou par sous-ensemble de colonnes.

/api/v1/modules/duplicate_remover/run
Parquet Converter

Compactez vos CSV en Parquet typé et optimisé.

/api/v1/modules/csv_to_parquet/run
Table Join

Inner / left / right / outer entre deux tables hétérogènes.

/api/v1/modules/table_join/run
Data Transformer

Renommez, triez, nettoyez, normalisez vos colonnes.

/api/v1/modules/data_transformer/run
PRICING

Une tarification simple et transparente

De l'open-source self-hosted à l'offre Enterprise — choisissez ce qui correspond à votre maturité data.

Community

Gratuit

Open-source, déployable n'importe où. Idéal pour les équipes qui veulent piloter leur data en interne.

  • 17 modules data
  • Auth + JWT
  • Logs JSON + /metrics
  • Stockage local FS
  • Communauté GitHub
Voir le code

Enterprise

Sur devis

Single-tenant, audit de sécurité, intégration RGPD, support dédié. Contactez-nous pour un POC.

  • SSO SAML / OIDC
  • VPC dédié
  • Audit SOC2 / ISO 27001
  • Politique de rétention sur mesure
  • Roadmap influence
Parler à l'équipe
SÉCURITÉ & GOUVERNANCE

Conçu pour les données sensibles

Chiffrement, contrôle d'accès, audit, isolation des fichiers et expiration automatique des artefacts.

  • Validation MIME + scan anti-mojibake
  • Storage chiffré (GCS / S3) avec URLs signées
  • Audit trail par utilisateur / module / job
  • Conteneurs non-root, multi-stage, scan Trivy
PARTENAIRES

Ils nous font confiance

Retail, transport, banque, public — DataHub fait tourner les pipelines de production d'équipes data exigeantes.

  • Air France
  • SNCF
  • Carrefour
  • Škoda
  • La Poste
  • Axys
Bâti sur des standards éprouvés

Une plateforme open-source qui s'appuie sur l'écosystème Python, Cloud et BI que vos équipes connaissent déjà.

  • Python
  • Google Cloud
  • Streamlit
  • Power BI
TÉMOIGNAGES

Ils ont fiabilisé leurs pipelines avec DataHub

Data engineers, analysts, lead PM : ce qu'ils retiennent du quotidien sur la plateforme.

On a remplacé 3 jobs Glue + 1 notebook Databricks par 2 modules DataHub. Coût divisé par 4, et les analystes lancent les jobs eux-mêmes.

Camille RouxLead Data Engineer · ScaleOps

Le score de qualité avant publication a été un game-changer. On bloque les datasets à 60 % de complétude avant la prod, plus de surprises.

Sofiane MahmoudiHead of Analytics · Carrefour Lab

Auto-hébergé chez nous, RGPD-compliant, et l'équipe BI a appris l'API en 30 minutes. Le rapport coût / valeur est imbattable.

Ines DupontData Product Manager · Banque Populaire
CONTACT

Discutons de votre cas d'usage

POC en 2 semaines, audit gratuit de votre stack, ou simple démo guidée — on s'adapte à votre rythme.

Envoyez-nous un message

On revient vers vous sous 24 h ouvrées.

Aucun spam. Vos infos restent en Europe.

Prêt à industrialiser vos pipelines ?

Créez un compte, importez un fichier et lancez votre premier module en moins de 60 secondes.