DATAHUB · DATA OPERATIONS STUDIO

De vos fichiers brutsaux datasets exploitables

Une seule plateforme pour fusionner, profiler, nettoyer, joindre et publier vos données : 17 modules prêts à l'emploi (CSV, Excel, Parquet, PDF), API FastAPI, console Next.js, jobs reproductibles.

Lancer mon premier traitement Espace membre & tableau de bord Explorer le catalogue

Découvrir les modules

17modules data prêts à l'emploi

250 k+fichiers traités / mois

92 %tests automatisés couverts

< 850 msp95 sur opérations courantes

CAPACITÉS

Industrialisez vos opérations data

Tout ce qu'il faut pour transformer un fichier brut en jeu de données fiable, sans script ad-hoc.

Contrat unique pour 17 modules

Une API REST homogène (upload → params → output → métadonnées) consommée par l'UI, la CLI et vos jobs.

FastAPI + pandas + Parquet

Pipeline en mémoire optimisé, OpenAPI 3 généré, tests unitaires et d'intégration.

Profil & santé des données

Score de qualité, complétude, unicité, dérives détectées avant publication.

Sécurité dès la racine

Validation MIME, anti-traversal, expiration des artefacts, stockage chiffré GCS/S3 prêt à brancher.

Observabilité native

Logs JSON, /metrics Prometheus, traces OpenTelemetry, dashboards Grafana fournis.

Extensible en quelques lignes

Ajoutez un module : 1 classe Python, 1 entrée registry.json — l'UI s'adapte automatiquement.

CATALOGUE DE MODULES

Une bibliothèque cohérente, un seul contrat API

Chaque module expose le même contrat (upload, params, output, métadonnées) et peut être déclenché depuis l'UI, la CLI ou un job.

CSV Merger

Fusionnez plusieurs CSV avec gestion des séparateurs et encodages.

/api/v1/modules/csv_merger/run

Data Quality

Profil complet : nulls, doublons, types, score de santé, aperçu.

/api/v1/modules/data_quality/run

Duplicate Remover

Retirez les doublons exacts ou par sous-ensemble de colonnes.

/api/v1/modules/duplicate_remover/run

Parquet Converter

Compactez vos CSV en Parquet typé et optimisé.

/api/v1/modules/csv_to_parquet/run

Table Join

Inner / left / right / outer entre deux tables hétérogènes.

/api/v1/modules/table_join/run

Data Transformer

Renommez, triez, nettoyez, normalisez vos colonnes.

/api/v1/modules/data_transformer/run

Tableau de bord

PRICING

Une tarification simple et transparente

De l'open-source self-hosted à l'offre Enterprise — choisissez ce qui correspond à votre maturité data.

Community

Gratuit

Open-source, déployable n'importe où. Idéal pour les équipes qui veulent piloter leur data en interne.

17 modules data
Auth + JWT
Logs JSON + /metrics
Stockage local FS
Communauté GitHub

Voir le code

Le plus choisi

Team

49 € / mois

Hébergé par DataHub Cloud. SLA 99,9 %, sauvegardes automatiques, observabilité Grafana incluse.

Tout Community
Multi-utilisateurs
GCS / S3 + URLs signées
SSO Google / Microsoft
Support email 24 h

Commencer 14 j gratuit

Enterprise

Sur devis

Single-tenant, audit de sécurité, intégration RGPD, support dédié. Contactez-nous pour un POC.

SSO SAML / OIDC
VPC dédié
Audit SOC2 / ISO 27001
Politique de rétention sur mesure
Roadmap influence

Parler à l'équipe

Voir tous les détails

SÉCURITÉ & GOUVERNANCE

Conçu pour les données sensibles

Chiffrement, contrôle d'accès, audit, isolation des fichiers et expiration automatique des artefacts.

Validation MIME + scan anti-mojibake
Storage chiffré (GCS / S3) avec URLs signées
Audit trail par utilisateur / module / job
Conteneurs non-root, multi-stage, scan Trivy

PARTENAIRES

Ils nous font confiance

Retail, transport, banque, public — DataHub fait tourner les pipelines de production d'équipes data exigeantes.

Bâti sur des standards éprouvés

Une plateforme open-source qui s'appuie sur l'écosystème Python, Cloud et BI que vos équipes connaissent déjà.

TÉMOIGNAGES

Ils ont fiabilisé leurs pipelines avec DataHub

Data engineers, analysts, lead PM : ce qu'ils retiennent du quotidien sur la plateforme.

On a remplacé 3 jobs Glue + 1 notebook Databricks par 2 modules DataHub. Coût divisé par 4, et les analystes lancent les jobs eux-mêmes.

Le score de qualité avant publication a été un game-changer. On bloque les datasets à 60 % de complétude avant la prod, plus de surprises.

Auto-hébergé chez nous, RGPD-compliant, et l'équipe BI a appris l'API en 30 minutes. Le rapport coût / valeur est imbattable.

CONTACT

Discutons de votre cas d'usage

POC en 2 semaines, audit gratuit de votre stack, ou simple démo guidée — on s'adapte à votre rythme.

Prêt à industrialiser vos pipelines ?

Créez un compte, importez un fichier et lancez votre premier module en moins de 60 secondes.

S'inscrire Tableau de bord