Aller au contenu

Catalogue des données disponibles

Les datasets sont hébergés sur Wasabi S3 (région eu-central-1, Amsterdam — pas de frais d'egress). Chaque source vit dans deux buckets :

  • maqi-<source> — la donnée brute telle que livrée par le vendor
  • maqi-<source>-clean — les parquets propres partitionnés (output des pipelines validés)
Source Bucket raw Bucket clean Période Granularité Statut
Databento maqi-databento maqi-databento-clean 2018 → 2025 NASDAQ ITCH L2 order book, intra-day ✅ validé cross-provider
S&P Global (CompuStat) maqi-spglobal maqi-sp-clean 1983 → 2025 OHLCV daily, fundamentals trimestriels ✅ pipeline opérationnel
GDELT maqi-gdelt maqi-gdelt-clean 1979 → 2026 événements géopolitiques quotidiens 🟡 pipeline en cours
RavenPack Edge maqi-ravenpack 2011 → 2025 news sentiment 🟡 raw uploadé, pipeline à venir
CausalityLink maqi-causalitylink snapshot Aug 2021 graphe causal d'événements 🟢 disponible en exploration

Conventions de nommage des parquets clean

Le partitionnement varie selon le cas d'usage. Les conventions actuellement en place :

Databento (intra-day)

maqi-databento-clean/
  symbol={TICKER}/
    year={YYYY}/
      month={MM}/
        day={DD}/
          part-{NN}.parquet

Une journée d'un stock = un fichier parquet. Permet de requêter en SQL avec des prédicats WHERE symbol='AAPL' AND year=2024 AND month=3.

S&P Global (daily OHLCV)

maqi-sp-clean/
  prices_daily/
    year={YYYY}/
      part-{NN}.parquet

Une année = un fichier (toutes boîtes confondues). Tradeoff : daily x toutes boîtes reste petit (≤ quelques 10⁵ lignes/an), donc charger une année entière en RAM est OK.

GDELT (en cours)

À spécifier par l'équipe pipeline. La structure proposée est par jour × type d'évènement.

Validation croisée

Pour les prix actions, on a une validation croisée S&P × Databento sur 4 tickers (GME, CSCO, NFLX, SOFI) — corrélation close ≈ 0.9998, MAE 0.6 %, cf. le notebook maqi_cross_provider_validation.

Convention :

  • Daily OHLCV → S&P Global est la référence canonique.
  • Intra-day → Databento est la seule source disponible, prix cohérents avec les OHLC S&P sur toute la période.

Anomalies connues

Aucune anomalie majeure à signaler à ce stade. Si tu en rencontres une, ouvre une issue sur eserie/maqi-docs (avec ticker, date, type d'écart constaté).