Catalogue des données disponibles¶
Les datasets sont hébergés sur Wasabi S3 (région eu-central-1,
Amsterdam — pas de frais d'egress). Chaque source vit dans deux buckets :
maqi-<source>— la donnée brute telle que livrée par le vendormaqi-<source>-clean— les parquets propres partitionnés (output des pipelines validés)
| Source | Bucket raw | Bucket clean | Période | Granularité | Statut |
|---|---|---|---|---|---|
| Databento | maqi-databento |
maqi-databento-clean |
2018 → 2025 | NASDAQ ITCH L2 order book, intra-day | ✅ validé cross-provider |
| S&P Global (CompuStat) | maqi-spglobal |
maqi-sp-clean |
1983 → 2025 | OHLCV daily, fundamentals trimestriels | ✅ pipeline opérationnel |
| GDELT | maqi-gdelt |
maqi-gdelt-clean |
1979 → 2026 | événements géopolitiques quotidiens | 🟡 pipeline en cours |
| RavenPack Edge | maqi-ravenpack |
— | 2011 → 2025 | news sentiment | 🟡 raw uploadé, pipeline à venir |
| CausalityLink | maqi-causalitylink |
— | snapshot Aug 2021 | graphe causal d'événements | 🟢 disponible en exploration |
Conventions de nommage des parquets clean¶
Le partitionnement varie selon le cas d'usage. Les conventions actuellement en place :
Databento (intra-day)¶
Une journée d'un stock = un fichier parquet. Permet de requêter en SQL avec
des prédicats WHERE symbol='AAPL' AND year=2024 AND month=3.
S&P Global (daily OHLCV)¶
Une année = un fichier (toutes boîtes confondues). Tradeoff : daily x toutes boîtes reste petit (≤ quelques 10⁵ lignes/an), donc charger une année entière en RAM est OK.
GDELT (en cours)¶
À spécifier par l'équipe pipeline. La structure proposée est par jour × type d'évènement.
Validation croisée¶
Pour les prix actions, on a une validation croisée S&P × Databento sur
4 tickers (GME, CSCO, NFLX, SOFI) — corrélation close ≈ 0.9998, MAE 0.6 %,
cf. le notebook maqi_cross_provider_validation.
Convention :
- Daily OHLCV → S&P Global est la référence canonique.
- Intra-day → Databento est la seule source disponible, prix cohérents avec les OHLC S&P sur toute la période.
Anomalies connues¶
Aucune anomalie majeure à signaler à ce stade. Si tu en rencontres une,
ouvre une issue sur eserie/maqi-docs (avec ticker, date, type d'écart
constaté).