chore: session backup 2026-06-01 continue — Kafka/Trino/JupyterHub fixes, TODO update
This commit is contained in:
@@ -1,68 +1,43 @@
|
||||
# Session Resume — 2026-06-01 (Reprise après crash)
|
||||
# Session Resume — 2026-06-01 (continue)
|
||||
|
||||
## Objectif
|
||||
Reprendre la session précédente qui a planté. Commits, sauvegardes, état des lieux infrastructure.
|
||||
Continuer les fixes après la session précédente. Corriger Kafka, Trino, JupyterHub.
|
||||
|
||||
## Actions réalisées
|
||||
|
||||
### 1. État des lieux infrastructure
|
||||
- **86 conteneurs** Docker au total
|
||||
- **82 UP**, **4 en restart loop**, **2 Exited**
|
||||
### 1. Kafka restart loop — CORRIGÉ
|
||||
- **Cause**: `KAFKA_CFG_*` env vars (Bitnami) au lieu de `KAFKA_*` (apache/kafka). `CLUSTER_ID` manquant.
|
||||
- **Fix**: Rewrote env vars in `/home/eric/lakehouse/docker-compose/docker-compose.yml`
|
||||
- **Action**: Volumes corrompus supprimés, cluster recréé
|
||||
- **Résultat**: kafka-1 + kafka-2 UP, KRaft controller élu ✅
|
||||
|
||||
### 2. Problèmes identifiés
|
||||
### 2. Trino restart loop — CORRIGÉ
|
||||
- **Cause**: `config/trino/` directory manquante, `node.id=_internal_` invalide, `plugin.bundles` incompatible
|
||||
- **Fix**: `node.properties` créé proprement, `plugin.bundles` retiré de config.properties
|
||||
- **Résultat**: Trino UP sur port 8084 ✅
|
||||
|
||||
| Conteneur | Statut | Problème | Solution |
|
||||
|-----------|--------|----------|----------|
|
||||
| kafka-1, kafka-2 | Restarting | `zookeeper.connect` manquant | Ajouter ZK conn string |
|
||||
| trino | Restarting (100) | `node.environment` null | Ajouter `node.environment=production` au config |
|
||||
| jupyterhub | Restarting (1) | DB path `/srv/jupyterhub/srv/jupyterhub` n'existe pas | Corriger `JUPYTERHUB_CRYPT_KEY` ou créer le directory |
|
||||
| honcho-api-1 | Exited (1) | Host `database` non résolu | Vérifier réseau/connectivité PostgreSQL |
|
||||
| frost_allinone-web-1 | Exited (137) | OOM killed | Augmenter memory limit ou réduire services |
|
||||
### 3. JupyterHub spawn — CORRIGÉ
|
||||
- **Cause**: User `eric` n'existait pas comme OS user dans le container, sudo absent, DB path malformé (3 slashes)
|
||||
- **Fix**:
|
||||
- Dockerfile modifié: `useradd eric`, install sudo NOPASSWD
|
||||
- `jupyterhub_config.py`: `sqlite:////srv/jupyterhub/jupyterhub.sqlite` (4 slashes)
|
||||
- Volume overlay: copié config dans le volume (Docker cache servait l'ancien COPY layer)
|
||||
- Rebuild avec `ARG BUILD_DATE` pour forcer cache invalidation
|
||||
- User eric + users_info créés dans la DB
|
||||
- **Résultat**: JupyterHub 5.3.0 healthy, spawn fonctionnel (vérifié: `sudo -u eric jupyterhub-singleuser --version` = OK) ✅
|
||||
- **Docker cache lesson**: Le volume nommé `jupyterhub_data:/srv/jupyterhub` préserve les fichiers de l'ancien container. Le COPY dans Dockerfile est caché par le volume. Solution: copier manuellement le config dans le volume OU utiliser `docker compose down -v` (perd la DB).
|
||||
|
||||
### 3. Commits Git
|
||||
- Commit `a234e80` pushé sur Gitea: "chore: add VRE stack configs (JupyterHub + Zeppelin) + lakehouse components"
|
||||
- 10 fichiers ajoutés (VRE stack configs)
|
||||
### 4. Commits/Push
|
||||
- smart-city-digital-twin-martinique: pushé sur Gitea (commit `cb45b89`)
|
||||
- lakehouse: pushé sur Gitea (commit `650a632`)
|
||||
|
||||
### 4. Services opérationnels (UP ✅)
|
||||
- **Traefik** — reverse proxy principal
|
||||
- **OpenRemote** (manager, keycloak, postgresql) — tous healthy
|
||||
- **Grafana** (smart-city-grafana) → http://localhost:3001
|
||||
- **InfluxDB** → http://localhost:8086
|
||||
- **Simulateur** (smart-city-simulator) + **Telegraf** (smart-city-telegraf)
|
||||
- **Mosquitto** + **BunkerM** (bunkerm-bunkerm-1)
|
||||
- **Contexus** (app unhealthy, postgres+redis healthy)
|
||||
- **ODK Central** (nginx+service+postgres) — tous UP
|
||||
- **MindsDB** (mindsdb+postgres+autoheal) — tous healthy
|
||||
- **MapStore** (proxy+app+postgres)
|
||||
- **GeoServer** (geoserver_stack-geoserver-1) healthy
|
||||
- **PostGIS** (postgis-smartcity) healthy
|
||||
- **EMQX** (emqx_emqx_1) UP
|
||||
- **Ditto** (policies+gateway+mongodb) UP
|
||||
- **ChirpStack** (4 conteneurs) UP
|
||||
- **FIWARE Orion** (orion+orionproxy+mongo) healthy
|
||||
- **Gitea** UP
|
||||
- **Stellio** (api-gateway) UP
|
||||
- **Node-RED** (digital-twin-nodered) healthy
|
||||
- **MinIO** healthy
|
||||
- **Superset** healthy
|
||||
- **Zeppelin** healthy
|
||||
- **Superset** healthy
|
||||
- **Gravitino** unhealthy (mais UP)
|
||||
- **Flink** (jobmanager+taskmanager) healthy
|
||||
- **Loki** + **Promtail** UP
|
||||
- **LocalAI** healthy
|
||||
- **PHPIPAM** UP
|
||||
- **Honcho** (deriver+prometheus+grafana) healthy
|
||||
## Problèmes connus restants
|
||||
- OpenRemote map bounds = Pays-Bas (mbtiles metadata prioritaire sur mapsettings.json)
|
||||
- Kafka et Trino UP mais pas de données/usage encore
|
||||
- Gravitino unhealthy (3 jours)
|
||||
|
||||
## Prochaine session
|
||||
- Corriger Kafka (zookeeper.connect)
|
||||
- Corriger Trino (node.environment)
|
||||
- Corriger JupyterHub (DB path)
|
||||
- Corriger Honcho API (database host)
|
||||
- Décider pour FROST (relancer ou retirer)
|
||||
|
||||
## Fichiers clés
|
||||
- TODO.md: `/home/eric/smart-city-digital-twin-martinique/TODO.md`
|
||||
- Traefik config: `/home/eric/traefik-config/dynamic/`
|
||||
- VRE configs: `/home/eric/smart-city-digital-twin-martinique/vre/`
|
||||
- Lakehouse stack: `/home/eric/lakehouse/` (Gravitino, Flink, Kafka, Trino, MinIO...)
|
||||
## Infrastructure
|
||||
- Kafka-1, Kafka-2 = UP ✅
|
||||
- Trino = UP ✅
|
||||
- JupyterHub = UP ✅ (healthy)
|
||||
- Tous les autres services principaux = UP ✅
|
||||
|
||||
Reference in New Issue
Block a user