[Docker Apps] BookHub : Automatisation DL ebooks et traitement

Networld

Hello,

Suite au différents évènements sur un certain Y machine truc, comme beaucoup, j’ai cherché des alternatives. Je suis assez rapidement tombé sur ce forum et j’ai commencé à lire et à un peu participer. Et il faut dire qu’il y a du contenu très intéressant. J’ai d’ailleurs modifié ma SeedBox suite à une discussion (coucou @Aerya), installé RustDesk (coucou @Raccoon), prévu d’installer Veeam (coucou @Violence) et d’autres choses sont en attente.

Ensuite j’ai eu pas mal de demandes pour des ebooks, de la musique et des livres audio de la part de ma belle maman, ma maman, ma femme, deux de mes filles et une amie de la famille qui vit en Australie. Et qu’est-ce que fait un flemmard dans ce genre de cas? Trouver des solutions qu’il peut gérer à distance. Installer une fois ce qu’il faut et gérer tranquillement depuis son canapé

C’est là que j’ai découvert Kavita (pour envoyer sur des Kindle), Audiobookshelf, Prologue, ShelfPlayer, etc… Et ma nouvelle meilleure amie Anna pour les eBooks (découverte sur ce forum pour changer).

Tout ça c’est bien. J’ai fait une note partagée par personne, comme wishlist et je me suis vite retrouvé avec pratiquement 100 titres rapidement (oui, ça lit beaucoup chez nous et plus de place dans les bibliothèques, pourtant il y en a beaucoup…). Cool, mais chercher manuellement, c’est long, corriger toutes les méta données pour un affichage propre dans Kavita, c’est long.

N’ayant pas trouvé une solution qui me convenait complètement, j’ai décidé de m’amuser un peu avec l’IA. Tout d’abord Perplexity (une catastrophe le résultat), puis ChatGPT.

**DISCLAIMER** : je ne sais pas coder! Mes connaissances se limitent au CSS et HTML il y a 15 ans

C’est là qu’est né le projet Autothèque. Oui le nom est moche. Entièrement réalisé avec ChatGPT, ce qui a pris un certain nombre d’heures avec une IA qui avait tendance à partir dans tous les sens et faire des modifications foireuses.

But du projet :

Avoir une Wishlist (doc Excel dans mon NextCloud) que je remplis avec “Public, Type, Titre, Auteur, Statut”
Pouvoir lancer automatiquement ces DL d’ebooks chez ma copine Anna ou autre source
Ensuite correction des méta données automatiquement (Titre, Auteur, Série)
Pour finir trier les ebooks dans les bonnes bibliothèques

Tout cela avec 0 intervention humaine mis à part le remplissage de la Wishlist.

Dans Kavita j’ai 3 bibliothèques :

Adultes
Ados
Enfant

Pour cela qu’il y a “Public” dans ma wishlist. Il y a aussi “Type”, pour “books, audiobooks, comics”. Je n’exclus pas que ça fasse aussi partie du projet par la suite. Pas utile pour le moment.

Est-ce que ça a marché? Euh…si je dis :

Plusieurs crashs complets de docker
docker.img corrompu
Freeze de HDD sur mon NAS
Plantage complet de UnRAID (devenu tellement lent)

Vous en dites quoi ?

Je vous l’avais dit, je ne sais pas coder. Donc, ça c’était la V1. Mais avec cet échec, j’étais bien plus au clair sur les problèmes, ce qui n’a pas fonctionné et la structure. C’était trop complexe, exécution trop lente, mais beaucoup d’I/O (freeze les HDD…).

C’est parti pour la V2 avec quelques heures passées avec ChatGPT uniquement pour définir la structure, les bases du fonctionnement et définir une ligne claire pour qu’il ne dévie plus!

BookHub

Est-ce que le nom existe déjà? Aucune idée
C’est comme qu’est né BookHub. Enfin! Il n’est pas parfait, certainement largement améliorable sur plusieurs points et finalement encore en test.
La première étape a été de définir mon cachepool SSD comme base pour BookHub

Ensuite voilà un résumé du projet fait pas mon nouveau pote ChatGPT.

BookHub — Automatisation complète de gestion d’eBooks

(ShelfMark → Calibre → Kavita)

Objectif

BookHub est une chaîne d’automatisation personnelle permettant de :

partir d’une wishlist simple (Excel)
rechercher et télécharger automatiquement des eBooks via ShelfMark
normaliser les fichiers avec Calibre
produire une bibliothèque finale propre
exposer cette bibliothèque à Kavita
tout en limitant volontairement les I/O

BookHub n’est pas un gestionnaire de téléchargement,
n’est pas une bibliothèque,
c’est un orchestrateur fiable et déterministe.

🧱 Conteneurs utilisés

BH-Orchestrator
→ scripts Python BookHub
→ gestion des états
→ dashboard HTML

BH-ShelfMark
→ recherche & téléchargement des eBooks

BH-CalibreWorker
→ Calibre
→ normalisation
→ export final

Kavita
→ lecture des bibliothèques finales

🧠 Principes clés

Un script = une responsabilité
Un cycle = un livre maximum
Aucune action implicite
Historique conservé

️ Arborescence principale

/BookHub
├── 00_Wishlist
│   ├── wishlist.xlsx
│   └── _snapshots/
│
├── 10_Inbox
│   ← téléchargements ShelfMark
│
├── 20_Queue
│   ├── Adultes
│   ├── Ados
│   └── Enfants
│
├── 95_State
│   ├── jobs.json
│   ├── queue.json
│   ├── dashboard.html
│   ├── dashboard.css
│   └── runner.lock
│
├── config
│   ├── snapshot_wishlist.py
│   ├── read_wishlist.py
│   ├── build_queue.py
│   ├── resolve_and_trigger_shelfmark_v2.py
│   ├── scan_inbox.py
│   ├── move_to_calibre_queue.py
│   ├── process_one_calibre.py
│   └── runner.py
│
└── Ebooks
├── Adultes/Livres
├── Ados/Livres
└── Enfants/Livres

Gestion par Public

Chaque livre est classé dans un public :

Adultes
Ados
Enfants

Le public détermine :

la file d’attente
la bibliothèque finale
la bibliothèque Kavita

Wishlist (point d’entrée)

/BookHub/00_Wishlist/wishlist.xlsx

simple Excel
aucune logique métier
snapshot automatique à chaque cycle

🧾 Scripts BookHub (et leur rôle)

1️⃣ snapshot_wishlist.py

fige la wishlist
garantit la traçabilité

2️⃣ read_wishlist.py

transforme la wishlist en jobs
état initial : NEW

3️⃣ build_queue.py

construit la queue
préserve l’historique

4️⃣ resolve_and_trigger_shelfmark_v2.py

recherche via ShelfMark
déclenche le téléchargement
état : DOWNLOADING

5️⃣ scan_inbox.py

détecte les fichiers téléchargés
matching tolérant
état : DOWNLOADED

6️⃣ move_to_calibre_queue.py

déplace vers 20_Queue/{Public}
état : READY_FOR_CALIBRE

7️⃣ process_one_calibre.py

import Calibre
fetch metadata
export final
nettoyage complet
état final : DONE

8️⃣ runner.py

orchestre tous les scripts
lock anti double-run
conçu pour cron / Unraid User Scripts

️ Ordre d’exécution

→snapshot_wishlist.py
→read_wishlist.py
→build_queue.py
→resolve_and_trigger_shelfmark_v2.py
→scan_inbox.py
→move_to_calibre_queue.py
→process_one_calibre.py

Bibliothèque finale (Kavita)

/BookHub/Ebooks/{Public}/Livres

fichiers propres
métadonnées normalisées
source unique
Calibre utilisé uniquement comme outil

🧹 Politique de nettoyage

Après export :

suppression du livre dans Calibre
suppression du fichier source
aucune duplication
cache maîtrisé

Dashboard

HTML + CSS séparé
lecture directe de queue.json
responsive
filtres
états colorés
aucune écriture

Évolutions possibles

actions depuis le dashboard
CSS avancé
statistiques
règles spécifiques par public

État du projet

️ Téléchargement automatisé
️ Matching robuste
️ Normalisation Calibre
️ Export Kavita
️ Dashboard stable
️ Historique conservé

BookHub privilégie la stabilité, la compréhension et la maîtrise des flux.

Est-ce que ça fonctionne?
Apparemment oui
Il y a certainement des améliorations à apporter. Ce sera son utilisation qui permettra de mettre le doigt sur ce qui peut coincer.

Mais surtout :

Pas de crash complet de docker
docker.img pas corrompu
pas de freeze HDD (de toute façon c’est sur mon cachepool SSD)
Pas de plantage complet de UnRAID

Je mets les livres dans ma Wishlist (xlsx) et les téléchargements se lancent petit à petit via ShelfMark et je retrouve les ebooks dans la bonne bibliothèque au final. Aucun problème d’en mettre 100, puisqu’il en gère un par run.

Ce qu’il faudra certainement améliorer :

Gestion des erreurs
Meta données pas si propres que ça, donc classement final pas toujours parfait
Voir si les séries sont bien gérées

A quoi ça ressemble ?

Les conteneurs :
Capture d’écran 2026-01-20 à 17.36.42.png

La Wishlist :
Capture d’écran 2026-01-20 à 17.37.36.png

ShelfMark (rien de particulier) :
Capture d’écran 2026-01-20 à 18.02.32.png

Le dashboard pour le suivi :
Capture d’écran 2026-01-20 à 17.38.06.png

Capture d’écran 2026-01-20 à 17.38.41.png

Pourquoi avoir posté tout ça? Parce que j’aurai bien aimé tomber dessus J’ai découvert pas mal de choses intéressantes ici, ce qui m’a permis de lancer certaines choses ou parfaire certains services. Et ce n’est que le début.

Précisions :

Un livre est ajouté dans la wishlist et lorsque statut passe en “A télécharger”, ça lance l’automatisation, dans le cas contraire -> ignoré
Pas de retour dans la wishlist, sert uniquement de base
Le traitement ensuite pas le conteneur orchestrateur a volontairement des limites, 1 livre par lancement (cron via User Script). Cela permet d’éviter des problèmes d’I/O trop importants. Pour le moment en tout cas.
Pour le moment le dashboard ne permet pas encore de piloter quoi que ce soit. J’aimerai que ce soit le cas, comme supprimer un livre de la wishlist (suite à une erreur)
Calibre est piloté vis des scripts, donc pas grand chose à configurer de son côté.

C’est quoi la suite ?
Je ne sais pas trop. Des améliorations de toute façon pour que ça demande le moins de maintenance possible et simplement profiter des ebooks

Networld

@Violence C’est mieux comme ça ?

Aerya

Salut,

Joli projet
Pas client, notamment parce que j’ai jamais fait de liste Excel mais j’ai utilisé Readarr quelques temps et testé Shelfmark et Charptarr mais je vise plus les comics et BDs que les livres (en autoDL), du coup rien trouvé qui réponde à mes besoins.

Pourquoi préférer un fichier Excel comme wishlist plutôt que des classiques Goodreads ou Listy ?

Networld

Pour que ça reste au maximum en local
J’ai pas encore testé pour les comics et les BD, mais ça doit fonctionner pareil. En fait, pas tout à fait vrai, dans la liste il y avait 2 BD et elles ont été téléchargées.
Comme ce sont des scripts qui pilotent Calibre, c’est assez simple de router un type de contenu dans un dossier spécifique ensuite. J’ai inclus un type “comics” dans ce sens.

Networld

BookHub – Mise à jour du projet

Je pensais pouvoir encore éditer mon premier message, mais apparemment non

Il y a du nouveau pour BookHub.
Le projet a beaucoup changé dans son fonctionnement et dans les scripts utilisés, mais pas dans le but !

Suite à beaucoup de tests, des problèmes ont été corrigés, des améliorations faites et une certaine simplification.
Je souhaitais aussi éditer les métadonnées et que ce soit cohérent pour tous les ebooks. Constatation faite : avec Calibre, je ne parvenais pas à avoir des métadonnées cohérentes et surtout une gestion très aléatoire des séries.

Les nouveautés

Corrections de bugs
Simplification de certains scripts
La wishlist devient LA vérité pour toutes les infos
(public, titre, auteur, série, index série, ISBN)
Ce n’est plus Calibre qui intègre les métadonnées, mais ebook-meta
(inclus dans Calibre) qui écrit les métadonnées dont la source est la wishlist
Export des epub dans les bibliothèques Kavita, selon le public
(ados, adultes, enfants)
Gestion des séries, importante pour la hiérarchie de la bibliothèque Kavita,
avec renommage des epub :
01 - Titre.epub, 02 - Titre.epub
Inclusion de dossiers pour y mettre manuellement des ebooks, afin qu’ils suivent le reste de l’automatisation, en cas de difficulté à les trouver avec ShelfMark
Une erreur ne bloque jamais la suite
(téléchargement, métadonnées, etc.)
Les ebooks qui ne sont pas trouvés sont mis en cooldown durant 3h après 5 essais

Ce qui donne au final

Une bibliothèque bien rangée
(facile de changer d’outil par la suite)
Des métadonnées propres et cohérentes
Une automatisation complète depuis l’introduction des infos dans la wishlist
La wishlist se trouvant dans mon home NextCloud, je l’édite facilement depuis n’importe lequel de mes appareils

Le déroulement

Wishlist.xlsx
      │
      ▼
Snapshot Wishlist
      │
      ▼
Queue (queue.json)
      │
      ▼
Téléchargement (ShelfMark)
      │
      ▼
/BookHub/10_Inbox
      │
      ▼
/BookHub/20_Calibre_Inbox
      │
      ▼
Écriture métadonnées (ebook-meta)
      │
      ▼
/BookHub/30_Calibre_Outbox
      │
      ▼
Export vers Kavita
      │
      ▼
/Ebooks/<Public>/Livres/...

Hiérarchie finale dans la bibliothèque Kavita

/Ebooks/
└── Adultes/
    └── Livres/
        ├── [censored], Stephen/
        │   ├── Carrie.epub
        │   └── Shining.epub
        │
        ├── Larsson, Stieg/
        │   └── Millénium/
        │       ├── 01 - Les Hommes qui n’aimaient pas les femmes.epub
        │       ├── 02 - La Fille qui rêvait d’un bidon d’essence.epub
        │       └── 03 - La Reine dans le palais des courants d’air.epub
        │
        └── Jordan, Robert/
            └── La Roue du Temps/
                ├── 01 - L’Œil du monde.epub
                └── 02 - La Grande Quête.epub

D’où viennent les infos de la wishlist ?

Je n’ai pas trouvé une meilleure solution que :

Dans ma wishlist, je remplis auteur et titre
J’ai une feuille qui contient ça au format Auteur - Titre
Je donne un contexte dans une conversation avec ChatGPT en mode agent
pour qu’il cherche toutes les infos dont j’ai besoin en lui indiquant quelles sources utiliser
(≈ 4 minutes pour 20–30 titres)
Il me génère un XLSX
Je fais ensuite un simple copier-coller dans ma wishlist

Des améliorations en vue ?

Le dashboard
Comme il y a eu beaucoup de modifications et que je ne l’utilise plus vraiment,
j’aimerais l’exploiter pour piloter :
- erreurs
- relancer
- reset
- ignorer
- ajout manuel
Améliorer la source (wishlist) pour encore plus automatiser
Par exemple une wishlist self-hosted dans laquelle une IA serait connectée
(hébergée en local) dont le seul travail serait de remplir toutes les infos de la wishlist
avec uniquement auteur et titre
- retour de l’état dans la wishlist (surtout lorsque complètement traité)
ShelfMark n’est pas très efficace
Il peine à trouver certains ebooks alors que je les trouve facilement chez Anna directement
→ à creuser

Possible que le fonctionnement avec l’IA soit un peu lourd, mais cela me permettrait ensuite d’implémenter probablement aussi la gestion des livres audio et des BD.

Le but étant de pouvoir changer facilement d’outils
(Kavita, Audiobookshelf, etc.) si nécessaire.
Avec une bonne hiérarchie de dossiers et des métadonnées complètes, ce ne sera pas un problème.

Networld

BookHub continue d’évoluer !

Voici les dernières améliorations apportées au projet :

Gestion manuelle des livres

Marquer un livre en DONE manuellement (utile si Kavita ne le voit pas encore dans la bibliothèque).
Reset d’un livre : le repasse en QUEUED et le sort du mode “cooldown”
(cooldown = arrêt des recherches pendant 3 heures après 6 tentatives infructueuses).
Supprimer un livre ou le passer en IGNORED :
- ne plus le rechercher,
- ne plus l’afficher dans le dashboard,
- l’ajouter à la blacklist pour qu’il ne revienne pas, même s’il est toujours présent dans la wishlist.

Nouvel état : `NO_MATCH`

Introduction de l’état NO_MATCH quand BookHub ne trouve aucun résultat pour un livre.

🧰 Barre d’actions globale (top bar)

Une barre d’actions en haut du dashboard permet des opérations “en masse” :

Reset NO_MATCH → tous les livres NO_MATCH repassent en QUEUED
Reset ERROR → tous les livres ERROR repassent en QUEUED
Delete DONE → supprime du dashboard tous les livres DONE
Delete IGNORED → supprime du dashboard tous les livres IGNORED

Recherche manuelle (Anna)

Possibilité de lancer une recherche manuelle sur un titre ou un auteur.
L’URL source est définie en haut de la page et peut être modifiée.
Raccourcis :
- clic sur le titre → recherche Titre + Auteur sur Anna (nouvel onglet)
- clic sur l’auteur → recherche Auteur sur Anna (nouvel onglet)

CSS & interface

Ajout d’une liste de sélection de thème CSS.
Fonctionnel, mais les thèmes alternatifs sont encore incomplets / moches pour le moment.
Divers ajustements et améliorations CSS.

Correctifs

Quelques bugs ont été corrigés au passage.

En tout 156 ebooks ont été téléchargés via BookHub, ce qui a permis de régler pas mal de soucis. Ce n’est pas parfait, mais c’est pas mal

Si un dev jetait un oeil au code, il ferait probablement une crise cardiaque

Capture d’écran 2026-01-29 à 01.14.43.png

Networld

Encore des évolutions. Je ne sais plus à quelle version de BookHub j’en suis ^^
Le projet est presque reparti de 0, car débugguer des scripts Python qui se lancent à la chaine et une interface web, certes jolies, mais pas si fonctionnelle… J’ai changé de fusil d’épaule. Les outils ont aussi changés :

de ChatGPT à Claude pour le dev
de Excel à Baserow auto-hébergé pour la wishlist
de scripts Python à n8n pour automatiser

L’idée était aussi d’automatiser encore plus. Plutôt que d’intégrer manuellement les données dans la wishlist (synopsis, ISBN, etc…), j’envoie via Talk (ordi ou smartphone) Titre - Nom auteur, Prénom auteur et tout le reste se fait automatiquement. Après plus de 200 tests, ça tourne assez bien.

Je laisse tomber pour le moment l’UI, qui est certes jolies, mais moins pratique que Baserow. Je gagne encore un peu de temps avec ce fonctionnement, qui va être améliorer.

BookHub — Automatisation complète de ma bibliothèque d’ebooks

Projet perso que je partage : une pipeline qui transforme un simple message en fiche livre complète, entièrement automatisée sur mon NAS.

Stack technique

Composant	Rôle
n8n	Orchestration de toute la pipeline
Python / FastAPI	Scraper maison pour les métadonnées enrichies
Ollama + Qwen 2.5	LLM local — génération de synopsis en dernier recours
Baserow	Base de données, source de vérité
Nextcloud Talk	Interface d’entrée (mobile + desktop)
UnRAID	Infrastructure NAS, tous les containers tournent là

L’idée

Envoyer un message depuis mon téléphone, et que tout le reste soit automatique.

Moi (Nextcloud Talk) :  "Perfect enemies - Eilema Decker"
BookHub :               ✅ Fiche créée — Hillmore University #1 — ISBN 9782017258421

Comment ça marche

1. Déclenchement

J’envoie un message dans Nextcloud Talk avec le format Titre - Auteur. Un webhook n8n capte le message et lance le pipeline.

2. Recherche parallèle

Le pipeline interroge simultanément plusieurs sources : Google Books, OpenLibrary, Wikidata, et un scraper maison. Chacune excelle dans un domaine différent, ce qui permet de croiser les résultats.

3. Fusion intelligente

Chaque champ est renseigné depuis la meilleure source disponible :

Champ	Priorité des sources
Synopsis	Scraper > OpenLibrary > Google Books FR > Google Books EN > Ollama
ISBN	Wikidata > Scraper > OpenLibrary > Google Books
Série	Wikidata > Scraper > Google Books > OpenLibrary
Numéro de tome	Wikidata > Scraper > Google Books > OpenLibrary

Si aucune source ne trouve le synopsis, Ollama prend le relais et en génère un localement.

4. Enregistrement

La fiche complète est enregistrée dans Baserow, prête pour le workflow de téléchargement.

Résultats sur ~200 livres testés

Champ	Taux de réussite
Synopsis	~90%
ISBN	~95%
Série + numéro de tome	~85%

Workflow n8n

Capture d’écran 2026-03-12 à 11.30.41.png

Planète Warez

Light

Dim

Dark