42.parquet : la bombe Zip qui ruine le Big Data
-
Saviez vous que les fichiers Parquet se prenaient pour des bombes ? Alors pas des bombes latines mais plutôt des bombes zip.
Alors, pour ceux qui débarquent de la planète Mars, il faut savoir que Parquet est devenu le format de prédilection pour échanger des données tabulaires. Très utilisé dans tout ce qui est Big Data et qui met une claque à ce bon vieux CSV tout pourri, Parquet, c’est binaire, c’est colonnaire, c’est compressé, c’est top !
Mais attention, derrière cette apparente perfection se cache un danger mortel pour vos disques durs et autres SSD ! En effet, même un fichier Parquet parfaitement valide peut mettre un sacré bordel et faire planter tous vos services.
Comment ? Et bien simplement avec ce fichier de seulement 42 Ko qui contient… tenez-vous bien… plus de 4 PÉTAOCTETS de données !! Oui, on parle bien de 4 millions de gigaoctets dans un malheureux fichier de 42 Ko, fallait oser.
On appelle ça une bombe de décompression ! Alors comment ça fonctionne ?
Eh bien c’est grâce à un petit tour de passe-passe démoniaque appelé “encodage par dictionnaire” . En gros, on lui donne un dictionnaire avec une seule valeur, et ensuite on fait référence à cette valeur en boucle, environ 2 milliards de fois. Résultat, on obtient un fichier minuscule car compressable au maximum mais qui une fois dézippé représente une table monstrueusement gigantesque.
C’est subtil… mais c’est vicieux !
Imaginez un peu le carnage si vous balancez ce fichier innocent dans votre pipeline Big Data sans faire gaffe… Boom ! Plantage général, crash systémique, apocalypse nucléaire ! Vos services vont tenter de lire ce fichier en pensant que c’est un gentil petit fichier Parquet de rien du tout, et là… Surprise ! C’est le chaos total. Votre cluster va fondre comme neige au soleil en essayant d’avaler ces pétaoctets de données.
Morale de l’histoire, faites attention à tout, même à ce que vous dézippez.
Et si vous avez un peu de place sur votre disque dur, vous pouvez toujours tenter l’aventure en téléchargeant 42.zip ici. (NON, NE DEZIPPEZ PAS CE TRUC !! MAUVAISE IDEE !!) (le mot de passe du zip est : 42)
– Sources :
https://korben.info/bomb-42-parquet-bombe-zip-big-data.html
https://duckdb.org/2024/03/26/42-parquet-a-zip-bomb-for-the-big-data-age.html
-
J’ai dezippé la chose sans aucun problème…rien ne me résiste
-
@Psyckofox a dit dans 42.parquet : La bombe Zip qui ruine le Big Data :
J’ai dezippé la chose sans aucun problème…rien ne me résiste
oh punaise que j’ai rigolé
-
Comment c’est possible de passer de 42ko à une telle taille finale, c’est dingue
-
ben parce que en gros il n’y a que la table des matières dans le fichier, et le soft a enrhumé la vérification … bref ça à généré de l’hyper ultra méga giga compressible lol
-
@Mister158 oui j’ai compris le principe, mais le résultat est ouf
-
Je me l’ouvrirais bien sur une clef usb pour rigoler.
-
Si on l’envoi sur Google drive y’a moyen de foutre la merrde ou pas, c’est pour un pote
-
Heureusement que le fichier a un mot de passe, sinon, windows et d’autres anti-virus consommeraient pas mal de ressource à essayer de l’explorer…
-
La voilà cette fameuse réponse ! enfin !
-
J’ai fait passer le lien Korben à un ami mathématicien qui m’a répondu :
" Je le télécharge de suite et le rezippe" -
Raccoon Admin Seeder I.T Guy Windowsien Apple User Gamer GNU-Linux User Teama répondu à Ashura le dernière édition par
@Ashura a dit dans 42.parquet : la bombe Zip qui ruine le Big Data :
Comment c’est possible de passer de 42ko à une telle taille finale, c’est dingue
Encore un coup des poissons peut-être.