L'extraction de données pour et par l'I.A. se heurte au pdf et au format des journaux
-
Je ne vous traduirais pas l’article qui est plutôt rasoir, mais un petit exemple vous fera tout comprendre.
La reconnaissance de caractère par OCR avait déjà ses limites, les llms ne font guère mieux, par exemple du texte encolonné dans un journal, un livre ou un pdf
“Shake my booty” est à la base d’un tube et d’une expression devenue célèbre, alors qu’à la base le butin (en l’occurrence aussi le cul) n’a aucune raison d’être secoué ici.
Même à l’ère de l’intelligence artificielle, il n’existe pas encore de solution OCR parfaite. Pire, elles contribuent ou entretiennent les hallucinations de ces systèmes. La course à l’extraction de données à partir de PDF se poursuit, avec des entreprises comme Google qui proposent désormais des produits d’IA générative sensibles au contexte. Comme l’observe Willis, une partie de la motivation des entreprises d’IA pour extraire les PDF est sans doute liée à l’acquisition potentielle de données d’entraînement : « Je pense que l’annonce de Mistral est une preuve assez claire que les documents – et pas seulement les PDF – constituent une part importante de leur stratégie, précisément parce qu’ils fourniront probablement des données d’entraînement supplémentaires. »
Qu’elles profitent aux entreprises d’IA qui utilisent des données de formation ou aux historiens qui analysent un recensement historique, ces technologies, à mesure qu’elles s’améliorent, peuvent ouvrir la voie à des référentiels de connaissances actuellement enfermés dans des formats numériques conçus principalement pour la consommation humaine. Cela pourrait conduire à un nouvel âge d’or de l’analyse des données – ou à une journée de chasse aux erreurs difficiles à repérer, selon la technologie utilisée et la confiance aveugle que nous lui accordons.
Source et beaucoup plus: https://arstechnica.com/ai/2025/03/why-extracting-data-from-pdfs-is-still-a-nightmare-for-data-experts/
-
Perso j’utilise le screen to text de Powertoys. Ça marche relativement bien…