Aller directement au contenu
  • Accueil
  • Catégories
    • Toutes les catégories
    • Planète Warez
      Présentations
      Aide & Commentaires
      Réglement & Annonces
      Tutoriels
    • IPTV
      Généraliste
      Box
      Applications
      VPN
    • Torrent & P2P
    • Direct Download et Streaming
    • Autour du Warez
    • High-tech : Support IT
      Windows, Linux, MacOS & autres OS
      Matériel & Hardware
      Logiciel & Software
      Smartphones & Tablettes
      Graphismes
      Codage : Sites Web, PHP/HTML/CSS, pages perso, prog.
      Tutoriels informatiques
    • Culture
      Actualités High-Tech
      Cinéma & Séries
      Sciences
      Musique
      Jeux Vidéo
    • Humour & Insolite
    • Discussions générales
    • Espace détente
    • Les cas désespérés
  • 0 Non lus 0
  • Récent
  • Mots-clés
  • Populaire
  • Meilleur vote
  • Résolu
  • Non résolu
  • Utilisateurs
  • Groupes
  • Faire un don
  • Wiki
Réduire
Logo

Planète Warez

,
  • Politique
  • Règlement
  • À propos
  • Annonces
  • Faire un don
  • Feedback
  • Team
  • Tutoriels
  • Bug Report
  • Wiki
    • Light
    • Default
    • Ubuntu
    • Lightsaber
    • R2d2
    • Padawan
    • Dim
    • FlatDark
    • Invaders
    • Metallic
    • Millennium
    • Leia
    • Dark
    • DeathStar
    • Starfighter
    • X-Wing
    • Sith Order
    • Galactic
ko-fi
  1. Accueil
  2. Culture
  3. Actualités High-Tech
  4. L'extraction de données pour et par l'I.A. se heurte au pdf et au format des journaux

L'extraction de données pour et par l'I.A. se heurte au pdf et au format des journaux

Planifier Épinglé Verrouillé Déplacé Actualités High-Tech
2 Messages 2 Publieurs 95 Vues 1 Abonné
  • Du plus ancien au plus récent
  • Du plus récent au plus ancien
  • Les plus votés
Répondre
  • Répondre à l'aide d'un nouveau sujet
Se connecter pour répondre
Ce sujet a été supprimé. Seuls les utilisateurs avec les droits d'administration peuvent le voir.
  • duJambonundefined Hors-ligne
    duJambonundefined Hors-ligne
    duJambon
    Pastafariste Rebelle
    a écrit sur dernière édition par duJambon
    #1

    Je ne vous traduirais pas l’article qui est plutôt rasoir, mais un petit exemple vous fera tout comprendre.

    La reconnaissance de caractère par OCR avait déjà ses limites, les llms ne font guère mieux, par exemple du texte encolonné dans un journal, un livre ou un pdf

    5f3aadbe-7c47-4af0-8923-d97600117f02-image.png

    “Shake my booty” est à la base d’un tube et d’une expression devenue célèbre, alors qu’à la base le butin (en l’occurrence aussi le cul) n’a aucune raison d’être secoué ici.

    Même à l’ère de l’intelligence artificielle, il n’existe pas encore de solution OCR parfaite. Pire, elles contribuent ou entretiennent les hallucinations de ces systèmes. La course à l’extraction de données à partir de PDF se poursuit, avec des entreprises comme Google qui proposent désormais des produits d’IA générative sensibles au contexte. Comme l’observe Willis, une partie de la motivation des entreprises d’IA pour extraire les PDF est sans doute liée à l’acquisition potentielle de données d’entraînement : « Je pense que l’annonce de Mistral est une preuve assez claire que les documents – et pas seulement les PDF – constituent une part importante de leur stratégie, précisément parce qu’ils fourniront probablement des données d’entraînement supplémentaires. »

    Qu’elles profitent aux entreprises d’IA qui utilisent des données de formation ou aux historiens qui analysent un recensement historique, ces technologies, à mesure qu’elles s’améliorent, peuvent ouvrir la voie à des référentiels de connaissances actuellement enfermés dans des formats numériques conçus principalement pour la consommation humaine. Cela pourrait conduire à un nouvel âge d’or de l’analyse des données – ou à une journée de chasse aux erreurs difficiles à repérer, selon la technologie utilisée et la confiance aveugle que nous lui accordons.

    Source et beaucoup plus: https://arstechnica.com/ai/2025/03/why-extracting-data-from-pdfs-is-still-a-nightmare-for-data-experts/

    Nulle loi d’airain gravée au marbre des remparts, car tout client dépend d’un serveur aux hasards. (ChatGPT)

    1 réponse Dernière réponse
    0
    • Violenceundefined En ligne
      Violenceundefined En ligne
      Violence
      Admin PW Addict I.T Guy # Dev Team
      a écrit sur dernière édition par
      #2

      Perso j’utilise le screen to text de Powertoys. Ça marche relativement bien…

      V:\> █░░ SPR3AD TH3 C0D3 ░░█ ✌(◕‿-)✌
      ╚═ Admin, Dev et auteur de la plupart des bugs de PW…

      1 réponse Dernière réponse
      0

      Hello! It looks like you're interested in this conversation, but you don't have an account yet.

      Getting fed up of having to scroll through the same posts each visit? When you register for an account, you'll always come back to exactly where you were before, and choose to be notified of new replies (either via email, or push notification). You'll also be able to save bookmarks and upvote posts to show your appreciation to other community members.

      With your input, this post could be even better 💗

      S'inscrire Se connecter
      Répondre
      • Répondre à l'aide d'un nouveau sujet
      Se connecter pour répondre
      • Du plus ancien au plus récent
      • Du plus récent au plus ancien
      • Les plus votés







      ©2026 planete-warez.net
      L'actualité Warez & underground en continu
      Icône café Faire un don
      Politique   RGPD  @dev  Sudonix
      • Se connecter

      • Vous n'avez pas de compte ? S'inscrire

      • Connectez-vous ou inscrivez-vous pour faire une recherche.
      • Premier message
        Dernier message
      0
      • Accueil
      • Catégories
        • Toutes les catégories
        • Planète Warez
          Présentations
          Aide & Commentaires
          Réglement & Annonces
          Tutoriels
        • IPTV
          Généraliste
          Box
          Applications
          VPN
        • Torrent & P2P
        • Direct Download et Streaming
        • Autour du Warez
        • High-tech : Support IT
          Windows, Linux, MacOS & autres OS
          Matériel & Hardware
          Logiciel & Software
          Smartphones & Tablettes
          Graphismes
          Codage : Sites Web, PHP/HTML/CSS, pages perso, prog.
          Tutoriels informatiques
        • Culture
          Actualités High-Tech
          Cinéma & Séries
          Sciences
          Musique
          Jeux Vidéo
        • Humour & Insolite
        • Discussions générales
        • Espace détente
        • Les cas désespérés
      • Non lus 0
      • Récent
      • Mots-clés
      • Populaire
      • Meilleur vote
      • Résolu
      • Non résolu
      • Utilisateurs
      • Groupes
      • Faire un don
      • Wiki