Sans surprise, Open Ai hallucine de plus en plus
-
Ainsi, des évaluations internes révèlent que le taux d’hallucination d’o3 sur le benchmark PersonQA atteint environ le double de celui des anciens modèles, tandis qu’o4-mini affiche un taux encore plus élevé. Sur certains tests, près de la moitié des réponses générées par o4-mini comportaient des éléments erronés. OpenAI admet ne pas comprendre précisément les causes de cette hausse et souligne la nécessité de poursuivre les recherches pour y remédier.
Les humains peuvent supporter les contradictions, les ordinateurs, beaucoup moins…
même s’ils peuvent tricher avec une division par zéro ou une racine carrée de moins un…
Et encore: