Paradoxe du singe savant

Le paradoxe du singe savant est un théorème selon lequel un singe qui tape indéfiniment et au hasard sur le clavier d'une machine à écrire pourra presque sûrement écrire un texte donné.



Catégories :

Probabilités - Théorème de mathématiques

Page(s) en rapport avec ce sujet :

  • ... Le paradoxe du singe savant dans les actualités du blog de lemondeavance et l'ensemble des buzz et actus sur Le paradoxe du singe savant qui... (source : lemondeavance)
  • graphier l'ensemble des travaux réunis de William Shakespeare. Le démontrer. http :// fr. wikipedia. org/wiki/ Paradoxe du singe savant. (source : perso.centrale-marseille)
Avec suffisamment de temps, un chimpanzé comme ce dernier, qui tape au hasard sur le clavier d'une machine à écrire, pourra presque sûrement produire une copie d'une pièce de théâtre de Shakespeare.

Le paradoxe du singe savant est un théorème selon lequel un singe qui tape indéfiniment et au hasard sur le clavier d'une machine à écrire pourra presque sûrement écrire un texte donné. Dans ce contexte, presque sûrement est une expression mathématique avec un sens précis et le "singe" n'est pas vraiment un singe mais une métaphore pour mécanisme abstrait qui produit une séquence aléatoire de lettres à l'infini. Le théorème illustre les dangers de raisonner sur l'infini en imaginant un très grand nombre, mais fini, et inversement. La probabilité qu'un singe tape avec exactitude un ouvrage complet comme Hamlet de Shakespeare est si minuscule que la chance de se produire au cours d'une période de temps de l'ordre de l'âge de l'univers est minuscule, mais pas nulle.

Des variantes de ce théorème incluent plusieurs, ou alors un nombre illimité, de dactylographes et le texte à écrire passe d'une simple phrase à l'ensemble des livres d'une bibliothèque. En français on parle de l'ensemble des livres de la Bibliothèque nationale de France, en anglais de tous l'œuvre complète de William Shakespeare. On trouve des traces de ce genre de déclaration dans les œuvres d'Aristote, Blaise Pascal et Jonathan Swift jusqu'à son évolution vers la version avec un dactylographe,

Le résultat fut présenté par Émile Borel en 1909 dans son ouvrage de probabilités. Ces «singes» ne sont pas des singes réels, et ne se comportent pas comme de vrais singes ; ils sont plutôt une métaphore vivante pour une machine abstraite à produire des lettres dans un ordre aléatoire, par exemple un ordinateur ou un générateur aléatoire connecté à une imprimante.

Variante

D'après une formulation populaire du théorème, une illimitété de singes dactylographiant pendant une durée illimitée produiront un texte donné. Insister sur les deux illimités est cependant excessif. Un seul singe immortel qui tape indéfiniment dactylographiera n'importe quel texte fini, et même obtiendra ce texte une illimitété de fois.

Démonstration

Commençons par préciser ce qu'on entend par «événements indépendants» (ici, les touches choisies successivement par le singe, qui sont censées être choisies «indépendamment» les unes des autres, c'est-à-dire que le choix de la lettre suivante ne dépend pas des lettres précédentes ; c'est le cas par exemple si le singe a une mémoire de poisson rouge). Deux événements sont dits indépendants si la probabilité pour que tous deux se produisent est égale au produit des probabilités pour que chaque événement se produise. A titre d'exemple, si la probabilité pour qu'il pleuve sur Sydney un jour spécifique est de 0, 3 et la probabilité pour qu'il y ait un tremblement de terre à San Francisco un jour spécifique est de 0, 8, alors la probabilité pour que l'ensemble des deux se produisent le même jour est égale à 0, 3 × 0, 8 = 0, 24.

Supposons à présent que la machine à écrire soit pourvue de 50 touches, et que le mot à taper soit «banane». En tapant au hasard, il y a une chance sur 50 que la première lettre tapée soit b ; de même, il y a une chance sur 50 que la seconde lettre tapée soit a, et ainsi de suite. Ces événements sont indépendants, et ainsi il y a une chance sur 506 que les six lettres du mot «banane» soient tapées. Pour la même raison, il y a à nouveau une chance sur 506 que les six lettres suivantes soient celles du mot «banane», et ainsi de suite.

La probabilité de ne pas taper «banane» dans un de ces blocs consécutifs de 6 lettres est de 1-\left(\frac{1}{50}\right)ˆ6. Comme chaque bloc est tapé indépendamment, la probabilité Pn qu'il n'y ait pas «banane» parmi les n premiers blocs de 6 lettres est P_n = \left(1-\left(\frac{1}{50}\right)ˆ6\right)ˆn.

Lorsque n devient particulièrement grand, Pn se rapproche de 0 (c'est une suite géométrique). Pour un entier n égal à un million, Pn est égal à 0, 9999, pour un n égal à 10 milliards, Pn vaut 0, 53 et pour un n égal à 100 milliards, il vaut 0, 0017. On dit que la probabilité Pn tend vers zéro lorsque n tend vers l'infini.

Ainsi, la probabilité que le singe n'ait pas tapé «banane» après 6n frappes est encore plus petite que Pn (Pn est la probabilité que le singe n'ait pas tapé «banane» dans un des blocs consécutifs de 6 lettres ; si par exemple le singe débute en tapant «abanane», il a effectivement tapé «banane», mais il n'a pas tapé «banane» dans un des blocs qu'on a reconnus). Comme Pn tend vers 0, en passant à la limite, on trouve :

La probabilité que le singe ne tape jamais «banane» vaut 0.

C'est dire que, presque sûrement, le singe tape le mot «banane» à un moment. (On peut même dire qu'il tape le mot «banane» dans un de nos blocs de 6 caractères).

L'argument précédent reste valable pour toute chaîne de caractères finie, et pour toute taille de clavier.

Pourquoi dire «presque sûrement» tandis que l'événement est de probabilité égale à 1 ? Comment un événement envisageable peut-il être de probabilité nulle ? Il y a une subtilité due au fait que la totalité des résultats envisageables (ici la totalité de l'ensemble des chaînes de caractères illimitées) est illimité. Ainsi par exemple, l'événement «le singe ne tape que des "a"» fait partie des événements envisageables, mais est de probabilité nulle, tout comme l'événement «le singe ne tape jamais le mot "banane"», comme on vient de le voir.

En pratique

Sans tenir compte de la ponctuation, ni des espaces, ni de la casse, un singe a une chance sur 26 de dactylographier correctement la première lettre du mot Hamlet. Il a une chance sur 676 (26 fois 26) de dactylographier les deux premières lettres. Puisque la probabilité diminue exponentiellement, pour 20 lettres elle ne sera uniquement que d'une chance sur 2620 = 19 928 148 895 209 409 152 340 197 376, à peu de choses près égale à la probabilité d'acheter consécutivement 4 billets de loterie et de gagner le gros lot à chaque fois. Dans le cas du texte entier de Hamlet, les probabilités sont tellement négligeables qu'elles sont difficilement représentables pour un homme. Le texte de Hamlet, même dépouillé de toute ponctuation, contient énormément plus de 130 000 lettres.

Gian-Carlo Rota écrivit dans un manuel de probabilité (inachevé quand il mourut)  :

«Si le singe pouvait taper sur son clavier une touche par nanoseconde, alors la durée d'attente pour que le singe dactylographie totalement Hamlet serait si longue que l'âge estimé de l'univers paraîtrait insignifiant par comparaison… et ce n'est pas une bonne méthode pour écrire les pièces de théâtre.»

En physique, la force de l'«argument de singes» ne se situe pas dans la probabilité pour que les singes produisent peut-être quelque chose d'intelligible, mais dans la réalité pratique qu'ils ne le feront jamais (et que même s'ils en faisaient une partie, il serait impossible de l'identifier comme telle). N'importe quel processus physique moins probable que la réussite de tels singes, est dans le cours d'une vie humaine, et quelquefois même assez à l'âge de l'univers, impossible ; c'est là une base statistique liée au second principe de la thermodynamique.

RFC 2795

La RFC 2795, en date du 1er avril 2000, établit un protocole, IMPS, servant à coordonner une illimitété de singes savants au cas où on désirerait essayer tout de même[1].

Le mythe du singe savant

Certains Américains prétendent, quoique ce soit fortement improbable, que l'utilisation par Borel des singes et des machines à écrire dans son théorème fut inspirée d'une argumentation de Thomas Henry Huxley le 30 juin 1860. Huxley en aurait parlé au cours d'une discussion avec l'évêque anglican d'Oxford, Samuel Wilberforce, tenue lors d'une réunion de l'association britannique pour l'avancement de la Science à Oxford, de laquelle Wilberforce était vice-président, ce dernier ayant été ébloui par la publication de Charles Darwin sur l'Origine des espèces sept mois plus tôt, en novembre 1859.

Aucune transcription de la discussion n'existe, personne aujourd'hui ne peut en témoigner, et aucun mémoire de Huxley n'inclut une quelconque référence au théorème du singe savant.

Certains supposent que ce rapprochement hypothétique de la discussion avec le théorème du singe savant est certainement un mythe urbain dont l'origine provient du fait que cette discussion ait dégénéré en parlant des singes : l'évêque demanda si Huxley descendait d'un singe du côté de sa grand-mère ou de son grand-père, et Huxley répondit qu'il descendait plutôt d'un singe que de quelqu'un comme l'évêque qui argue avec une telle mauvaise foi. Il est toujours moins probable qu'Huxley ait fait allusion à une machine à écrire. Quoique des brevets pour les machines à écrire modernes aient été accordés à partir de 1714, la production commerciale des machines à écrire n'a commencé qu'en 1870, et un orateur aussi habile qu'Huxley n'aurait sans doute pas laissé dépendre son argumentation d'une machine dont l'existence était toujours inconnue de l'essentiel de son auditoire.

Littérature et culture populaire

Dans les Voyages de Gulliver (1721), Jonathan Swift anticipe l'idée principale du théorème, dépeignant un professeur de la grande académie de Lagado qui essaye de créer une liste complète de l'ensemble des connaissances scientifiques en faisant générer en permanence par ses étudiants des chaînes de lettres aléatoires en tournant des manivelles sur un mécanisme (partie trois, chapitre cinq).

Un thème identique est traité dans La Bibliothèque de Babel de Jorge Luis Borges, dans laquelle se trouve un nombre infini de volumes remplis de chaînes de caractères aléatoires. L'ensemble des grandes œuvres de la littérature sont présentes par construction dans la bibliothèque, mais aussi la biographie à venir de celui qui errerait à la recherche de son avenir dans l'immense bibliothèque; mais de telles œuvres sont dépassées en nombre par des travaux médiocres, à leur tour écrasés par une masse énormes de livres dont le contenu n'a pas le moindre sens. Richard Dawkins a pour sa part imaginé le portable de Babel, un ordinateur portable dont les 4 mégaoctets de mémoire seraient remplis aléatoirement. Ici encore, l'ensemble des noyaux de Windows comme de Linux, passés, présents ou futurs (jusqu'à 4 Mo du moins) seraient quelque part.

Borges reprend aussi cette idée dans sa nouvelle l'immortel (du recueil l'Aleph), en supposant qu'Homère ait été immortel et par conséquent sans mérite car «aussitôt accordé un délai illimité, avec des circonstances et des changements illimités, l'impossible aurait été de ne pas composer, au moins une fois, l'Odyssée»[2].

Les références de culture populaire à ce théorème incluent :

Le théorème est aussi à la base d'une pièce en un seul acte de David Ives intitulée «Words, Words, Words» («Mots, Mots, Mots»), qui apparaît dans sa collection All in the Timing . Dans cette pièce, trois singes nommés Milton, Swift, et Kafka ont été confinés dans une cage par un scientifique jusqu'à ce qu'ils écrivent Hamlet. Il y a une courte histoire humoristique de R. A. Lafferty intitulée «Been a Long, Long Time» signifiant «longtemps, longtemps», dans laquelle un ange est puni et doit corriger l'ensemble des textes produits jusqu'à une date ultérieure (après que des trillions d'univers meurent), lorsque des singes auront réussi à apporter une copie idéale des travaux de Shakespeare.

Dans la pièce Rosencrantz & Guildenstern are Dead de Tom Stoppard, un personnage dit, «si un million de singes…» mais ne continue pas sa phrase et change de sujet. Il s'agit sans doute d'une allusion humoristique, puisque les personnages sont censés jouer dans Hamlet.

En 2000, le comité de normalisation de standard pour internet IETF, à l'occasion d'un April 1st RFC a proposé «une suite de protocole d'une illimitété de singes (IMPS)», une méthode pour diriger par internet une ferme contenant une illimitété de singes.

Dans la page personnelle (blog) de l'auteur et acteur Wil Wheaton, figure le slogan, «50 000 singes devant 50 000 machines à écrire ne peuvent pas se tromper». Ce mot d'esprit a remporté un prix de Blog award en 2002 dans la catégorie «meilleur sous-titre de Weblog».

Robert Wilensky remarqua une fois avec amusement que «nous avons tous entendu parler qu'un million de singes frappant sur un million de machines à écrire reproduiront tôt ou tard les travaux entiers de Shakespeare. Maintenant, grâce à l'internet, nous savons que ce n'est pas vrai ».

Le comédien Bob Newhart avait un rôle dans une comédie, de technicien de laboratoire chargé de la surveillance d'une expérimentation sur un «très grand nombre de singes» et dans ce rôle il découvrit que l'un des singes avait dactylographié «être, ou ne pas être; c'est la gezortenblatt». En allemand «gezortenblatt» pourrait signifier «une question de braillement».

Les chèvres, une bande dessinée sur internet illustrée par Jonathan Rosenberg, raconte une histoire nommée les machines à écrire illimitées où plusieurs personnages sont déplacés accidentellement dans une autre dimension. Ils constatent que cette dimension est peuplée par des singes avec des machines à écrire, censés dactylographier les manuscrits appartenant à de multiples autres dimensions.

La Désencyclopedie, parodie de Wikipédia, prétend sur sa page d'accueil être entièrement écrite par des singes savants. Il y est d'usage de faire référence aux utilisateurs par le terme Singes savants.

Dans le 7ème épisode des Lone Gunmen (La Planète des Frohikes), des singes tapent sur des machines à écrire et Simon écrit le texte de Shakespear dicté.

Singes de laboratoire

Il s'agit d'une expérience de pensée qui, clairement, ne peut pas être effectuée dans la réalité, dans la mesure où elle demanderait un temps illimité ou une illimitété de singes. Néanmoins, elle a inspiré de nombreux travaux dans la génération aléatoire finie de textes.

Le site «le simulateur de singe shakespearien», commencé le 1er juillet 2003, contient une appliquette qui simule une grande population de singes dactylographiant aléatoirement, dans l'intention de voir combien de temps il faut à ces singes virtuels pour produire une pièce complète de Shakespeare du début jusqu'à la fin. Le 3 janvier 2005, le programme a obtenu 24 lettres consécutives, quatre mots ont été enregistrés («RUMOUR. Open your ears; 9r"5j5&?OWTY Z0d "B-nEoF. vjSqj[...» de Henry VI, part 2 ). À cause des limitations de capacité de traitement, le programme emploie un modèle probabiliste (en employant un générateur de nombres aléatoires) au lieu de réellement produire aléatoirement du texte et de le comparer à Shakespeare. Lorsque le simulateur «détecte une coïncidence» (c'est-à-dire, lorsque le générateur de nombres aléatoires produit une certaine valeur), le simulateur réagit à la coïncidence en produisant du texte assorti.

En 2003, des scientifiques de l'université de Plymouth, auraient effectué une expérience avec des singes au zoo de Paignton à Devon en Angleterre : laisser pendant un mois un clavier d'ordinateur dans la clôture qui parquait six macaques à crête de Sulawesi. À la fin ils constatèrent que les singes n'avaient produit que cinq pages ne contenant que quelques lettres longuement répétées, et ils rapportèrent que les singes avaient commencé par attaquer le clavier avec une pierre, et avaient ensuite uriné et déféqué dessus (voir aussi Prix Ig Nobel).

La levée du «paradoxe»

Une question peut à ce stade subsister dans l'esprit : peut-on réellement produire des œuvres littéraires avec ce dispositif ? Il est clair qu'on ne fait que remplacer un problème par un autre plus grand : au lieu de composer une œuvre, il faut lire et tester des milliards de milliards de documents et arriver à déterminer lequel contient l'œuvre. La quantité d'information consommée dans le processus sera au moins aussi grande, et en ce sens ce paradoxe n'est pas dénué de similitude avec celui du démon de Maxwell, dont la physique crut quelques mois pouvoir espérer des miracles aussi.

Exprimé en termes plus simples, cela veut dire que la complexité de retrouver une œuvre donnée de Shakespeare dans la bibliothèque de Babel sera particulièrement précisément la même que celle de recopier directement cette pièce à la main : la bibliothèque de Babel (ou le travail des singes) ne contient paradoxalement pas d'information. Ou, ce qui revient au même, c'est le contexte lié au vécu du récepteur, et lui seul, qui fait que tel «bruit» spécifique devient pour lui une «information» (parce qu'il connaît la grammaire d'une langue, possède un vocabulaire et dispose d'un vécu lui servant à conférer du sens à une suite de caractères qui en soi ne se distingue pas des autres (voir aussi Théorie d'Everett).

Paul Valéry avait exprimé une réserve identique dans L'homme et la coquille (Variété III)  : «le chiffre qui sort à la loterie ne peut avoir de sens pour moi, ne se distingue de l'ensemble des autres, que si je possède un billet qui le porte.»

Et en mathématiques ?

On pourrait imaginer de gagner du temps dans le processus en ne produisant que des phrases bien constituées. Cela est complexe pour une langue naturelle, mais facile en mathématiques, dans le cadre de la logique mathématique. On envisagea par conséquent lors des premiers développements du calcul formel sur ordinateur d'apporter des axiomes et des règles de déduction à une machine, le mathématicien n'ayant plus qu'à examiner chaque jour les listings ainsi qu'à publier les théorèmes du jour. Il va de soi que le problème est le même à une seule chose près : l'ensemble des formules imprimées seront cette fois correctes, c'est-à-dire bien constituées et de plus vraies (et apportées avec la démonstration).

En revanche, le problème du dépouillement de papier reste inchangé. Qui plus est , au cours d'une conférence sur les fondements des mathématiques, Jean-Yves Girard fait la remarque suivante (selon lui, la logique formelle ressemble plus à un travail de bureaucrate qu'à un travail de singe savant)  :

«La question qui se pose est la suivante : est-ce que les mathématiques sont une activité formelle ? Est-ce que les mathématiques sont une activité "bureaucratique" ? Est-ce qu'on aurait pu confier le théorème de Fermat à un groupe d'énarques ? Ils y seraient arrivés en 300 ans ? Bon c'est impossible parce qu'il faut des idées.»

Il faut en effet l'idée du théorème, aussi importante au moins que sa démonstration. Une machine peut fabriquer "au kilomètre" des énoncés mathématiquement tous vrais accompagnés de leur démonstration établie par ses soins. Néanmoins, dans ces millions d'énoncés, le fait d'en distinguer quelques uns pour en faire - et d'eux seuls - des théorèmes relève d'un vécu du mathématicien, qui aura reconnu un lien envisageable et peut-être fécond avec des travaux d'autres branches du savoir comme la physique, la statistique, la biologie, etc. Les théorèmes spécifiques de Thalès et de Pythagore, par exemple, étaient liés à des besoins latents concernant l'architecture ou l'établissement d'un cadastre.

Art informatique

Selon ce même principe, des formes [3] (pseudo) aléatoires ont été utilisées pour créer de l'art abstrait. Le logiciel suit des structures types, pré-programmées. L'utilisateur humain peut pondérer ces structures selon ses prédilections, pour faire composer des dessins ou de la musique qui lui plaise.

Lien avec la philosophie

Une question importante de la philosophie est "Pourquoi y a-t-il quelque chose plutôt que rien ?". Étant donné que la réalisation de tous les envisageables équivaut à une absence totale d'information, une boutade classique de physiciens consiste à dire qu'il se peut tout simplement que nous ne soyons que l'une des formes envisageables du "rien".

(Une sorte d'anti-hasard existe ici : nous ne pouvons comme observateurs exister que dans un des univers spécifiques susceptibles de donner naissance à des observateurs. Il s'agit du principe anthropique)

Nombres-univers

On peut occasionnellementévaluer si la suite des décimales d'un nombre irrationnel possède des caractéristiques statistiques analogues à une suite de chiffres aléatoires. Quand tel est le cas, on peut attendre de cette suite les mêmes caractéristiques qu'un texte frappé par un singe (non) savant : en poussant son investigation assez loin dans cette suite, on peut espérer y découvrir son numéro de téléphone, sa date de naissance, notre numéro de sécurité sociale la dernière suite gagnante des numéros du Loto et avec une convention pour associer des lettres et signes typographiques aux couples de chiffres, son nom de famille, son adresse, et en étant particulièrement opiniâtre - La Cigale et la fourmi, Le Corbeau et le Renard et La Bibliothèque de Babel, de Jorge Luis Borgès. Il n'est par conséquent pas davantage envisageable d'utiliser le procédé pour la moindre création littéraire, sauf à la rigueur pour un exercice de style (Jean-Pierre Petit par exemple a utilisé des mots créés par combinaisons aléatoires de préfixes et suffixes dans ses bandes dessinées).

Notes

  1. ftp ://ftp. rfc-editor. org/in-notes/rfc2795. txt
  2. L'Aleph, collection L'imaginaire Gallimard, P. 9 (ISBN 2070296660)
  3. au sens général : géométriques, sonores, ...

Références

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Paradoxe_du_singe_savant.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu