{"id":7767,"date":"2015-10-16T16:30:30","date_gmt":"2015-10-16T14:30:30","guid":{"rendered":"https:\/\/sciencetonnante.wordpress.com\/?p=7767"},"modified":"2023-07-01T19:14:50","modified_gmt":"2023-07-01T17:14:50","slug":"la-machine-a-inventer-des-mots-video","status":"publish","type":"post","link":"https:\/\/scienceetonnante.com\/blog\/2015\/10\/16\/la-machine-a-inventer-des-mots-video\/","title":{"rendered":"La machine \u00e0 inventer des mots [Vid\u00e9o]"},"content":{"rendered":"<p>Pour la premi\u00e8re fois, j&rsquo;ai d\u00e9cid\u00e9 de vous proposer une vid\u00e9o non pas sur un sujet scientifique bien \u00e9tabli, mais sur un petit projet de recherche personnel que j&rsquo;ai entrepris : comment cr\u00e9er des mots nouveaux qui sonnent bien ?<\/p>\n<p><iframe title=\"La machine \u00e0 inventer des mots (avec Code MU)\" width=\"770\" height=\"433\" data-src=\"https:\/\/www.youtube.com\/embed\/YsR7r2378j0?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" allowfullscreen src=\"data:image\/svg+xml;base64,PHN2ZyB3aWR0aD0iMSIgaGVpZ2h0PSIxIiB4bWxucz0iaHR0cDovL3d3dy53My5vcmcvMjAwMC9zdmciPjwvc3ZnPg==\" class=\"lazyload\" data-load-mode=\"1\"><\/iframe><\/p>\n<p>Pour ceux qui voudraient en savoir plus sur la m\u00e9thode utilis\u00e9e, voici quelques explications suppl\u00e9mentaires.<!--more--><\/p>\n<p>Tout d&rsquo;abord sur le tableau, il est en r\u00e9alit\u00e9 un peu plus large que ce que j&rsquo;ai pr\u00e9sent\u00e9 dans la vid\u00e9o, car j&rsquo;ai \u00e9galement consid\u00e9r\u00e9 les caract\u00e8res accentu\u00e9s ainsi que le tiret (de fait mon algorithme produit aussi de temps en temps des mots compos\u00e9s.)<\/p>\n<p>Autre \u00e9l\u00e9ment essentiel, lors de l&rsquo;analyse du corpus il est important de calculer <strong>la probabilit\u00e9 qu&rsquo;une lettre ne soit suivie par rien<\/strong> (elle est la derni\u00e8re du mot) et \u00e0 l&rsquo;inverse que \u00ab\u00a0rien\u00a0\u00bb soit suivi d&rsquo;une lettre donn\u00e9e (qui se trouve alors la premi\u00e8re.) Cela permet par exemple de voir que malgr\u00e9 son abondance relative dans la langue fran\u00e7aise, la lettre U n&rsquo;est que rarement la premi\u00e8re d&rsquo;un mot (un fait bien connu des amateurs du \u00ab\u00a0petit bac\u00a0\u00bb).<\/p>\n<p>Passons maintenant \u00e0 une pr\u00e9cision importante que j&rsquo;ai choisi de ne pas donner dans la vid\u00e9o : si vous programmez les choses telles que je l&rsquo;ai d\u00e9crit ici, vous obtiendrez des mots qui sont moins bons que ceux que j&rsquo;ai montr\u00e9. Pourquoi ? Eh bien parce que j&rsquo;ai ajout\u00e9 un degr\u00e9 de complexit\u00e9 suppl\u00e9mentaire.<\/p>\n<p>Consid\u00e9rez le mot \u00ab\u00a0TTAMIS\u00a0\u00bb, c&rsquo;est un mot qu&rsquo;on aurait pu g\u00e9n\u00e9rer en suivant la proc\u00e9dure telle que je viens de la donner. Et pourtant vous voyez que \u00e7a ne colle pas ! En fran\u00e7ais les mots ne commencent jamais par deux T d&rsquo;affil\u00e9e. Un mot qui commence par un T, oui; un T apr\u00e8s un T, oui aussi, mais pas un double T en d\u00e9but de mot.<\/p>\n<p>Autre exemple, toujours en suivant la proc\u00e9dure simple, on aurait pu produire le mot TAMMMIS : puisqu&rsquo;un M apr\u00e8s un M est un enchainement probable, avoir 3 M d&rsquo;affil\u00e9e serait permis. Et pourtant on voit que \u00e7a ne colle pas car cela ne se produit jamais en fran\u00e7ais.<\/p>\n<p><strong>Pour que les mots sonnent vraiment bien, il faut faire une cha\u00eene de Markov qui tiennent compte des DEUX derni\u00e8res lettres pour d\u00e9terminer la suivante<\/strong>. Et c&rsquo;est ainsi que j&rsquo;ai fait mes statistiques sur le corpus, en calculant par exemple la probabilit\u00e9 d&rsquo;avoir un \u00ab\u00a0e\u00a0\u00bb apr\u00e8s les deux lettres donn\u00e9s, par exemple\u00a0\u00bbbr\u00a0\u00bb. On calcule donc la probabilit\u00e9 de chaque triplet de lettres et le r\u00e9sultat est plut\u00f4t un cube qu&rsquo;un tableau.<\/p>\n<p>Petit exercice pour ceux que \u00e7a int\u00e9resse, on doit pouvoir calculer une sorte de \u00ab\u00a0longueur de corr\u00e9lation\u00a0\u00bb dans les mots, et cette longueur ne doit pas \u00eatre beaucoup plus grande que 2.<\/p>\n<p>En faisant tourner la cha\u00eene de Markov de cette mani\u00e8re, vous cr\u00e9ez des mots dont vous ne ma\u00eetrisez pas la longueur a priori, puisque un mot se terminera sous l&rsquo;effet du hasard. J&rsquo;ai ensuite reclass\u00e9 les mots par taille mais <strong>l&rsquo;algorithme a tendance \u00e0 produire beaucoup plus de grands mots en proportion que ce qu&rsquo;on trouve dans la langue fran\u00e7aise<\/strong> (en toute rigueur on devrait faire d\u00e9pendre la probabilit\u00e9 de fin du mot de la taille courante du mot, mais \u00e7a compliquerait pas mal et nous ferait sortir du formalisme des cha\u00eenes de Markov simples puisque la cha\u00eene aurait une \u00ab\u00a0m\u00e9moire\u00a0\u00bb.)<\/p>\n<p>Sinon vous aurez remarqu\u00e9 que le code produit beaucoup de mots au pluriel (car en fran\u00e7ais la transition s -&gt; rien est forte) et des mots qui ont l&rsquo;air d&rsquo;\u00eatre des verbes conjugu\u00e9s. Normal puisque le corpus de d\u00e9part contenait des mots tir\u00e9s de livres, donc conjugu\u00e9s et parfois au pluriel. Il pourrait \u00eatre int\u00e9ressant de refaire l&rsquo;exercice sur des mots du dictionnaire, non conjugu\u00e9s.<\/p>\n<p>J&rsquo;ai essay\u00e9 de faire tourner la cha\u00eene sur un corpus de mots anglais, mais le r\u00e9sultat \u00e9tait moins typique que l&rsquo;allemand. Je pense que c&rsquo;est d\u00fb au fait que l&rsquo;anglais est justement plus souple sur les encha\u00eenements autoris\u00e9s, et le tableau des probabilit\u00e9s y est certainement moins contrast\u00e9 (j&rsquo;ai souvent eu cette impression qu&rsquo;en anglais, la plupart des encha\u00eenements de lettre un peu raisonnables correspondent \u00e0 des mots qui existent vraiment).<\/p>\n<p>Avis au volontaires, je mets mes codes Python \u00e0 disposition, et je suis curieux de les voir tourner sur d&rsquo;autres langues !<\/p>\n<p>Edit : <a href=\"https:\/\/scienceetonnante.com\/2015\/11\/06\/la-machine-a-inventer-des-mots-version-ikea\/\">le billet suivant<\/a> sur le sujet et <a href=\"https:\/\/github.com\/scienceetonnante\/MachineMots\" target=\"_blank\" rel=\"noopener\">le code avec plusieurs langues<\/a><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Pour la premi\u00e8re fois, j&rsquo;ai d\u00e9cid\u00e9 de vous proposer une vid\u00e9o non pas sur un sujet scientifique bien \u00e9tabli, mais sur un petit projet de recherche personnel que j&rsquo;ai entrepris : comment cr\u00e9er des mots nouveaux qui sonnent bien ? Pour ceux qui voudraient en savoir plus sur la m\u00e9thode utilis\u00e9e, voici quelques explications suppl\u00e9mentaires.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"jetpack_post_was_ever_published":false,"_jetpack_newsletter_access":"","_jetpack_dont_email_post_to_subs":false,"_jetpack_newsletter_tier_id":0,"_jetpack_memberships_contains_paywalled_content":false,"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[4],"tags":[84,69,48],"class_list":{"0":"post-7767","1":"post","2":"type-post","3":"status-publish","4":"format-standard","6":"category-mathematiques","7":"tag-art","8":"tag-langage","9":"tag-probabilites"},"jetpack_featured_media_url":"","jetpack_sharing_enabled":true,"post_mailing_queue_ids":[],"_links":{"self":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/7767","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/comments?post=7767"}],"version-history":[{"count":3,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/7767\/revisions"}],"predecessor-version":[{"id":9700,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/posts\/7767\/revisions\/9700"}],"wp:attachment":[{"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/media?parent=7767"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/categories?post=7767"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/scienceetonnante.com\/blog\/wp-json\/wp\/v2\/tags?post=7767"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}