WORKSHOP Réédition digitale - Lire + Ecrire http://www.mondotheque.be/wiki/index.php/Main_Page Julie, Wouter, Théo, Stephane, Jean Link to installation instructions for Python 3: https://github.com/mikekestemont/cl1516-python Install Python simple: https://www.python.org/downloads/ Installer NLTK (linux) Installer Pip Install pip and virtualenv for Ubuntu 10.10 Maverick and newer *$ sudo apt-get install python-pip python-dev build-essential *$ sudo pip install --upgrade pip *$ sudo pip install --upgrade virtualenv Install NLTK: $ sudo pip install -U nltk Install Numpy (optional): $ sudo pip install -U numpy Test installation: $ python then type : import nltk then type : nltk.download() Une fenêtre nltk s'ouvre: sélectionner all (au minimum) exporter Wiki Source en divers formats https://tools.wmflabs.org/wsexport/tool/book.php pour title, taper "Traité de documentation" Algolit rencontres: http://pad.constantvzw.org/public_pad/algolit_encounters Analyse de fréquence >> une machine ne comprend pas les mots mais sait compter : récurrence des mots *"Le le Le *plus *petit *document *c’est *une une une *inscription, *la la *borne *millaire *qui qui *porte porte *nom *d’ * localité *et *un *kilométrage. *poteau *« stop » *ou *ralentissement, *simple *figure *conventionnelle *de *signalisation *(rond, *triangle, barrière fermée). C’est même moins, c’est le signe que le boyscout trace à la craie sur les arbres ou les rochers ; sur papier c’est la carte de visite un nom suivi éventuellement des titres et de l’adresse ; c’est le timbre-poste tout petit, plus petit encore le timbre réclame et toutes les petites étiquettes." on prend le premier mot du texte s'il n'est pas copié dans l'index, on l'inscrit avec un compteur, on met à 1 s'il est déjà dans l'index on incrémente le compteur de 1 on passe au mot suivant Découpe le papier, petit tas de mots par ordre alphabétique je compte les mots par tas je note les résultats je prends 1 mot, je l'efface dut texte à chaque fois qu'il apparait je commence par les mots les plus connus d'abord ctrl + F par mot je note le résultat classifier par sujet-verbe-complément-adjectif je range tout dedans -> est-ce qu'aller/ira est le meme mot? -> web sémantique je décris le caractère "lettre" je décris le caractère "espace" J''identifie le mot *- un mot est une suite de (n) lettres déterminé par deux balises qui sont des espaces *Je compte les mots *- je segemente donc le texte chaque fois qu'un espace intervient * J'apprends l'alphabet *je trie par ordre alphabétique J'identifie les mots et je les comptes Je compte les mots chaque fois qu'ils changent Prenez un journal texte. Prenez les ciseaux. Choisissez dans le journal un article ayant la longeur que vous comptez donner à votre poème. Découpez l'article. le texte Découpez ensuite avec soin chacun de mots qui forment cet article texte et mettez-les dans un sac. Agitez doucement. Sortez ensuite chaque coupière l'une après l'autre. Copiez consciencieusement dans l'ordre où elles ont quitté le sac. Si vous avez deja copié le mot, ajoute +1 à côté de lui. Le poème vous resemblera. Et vous voilà un écrivain infiniment original et d'une sensibilité charmante, encore qu'incomprise du vulgaire, qui peut compter le mots. je choisis le premier mot, je compte combien de fois il apparait dans le texte avec les yeux! Machine (python) fonctions: 1. enlever la ponctuation 2. créer un dictionnaire de fréquence 3. identifier les mots par le séparateur espace et croiser avec le dictionnaire 4. compter la fréquence des mots 5.ouvir un fichier dans lequel on peut écrire (wt) 6. écrire en deux colonnes les occurences et leurs valeurs 7. classer par ordre alphabétique LEXIQUE idem mais sans la fréquence définition des variables et des fonctions ouverture et écriture ANAGRAMMES SELECTIONNER PHRASES A PARTIR DE MOTS-CLEF * on répère la phrase on sépare les phrases natural language toolkit NLTK fonction qui permet de séparer un texte en phrase. mot == mot POURQUOI? * perspective d'algorithme / expérience nouvelle pour le lecteur * combiner texte & image de façon automatique * Traité de Documentation / matrice de classification ex. image caisse de fiche du livre 'Monde' (il est classé selon CDU) - identifier fragments, combiner selon critères de les définir ensemble - réduire l'unité de fragment - combiner à la CDU http://www.mondotheque.be/wiki/index.php/%C3%80_la_recherche_de_l'UDC nomenclature is adapted all the time, in function of ideology/context fixed system set in ideology -> not valid anymore, used partially, replaced body of knowledge that evolves - classification system should evolve with it EXTRAIT sur livre de l'avenir http://www.mondotheque.be/wiki/index.php/Category:Livre_%C3%A0_faire Monographie comme album photo/fiches on peut enlever une fiche, les réarranger, sans devoir réimprimer le livre POSSIBILITES de LECTURES * lecture musicale: ex. on prend le mot, on le divise de matière phonétique -> convertir son en fréquence/pulse -> current / impulsions lumineuses / code morse chaque lettre correspond à chiffre de 0 à 9, chiffres correspondent à couleurs -> fiches identitaires par couleur texte structuré, prend vie / fluctuations / haut & bas quand on lit le texte -> trouver motifs de redondance/fréquence dans le texte + dans les phonèmes structure important regardless of language look at syntactical relations between words, preferrable to extract intellectual propositions -> on ne cherche pas de reproduire le meme sens cfr Boris Vian, L'Écume des Jours (1947): analyse de fréquence: souris est le plus fréquent / surprenant / métaphore * lecture par espaces de paragraphes: mesurer longueur des unités -> représentation fractale/graphique * quelle est l'unité intellectuelle la plus petite? une phrase? un mot? smallest: a relation which connects 1 thing to another "A is B' -> reasoning * voir l'occurence, et comment se développe le contexte de l'occurence, p.ex. machine: de quelle phrase il vient et vers quelle autre phrase il évolue * texte immatériel vs montrer ce qui est invisible -> comment faire voir matérialité du texte? matières-matériel Friederich Kittler, 1986: Grammophon Film Typewriter. Berlin: Brinkmann & Bose. ISBN 3-922660-17-7 (English edition: Gramophone, Film, Typewriter, Stanford 1999) Katerine Hayles, Writing Machines comment faire un retour des algorithmes dans la matière? * encode text into morse / how encode a graphical poem into morse? redondance / fréquence mots en contexte • > Extraire les neologisme de Paul Otlet