WORKSHOP Réédition digitale - Lire + Ecrire
http://www.mondotheque.be/wiki/index.php/Main_Page
Julie, Wouter, Théo, Stephane, Jean
Link to installation instructions for Python 3:
https://github.com/mikekestemont/cl1516-python
Install Python simple: https://www.python.org/downloads/
Installer NLTK (linux)
Installer Pip
Install pip and virtualenv for Ubuntu 10.10 Maverick and newer
*$ sudo apt-get install python-pip python-dev build-essential
*$ sudo pip install --upgrade pip
*$ sudo pip install --upgrade virtualenv
Install NLTK: $ sudo pip install -U nltk
Install Numpy (optional): $ sudo pip install -U numpy
Test installation: $ python
then type : import nltk
then type : nltk.download()
Une fenêtre nltk s'ouvre: sélectionnerall (au minimum)
exporter Wiki Source en divers formats https://tools.wmflabs.org/wsexport/tool/book.php
pour title, taper "Traité de documentation"
Algolit rencontres: http://pad.constantvzw.org/public_pad/algolit_encounters
Analyse de fréquence
>> une machine ne comprend pas les mots mais sait compter : récurrence des mots
*"Le le Le
*plus
*petit
*document
*c’est
*une une une
*inscription,
*la la
*borne
*millaire
*qui qui
*porte porte
*nom
*d’
* localité
*et
*un
*kilométrage.
*poteau
*« stop »
*ou
*ralentissement,
*simple
*figure
*conventionnelle
*de
*signalisation
*(rond,
*triangle, barrière fermée). C’est même moins, c’est le signe que le boyscout trace à la craie sur les arbres ou les rochers ; sur papier c’est la carte de visite un nom suivi éventuellement des titres et de l’adresse ; c’est le timbre-poste tout petit, plus petit encore le timbre réclame et toutes les petites étiquettes."
on prend le premier mot du texte
s'il n'est pas copié dans l'index, on l'inscrit avec un compteur, on met à 1
s'il est déjà dans l'index on incrémente le compteur de 1
on passe au mot suivant
Découpe le papier, petit tas de mots par ordre alphabétique
je compte les mots par tas
je note les résultats
je prends 1 mot, je l'efface dut texte à chaque fois qu'il apparait
je commence par les mots les plus connus d'abord
ctrl + F par mot
je note le résultat
classifier par sujet-verbe-complément-adjectif
je range tout dedans
-> est-ce qu'aller/ira est le meme mot?
-> web sémantique
je décris le caractère "lettre"
je décris le caractère "espace"
J''identifie le mot
*- un mot est une suite de (n) lettres déterminé par deux balises qui sont des espaces
*Je compte les mots
*- je segemente donc le texte chaque fois qu'un espace intervient
*
J'apprends l'alphabet
*je trie par ordre alphabétique
J'identifie les mots et je les comptes
Je compte les mots chaque fois qu'ils changent
Prenez un journal texte.
Prenez les ciseaux.
Choisissez dans le journal un article ayant la longeur que vous comptez donner à votre poème.
Découpez l'article. le texte
Découpez ensuite avec soin chacun de mots qui forment cet article texte et mettez-les dans un sac.
Agitez doucement.
Sortez ensuite chaque coupière l'une après l'autre.
Copiez consciencieusement dans l'ordre où elles ont quitté le sac.
Si vous avez deja copié le mot, ajoute +1 à côté de lui.
Le poème vous resemblera.
Et vous voilà un écrivain infiniment original et d'une sensibilité charmante, encore qu'incomprise du vulgaire, qui peut compter le mots.
je choisis le premier mot, je compte combien de fois il apparait dans le texte
avec les yeux!
Machine (python)
fonctions:
1. enlever la ponctuation
2. créer un dictionnaire de fréquence
3. identifier les mots par le séparateur espace et croiser avec le dictionnaire
4. compter la fréquence des mots
5.ouvir un fichier dans lequel on peut écrire (wt)
6. écrire en deux colonnes les occurences et leurs valeurs
7. classer par ordre alphabétique
LEXIQUE
idem mais sans la fréquence
définition des variables et des fonctions
ouverture et écriture
ANAGRAMMES
SELECTIONNER PHRASES A PARTIR DE MOTS-CLEF
* on répère la phrase
on sépare les phrases
natural language toolkit
NLTK
fonction qui permet de séparer un texte en phrase.
mot == mot
POURQUOI?
* perspective d'algorithme / expérience nouvelle pour le lecteur
* combiner texte & image de façon automatique
* Traité de Documentation / matrice de classification
ex. image caisse de fiche du livre 'Monde' (il est classé selon CDU)
- identifier fragments, combiner selon critères de les définir ensemble
- réduire l'unité de fragment
- combiner à la CDU
http://www.mondotheque.be/wiki/index.php/%C3%80_la_recherche_de_l'UDC
nomenclature is adapted all the time, in function of ideology/context
fixed system set in ideology -> not valid anymore, used partially, replaced
body of knowledge that evolves - classification system should evolve with it
EXTRAIT sur livre de l'avenir
http://www.mondotheque.be/wiki/index.php/Category:Livre_%C3%A0_faire
Monographie comme album photo/fiches
on peut enlever une fiche, les réarranger, sans devoir réimprimer le livre
POSSIBILITES de LECTURES
* lecture musicale: ex. on prend le mot, on le divise de matière phonétique -> convertir son en fréquence/pulse -> current / impulsions lumineuses / code morse
chaque lettre correspond à chiffre de 0 à 9, chiffres correspondent à couleurs -> fiches identitaires par couleur
texte structuré, prend vie / fluctuations / haut & bas quand on lit le texte
-> trouver motifs de redondance/fréquence dans le texte + dans les phonèmes
structure important regardless of language
look at syntactical relations between words, preferrable to extract intellectual propositions
-> on ne cherche pas de reproduire le meme sens
cfr Boris Vian, L'Écume des Jours (1947): analyse de fréquence: souris est le plus fréquent / surprenant / métaphore
* lecture par espaces de paragraphes: mesurer longueur des unités -> représentation fractale/graphique
* quelle est l'unité intellectuelle la plus petite? une phrase? un mot?
smallest: a relation which connects 1 thing to another "A is B' -> reasoning
* voir l'occurence, et comment se développe le contexte de l'occurence, p.ex. machine: de quelle phrase il vient et vers quelle autre phrase il évolue
* texte immatériel vs montrer ce qui est invisible -> comment faire voir matérialité du texte? matières-matériel
Friederich Kittler, 1986: Grammophon Film Typewriter. Berlin: Brinkmann & Bose. ISBN 3-922660-17-7 (English edition: Gramophone, Film, Typewriter, Stanford 1999)
Katerine Hayles, Writing Machines
comment faire un retour des algorithmes dans la matière?
* encode text into morse / how encode a graphical poem into morse?
redondance / fréquence
mots en contexte
• > Extraire les neologisme de Paul Otlet