Welcome to Etherpad!

This pad text is synchronized as you type, so that everyone viewing this page sees the same text. This allows you to collaborate seamlessly on documents!

Get involved with Etherpad at http://etherpad.org
WORKSHOP Réédition digitale - Lire + Ecrire
http://www.mondotheque.be/wiki/index.php/Main_Page

Julie, Wouter, Théo, Stephane, Jean


Link to installation instructions for Python 3:
  https://github.com/mikekestemont/cl1516-python
 Install Python simple: https://www.python.org/downloads/
 
 Installer NLTK (linux)
 Installer Pip
 Install pip and virtualenv for Ubuntu 10.10 Maverick and newer
 

Install NLTK: $ sudo pip install -U nltk
Install Numpy (optional): $ sudo pip install -U numpy
Test installation: $ python
then type : import nltk
then type : nltk.download()

Une fenêtre nltk s'ouvre: sélectionner
all (au minimum)



exporter Wiki Source en divers formats https://tools.wmflabs.org/wsexport/tool/book.php
pour title, taper "Traité de documentation"

Algolit rencontres: http://pad.constantvzw.org/public_pad/algolit_encounters

Analyse de fréquence
>> une machine ne comprend pas les mots mais sait compter : ré c urrence des mots



  1. "Le le Le
  2. plus 
  3. petit 
  4. document 
  5. c’est 
  6. une une une
  7. inscription, 
  8. la la
  9. borne 
  10. millaire 
  11. qui   qui
  12. porte porte
  13. nom 
  14. d’
  15.  localité 
  16. et 
  17. un 
  18. kilométrage.  
  19. poteau   
  20. « stop » 
  21. ou 
  22. ralentissement,  
  23. simple 
  24. figure 
  25. conventionnelle 
  26. de   
  27. signalisation 
  28. (rond, 
  29. triangle, barrière fermée). C’est même moins, c’est  le signe que le boyscout trace à la craie sur les arbres ou les  rochers ; sur papier c’est la carte de visite un nom suivi  éventuellement des titres et de l’adresse ; c’est le timbre-poste tout  petit, plus petit encore le timbre réclame et toutes les petites  étiquettes."

on prend le premier mot du texte
s'il n'est pas copié dans l'index, on l'inscrit avec un compteur, on met à 1
s'il est déjà dans l'index on incrémente le compteur de 1
on passe au mot suivant

Découpe le papier, petit tas de mots par ordre alphabétique
je compte les mots par tas
je note les résultats

je prends 1 mot, je l'efface dut texte à chaque fois qu'il apparait
je commence par les mots les plus connus d'abord

ctrl + F par mot
je note le résultat

classifier par sujet-verbe-complément-adjectif
je range tout dedans
-> est-ce qu'aller/ira est le meme mot?
-> web sémantique

je décris le caractère "lettre"
je décris le caractère "espace"
J''identifie le mot
J'apprends l'alphabet
J'identifie les mots et je les comptes
Je compte les mots chaque fois qu'ils changent

Prenez un journa l texte
Prenez les ciseaux. 
Choisissez dans le journal un  article ayant la longeur que vous comptez donner à votre poème.  
Découpez  l'article.  le texte
Découpez ensuite avec soin chacun de mots qui forment cet  article texte et mettez-les dans un sac. 
Agitez doucement. 
Sortez ensuite  chaque coupière l'une après l'autre. 
Copiez consciencieusement dans  l'ordre où elles ont quitté le sac. 
Si vous avez deja copié le mot, ajoute +1 à côté de lui.
Le poème vous resemblera. 
Et vous  voilà un écrivain infiniment original et d'une sensibilité charmante,  encore qu'incomprise du vulgaire , qui peut compter le mots.

je choisis le premier mot, je compte comb i en de fois il apparait dans  le texte
avec les yeux!


Machine (python)
fonctions:
1. enlever la ponctuation
2. créer un dictionnaire de fréquence
3. identifier les mots par le séparateur espace et croiser avec le dictionnaire
4. compter la fréquence des mots

5.ouvir un fichier dans lequel on peut écrire (wt)
6. écrire en deux colonnes les occurences et leurs valeurs
7. classer par ordre alphabétique


LEXIQUE
idem mais sans la fréquence
définition des variables et des fonctions
ouverture et écriture 


ANAGRAMMES

SELECTIONNER PHRASES A PARTIR DE MOTS-CLEF
* on répère la phrase
on sépare les phrases  

natural language toolkit
NLTK
fonction qui permet de séparer un texte en phrase.

mot == mot


POURQUOI?
* perspective d'algorithme / expérience nouvelle pour le lecteur
* combiner texte & image de façon automatique
* Traité de Documentation / matrice de classification

ex. image caisse de fiche du livre 'Monde' (il est classé selon CDU)
- identifier fragments, combiner selon critères de les définir ensemble
- réduire l'unité de fragment
- combiner à la CDU
http://www.mondotheque.be/wiki/index.php/%C3%80_la_recherche_de_l 'UDC
nomenclature is adapted all the time, in function of ideology/context
fixed system set in ideology -> not valid anymore, used partially, replaced
body of knowledge that evolves - classification system should evolve with it

EXTRAIT sur livre de l'avenir
http://www.mondotheque.be/wiki/index.php/Category:Livre_%C3%A0_faire
Monographie comme album photo/fiches
on peut enlever une fiche, les réarranger, sans devoir réimprimer le livre


POSSIBILITES de LECTURES

* lecture musicale: ex. on prend le mot, on le divise de matière phonétique -> convertir son en fréquence/pulse -> current / impulsions lumineuses / code morse
chaque lettre correspond à chiffre de 0 à 9, chiffres correspondent à couleurs -> fiches identitaires par couleur
texte structuré, prend vie / fluctuations / haut & bas quand on lit le texte
-> trouver motifs de redondance/fréquence dans le texte + dans les phonèmes

structure important regardless of language
look at syntactical relations between words, preferrable to extract intellectual propositions
-> on ne cherche pas de reproduire le meme sens
cfr Boris Vian, L'Écume des Jours (1947): analyse de fréquence: souris est le plus fréquent / surprenant / métaphore

* lecture par espaces de paragraphes: mesurer longueur des unités -> représentation fractale/graphique
* quelle est l'unité intellectuelle la plus petite? une phrase? un mot?
smallest: a relation which connects 1 thing to another "A is B' -> reasoning
* voir l'occurence, et comment se développe le contexte de l'occurence, p.ex. machine: de quelle phrase il vient et vers quelle autre phrase il évolue
* texte immatériel vs montrer ce qui est invisible -> comment faire voir matérialité du texte? matières-matériel
Friederich Kittler, 1986: Grammophon Film Typewriter. Berlin: Brinkmann & Bose. ISBN 3-922660-17-7 (English edition: Gramophone, Film, Typewriter, Stanford 1999)
Katerine Hayles, Writing Machines
comment faire un retour des algorithmes dans la matière?
* encode text into morse / how encode a graphical poem into morse?


redondance / fréquence
mots en contexte 


• > Extraire les neologisme de Paul Otlet