Algorithmic Uncertainty

pad paradijs
-------------------------------------------------------------------------------------------------------------------------------------------
Afspraken met Mike: http://osp.kitchen:9999/p/algorithmic_uncertainty
Afspraak met Juliette Lonij http://pad.constantvzw.org/p/algorithmic_uncertainty.KB_Lab
Reflecties van afspraken: http://pad.constantvzw.org/p/algorithmic_uncertainty.afspraken
Presentatie Stimuleringsfonds: http://write.osp.kitchen/s/algorithmic_uncertainty.md#(1)
Visualisaties: http://pad.constantvzw.org/p/algorithmic_uncertainty_viz
Blog manual: http://pad.constantvzw.org/p/algorithmic_uncertainty_blog
Blog posts: http://pad.constantvzw.org/p/algorithmic_uncertainty.blog.posts
Extra City workshop Antwerpen: http://pad.constantvzw.org/p/algorithmic_uncertainty.extracity
Op zoek naar een model: http://pad.constantvzw.org/p/algorithmic_uncertainty.modellen
(Nederlandse) media aandacht: http://pad.constantvzw.org/p/algorithmic_uncertainty.media
Vragen: http://pad.constantvzw.org/p/algorithmic_uncertainty.questions
Char rnn (installatie): http://pad.constantvzw.org/p/algorithmic_uncertainty.torch-rnn.install
Char rnn (using torch): http://pad.constantvzw.org/p/algorithmic_uncertainty.torch-rnn
Code oefening: http://pad.constantvzw.org/p/algorithmic_uncertainty.code-oefening
Fictie ideeën: http://pad.constantvzw.org/p/algorithmic_uncertainty.fictie
An studeert ;-): http://pad.constantvzw.org/p/algorithmic_uncertainty.linear-algebra
Stimuleringsfonds ronde tafel gesprek: http://pad.constantvzw.org/p/algorithmic_uncertainty.ronde-tafel-gesprek
algoritmische publiceer oefening: http://pad.constantvzw.org/p/algorithmic_uncertainty.algorithmic-exercise
-------------------------------------------------------------------------------------------------------------------------------------------

blog: http://www.algolit.net/algorithmic-uncertainty

- opzoeken van bestaande modellen aan universiteiten (Adam, Leiden, Antwerpen...)
- keuze model, ism Mike Kestemont? vraag naar concrete implementaties van bestaande modellen
- later: geschiedenis NN / vertaling tekst nr nrs / gebruik van features in verschillende modellen
- later: maken van dummie -> als overlegplatform tussen ons, voor subsidieaanvraag, voor vinden van uitgeverij 
- openhouden piste uitgeverijen: Valiz, Spector (?), Jan Van Eyck
- taalkeuze: werken we met een model in het Nederlands, en vertalen we ons boek later in Engels? 


donderdag 19 okt 2017, Brussel
- cgi interface voor oulipo script
- 15:00 - 17:00 afspraak met Mike
*graphs op basis van verschillende datasets, relaties van drie woorden 'human'/'view'/'power': check tips voor standaard van parameters (grootte bestanden, batches, min loss...) 
*3 woorden, alternatieven?
*lijst van 10 meest vergelijkbare woorden toevoegen
*metadata toevoegen (aantal woorden, batches, loss, etc.)
*cosine similarity interface (gebruikt binnen word2vec)
*verschillende stappen proces
- werkweek 19 - 22 december: dummy maken
- op zoek naar een model
*focus op bias, stereotypen, vooroordelen
*alsnog wel met een casus werken (nederland, belgië, of wikimedia)
*machine learning als wezens, op zoek naar een taal om hierover te spreken
*nog eens zoeken vanuit die interesse

2 okt 2017, Rotterdam
- blog posts
*Continue: Overzicht visualisties uit ander onderzoek, nieuws in media & papers die we interessant vinden
*start.md: een korte machine learning introductie toevoegen aan de start post
*discussie op welk niveau met de code werken (hoe diep ga je?) - Gijs & Manetta
*http://pad.constantvzw.org/p/algorithmic_uncertainty.blog.black-boxes-level
*collectieve dataset oefening
*myPersonality dataset: http://mypersonality.org/wiki/doku.php
*kleine verslagen van de gesprekken (kort verslagje op blog)
*Mike asibot
*KB Lab Enrichments
*korte post over de gevonden tekst gebaseerd machine learning project in NL/BE http://pad.constantvzw.org/p/algorithmic_uncertainty.blog.posts
*text mining & stedelijk museum
*Piek Vossen
*ORES & Cluebot (Wikipedia)
*Detox (Wikimedia)
*aanpak, zoektocht om dit te benoemen, lijst met benoemingen uit presentatie Stimuleringsfonds - Manetta
*presentatie Stimuleringsfonds - Manetta 

OKT
- reflectie verslagen (korte inleiding voor op blog + voor ons zelf onder elkaar zetten) > http://pad.constantvzw.org/p/algorithmic_uncertainty.afspraken (manetta)
- visualisaties van kleine elementen (tijdens Algolit week): bijvoorbeeld tekst naar nummers, vectoren maken, one-hot vectors, word-embeddings, softmax, etc. -> eventueel verder laten uitwerken door Cristina/Hans
- 19 oktober: gesprek met Mike: algolit-extensies + eventueel project visualisaties
- mail voor gesprek Joris van Eijnatten (was researcher in residence bij KB Lab) - Gijs
- eventueel mail naar Piek Vossen - Manetta gaat hier nog 1x naar kijken inderdaad heel academisch, geen aansprekelijk onderwerp
*maar, hij heeft in een ander project meegewerkt aan software om stereotypen te ontdekken in media berichten. Toch interessant 
*> toch een mail sturen naar Piek Vossen, voor een verkennend gesprek - Manetta
- korte mail naar KB 
- mail naar Text mining Stedelijk Museum project onderzoekers An
- 20 tot 30 okt: An niet daar

NOV
1e helft:
*- Algoliterary Encounters
2e helft: 
*- gesprek ORES - An
*- experimenteel fictie hoofdstuk
*- een start maken met de visualisaties van bestaande projecten
*xportal (KB Lab)
*frame generator (KB Lab)
*asibot (?) of met CharNN https://github.com/burtenshaw/seqmod

DEC
1e helft:
*- gesprek Create??
*- gesprek Joris van Eijnatten ??
*- visualisaties verder ontwikkelen
*- An met hoofd in werksessie Constant
van 19 tot 23 december: 
*- dummie sprint

JAN
- gesprekken met uitgever: Valiz, Spector (?), Jan Van Eyck


PROJECT FASE
- meerdere mensen interviewen:
*Walter Daelemans / CLIPS
*Google / FB mensen
*tweede gesprek/interview met KB
*ZyLab
*Piek Vossen


Mogelijke domein namen
uncertainty.space €1 - €21
algorithmic.work €2 - €17
algorithmic.works €24 - €48
algorithmic.zone €5 - €69
algoritmisch.nl
algorithmic.info
algoritmisch.info
Voorlopig werken we met: algolit.net/uncertainty

criteria 
- concrete toepassing
*- human bias: met name academische toepassing, maar wel indirecte toepassingen in zoekmachines en sollicatie procedures
- tools
*- algemeen toegankelijkheid van de tools (specifiek of veel gebruikt)
*- Stedelijk Museum: deze tools zijn zelfgemaakt en worden dus niet veel gebruikt
*- Common Crawl wordt veel hergebruikt
- community gebruik 
*- Ores, toepassing voor een grote community van WikiMedia
*- Common Crawl, element voor veel ML toepassingen
*- Gutenberg, digitale archieven
- constructief/reactief
- publiceren van onze code/data onder een vrije licentie
- complexiteit van de taak
- nederlands/belgische roots om direct contact te kunnen hebben
- een onderwerp dat een algemeen publiek aanspreekt, en inhoudelijk reflecteert op de manier waarop er om wordt gegaan met automatisering, met name rondom de verhouding tot AI en haar auteurs (data makers, programmeurs)
- concreet verhaal kunnen vertellen, mbv: direct contact


context
wat > normen in de wereld van machine learning blootleggen
hoe > dmv. een casus het verhaal rondom een concrete toepassing vertellen
voor wie > algemeen publiek, culturele kunst/literaire doelgroep

uit onze aanvraag
de kunst van de benadering, in taal en in statistiek
het bestuderen van deze ruimtes van benadering, en vertalen naar een leesbare vorm
hoe machine learning technieken een eigen wereld creëeren, gebaseerd op vormen van benadering
een ander doel dan optimalisatie
reflecterend op onze eigen geschreven taal


momenten van benadering
taak
- 

trainings/test data
- bij het verzamelen van een grote hoeveelheid data, zoals dat voor neurale netwerken nodig is: geen specifieke auteur voor een specifieke tekst (Common Crawl)
- niet alle data wordt gebruikt, ruis en niet-veel voorkomende features worden verwijderd (normalisatie). Wordt er handmatig gecheckt welke woorden er weg vallen, en wordt hier eventueel op ingegrepen?
- in een supervised learning situatie: annotatie proces

trainings fase
- de rol van visualisaties voor de wetenschapper, tijdens het trainen van het model, hoe voeden of verminderen de visualisaties de onzekerheid tijdens het trainen?

test fase
- berekenbare statistieke benadering
- onzekerheid van het model berekenen, specifiek van toepassing in Bayesian recurrent NN modellen, detecteren van outliers (confidence/uncertainty)

>>> hierbij moet ik denken aan het project van Jara & Femke: http://possiblebodies.constantvzw.org/inventory/


overige
Leeswijzer / kijkwijzer bij een data-model. Ingredientenlijst.


agenda 20&21 juli
- tekst Maison du Livre afmaken
- Extra City
- blog, hoe gaan we beginnen met onze blog
- optie om asibot als centraal model te kiezen doorlopen
*- context: 
*- media aandacht + interview Giphart + interface van CLiPS + verzamelproces trainingsdata
*- visualisaties:
*- fictie:
- contact opnemen met andere opties voor modellen (?)
*- CREATE 
*- Djoerd Hiemstra, Uni Twente (Information Retrieval/Search) hiemstra@cs.utwente.nl http://wwwhome.ewi.utwente.nl/~hiemstra/ http://searsia.org/about.html
*- Piek Vossen > http://pad.constantvzw.org/p/algorithmic_uncertainty.mail-pv
*- Wikipedia ORES, Nederlands project binnen de Wikimedia foundation?
*- Koninklijke Bibliotheek, (?) oproep voor onderzoekers voor een project van 6 maanden https://www.kb.nl/organisatie/vacatures-en-stages/researcher-in-residence-2018 , gekoppeld aan hun platform 'Lab' http://lab.kb.nl/, deadline 1 sept.
- software
*- Karpathy tekst generatie met neurale netwerken uitproberen
*- momenten van benadering annoteren
*- computer installeren (?)
*- PyTorch
*- Segmod library (Pytorch)

Voor een dummie:
    - context: 
        - 1 interview
    - visualisaties:
    - fictie:

agenda 17&18 augustus
*samen
*11:00 - 16:00 experimenten met Softmax
*- visualisaties
*- momenten van benadering noteren
*16:00 - vragen interview met Mike voorbereiden
*18:00 - gesprek met Mike
*Volgende afspraak? week van 2 of 16 oktober - concrete voorbeelden

*Andere vragen (niet voor het interview bedoeld)
*deelnemen conferentie Maison du Livre? Vrijdag 10 november 20u
*Is deze keuze op te splitsen in de volgende 3 lagen:
*library bv Torch
*netwerk type, maken deel uit van libraries, je kan die ook combineren, convolutional laag en daarop een RNN laag, steeds abstractere resultaten/filters (paragrafen, zinnen, woorden, lettergrepen), is krachtig maar we weten niet waarom, hidden state wordt geupdated naar volgende hidden state - in elk niveau heb je save/forget button
*Elman, jaren '50, concept Recurrent Netwerk
*functies / blokken / elementen
*Worden machine learning technieken gepatenteerd: waarom niet? 
*ja, word2vec Google heeft patent op genomen, RNN niet, enkel voor extreem succesvolle dingen
*OS bij grote bedrijven, delen is manier om vooruit te komen
*je kan niet in retrospect patenten nemen, is status-achtige move
*Kerasmodellen van Apple zitten mee in Appstore, cfr Snapchat voor hondenoren (misschien)

*Test interview / ander type discours over ML
*Algemeen
*hoe definieer jij machine learning?
*In welke context werk/denk jij over machine learning?
*Kun je een voorbeeld noemen van een naar jouw mening significante implementatie van machine learning?
*Wat verwacht je van machine learning? Heb je wel eens een vorm van onzekerheid gevoeld over de toepassing van neurale netwerken/machine learning(?) op menselijke taal?

*In hoeverre vind jij als programmeur het belangrijk om de werking van één element (zoals bijvoorbeeld lineaire algebra, statistiek en de verschillende classifiers) volledig te doorgronden? 
*In hoeverre is daar ook een mate van verantwoordelijkheid aan gekoppeld?
*Lees je de algemene kranten artikelen over A.I. en machine learning?
*wat zou je graag zien veranderen in het huidige veld? 
*waar droom je van?

*Ontwerp Model nav specifiek project
*hoe kies je je library (Theano/Torch/Tensor Flow), je type netwerk, je functies en parameters? criteria?
*hoe veel verschillende modellen probeer je voor een uit de bus komt?
*heb je strategieën om een dataset samen te stellen? Met welke criteria hou je dan rekening?
*werk je alleen aan een project? Als je samenwerkt, hoe verloopt zo'n samenwerking?
*is er een graad van onzekerheid in je project/model?

*Toegespitst op één functie/element/blokje:
*softmax
*Hoe definieer jij softmax?
*Waar gebruik je de softmax?
*Wat is de input die je het geeft? En de output?
*Kun je momenten van onzekerheid benoemen binnen de werking van de software?
*RNN
*Hoe definieer jij een RNN?
*Waar gebruik je een RNN?
*Wat is de input die je het geeft? En de output?
*Kun je momenten van onzekerheid benoemen binnen de werking van een RNN?
*LSTM
*Hoe definieer jij een LSTM netwerk?
*Waar gebruik je een LSTM netwerk?
*Wat is de input die je het geeft? En de output?
*Kun je momenten van onzekerheid benoemen binnen de werking van een LSTM netwerk?

*Implementatie model
*Worden jouw tools door andere mensen gebruikt? Hoe belangrijk is dat?
*Krijg je reacties van gebruikers op je modellen?
*Documenteer je je proces? Hoe belangrijk is dat in je werk?
*Is het model gepubliceerd? Onder welke licentie is dit model gepubliceerd? 
*Is de dataset gepubliceerd? Onder welke licentie is de dataset gepubliceerd? 


*Individueel werk
*- ronde tafel gesprek Stimuleringsfonds, 13 sept. 14:00 - 17:00
*- blog
*- contact voor modellen
*Ores schrijven (An)
*Wikimedia België (An)
*Piek Vossen http://pad.constantvzw.org/p/algorithmic_uncertainty.mail-pv
*- dossier verzetten naar Februari 2018
*- Sean Gilis mailen om einddatum project te verzetten naar Februari 2018
*
*nieuwe planning:
*OKT-DEC verder werken
*JAN-FEB verslag schrijven / projectplan
*
*- Extra City 
*http://pad.constantvzw.org/p/algorithmic_uncertainty.extracity
*- workshop voorbereiden - elementen samenleggen op donderdag 7 september 18u
*- mail Séverine (An)
*- vertaal beschrijving workshop (An)


Suzan Verberne: http://liacs.leidenuniv.nl/~verbernes/
Marijn Koolen: http://marijnkoolen.com/
Antal van den Bosch: http://antalvandenbosch.ruhosting.nl/
De Taalmonsters: http://www.taalmonsters.nl/