Welcome to Constant Etherpad!

These pads are archived each night (around 4AM CET) @ http://etherdump.constantvzw.org/
An RSS feed from the etherdump also appears on http://constantvzw.org/

To prevent your public pad from appearing in the archive and RSS feed, put or just leave the following (including the surrounding double underscores) anywhere in the text of your pad:

    __NOPUBLISH__

Changes will be reflected after the next update at 4AM. Algorithmic Uncertainty

pad paradise
-------------------------------------------------------------------------------------------------------------------------------------------
Algemene pad: http://pad.constantvzw.org/p/algorithmic_uncertainty
Afspraken met Mike: http://osp.kitchen:9999/p/algorithmic_uncertainty
Visualisaties: http://pad.constantvzw.org/p/algorithmic_uncertainty_viz
Blog manual: http://pad.constantvzw.org/p/algorithmic_uncertainty_blog
Extra City workshop Antwerpen: http://pad.constantvzw.org/p/algorithmic_uncertainty.extracity
Op zoek naar een model: http://pad.constantvzw.org/p/algorithmic_uncertainty.modellen
Nederlandse media aandacht: http://pad.constantvzw.org/p/algorithmic_uncertainty.media
Vragen: http://pad.constantvzw.org/p/algorithmic_uncertainty.questions
-------------------------------------------------------------------------------------------------------------------------------------------


op zoek naar een model

academische opties




overige / non-profit opties

Nederlandse machine learning / text mining bedrijven

academische text mining tools

links


---

mogelijke opties in andere woorden:

Profilering aan de hand van persoonlijk geschreven tekst, zoals emails. Aan de hand van de volgende paramaters: leeftijd, geslacht, educatie niveau, interesses, etc. Een persoonlijke schrijfwijze is de bron van een data-gedreven profiel. Koppeling naar een dystopisch (nog) fictief scenario. Gebruikt voor targeted marketing, copyright breking, schrijf support. 
Hoe kunnen we dit onderwerp constructief benaderen?

Perspectieven in tekst, verschillende gedeelde opvattingen die gedeeld worden door groepen. Information retreival? Classificatie task om verschillende groepen tekst te classificeren? Het Piek Vossen project is hier mee bezig, en in hun onderzoek gaan ze uit van meervoudige perspectieven in geschreven tekst door mensen. Haken hier onze interesses op in om naar de meervoudige perspectieven van de computer te kijken? Maar deze richting is heel taalkundig, en ook echt gericht op academisch onderzoek (op dit moment). 
Interessant zou zijn om met een project te werken dat is toegespitst op een specifiek platform zoals bijv. Reddit. Hoe specifieker de context, hoe meer uitzonderingen of specifieke aanpassingen het systeem zou kunnen hebben om te functioneren.

Tekst kwaliteits analyse systemen die, bijvoorbeeld op Wikipedia, de gemeenschap ondersteunen bij het bewerken en verbeteren van artikelen. ML als achtergrondsproces in Wikipedia, waardoor het minder snel een algemener publiek aanspreekt.

---

constellaties van mogelijkheden:

enkel model
- context van specifiek model
- visualisatie van specifiek model 
- fictief verhaal gebaseerd op specifiek model

meerdere modellen
- context van meerdere projecten
- draaien van getrainde modellen
* visualisatie van algemene technische NN elementen
*- fictieve vertaalslag 

- een bestaand model
- een zelfgeschreven model
- algemene onderdelen


Brainstorm model
* Gijs: interesse voor model dat wordt gepresenteerd als werkend model door universiteit of bedrijven, en daar aanpassingen aan doen. Interesse voor modellen rondom politici, een link naar speeches of auteursherkenning/leeftijdsherkenning (profilering); 
* Manetta: hoe kan ML systeem een nieuw inzicht brengen? leestool voor grote stapel boeken, topic modeling
Wikipedia gebruikt het om kwaliteit van artikel te verbeteren, model dat op positieve manier wordt ingezet
Gijs: weg van kritiek op ML en inzetten als poëtisch middel, al dan niet met functie
recommendation systeem van artikels/hoofdstukken/paragrafen...
eventueel een xmpp extensie?
* An: 
    Schrijvers dialoog. Het idee om machine learning te gebruiken om zelf anders te gaan schrijven. Bijv. auteursherkenning, op basis van bekende schrijvers is het model in staat om teksten te classificeren. Zoals bijvoorbeeld een spell-checker. Meer gericht op schrijven dan lezen. Een vorm om mee in dialoog te kunnen gaan. Een gesprekspartner die woorden suggereert om jou een richting op te sturen. Hierbij zijn gemakkelijke datasets voor te stellen, dmv een automatisch labeling proces, zodat je meteen aan een proces kan beginnen. Voorbeeld: 2 millioen zinnen per schrijver.
    Een andere tak: Wanneer mogelijk graag totaal politiek: "wat is inclusief schrijven?" "wat is feministisch schrijven?" Als kritiek op patriarchisme. Voor mensen die bewust met taal om willen gaan, dat die iets aan het model hebben. De dataset wordt alweer een moeilijkere kwestie dan, we moeten dan op zoek naar auteurs met een bepaalde ideologische blik in hun schrijven. Ook omdat inclusiviteit meer een subjectief thema is. 

Dunne lijn tussen geloven dat machine learning een betekenisvolle uitkomst kan geven, en de fascinatie voor de uitkomsten die gemaakt worden.
Een lijn tussen zien dat 'learning' het herkennen is van patronen in getelde woorden/features, en de wijze waarop deze methodes machine learning systemen laten 'werken'.

An: Bij auteursherkenning is the basis heel helder, schrijfwijze is direct gekoppeld aan de auteurs-categorie, waardoor de categorisatie een goed begrijpbaar proces is.
Wanneer een input tekst overeenkomt met een klasse binnen het model is het duidelijk dat de schrijfwijze op een manier overeenkomt, en dat dat misschien wel op overkoepelende gedachtegangen zou kunnen wijzen.
http://www.clips.uantwerpen.be/cgi-bin/stylenedemo.html

Manetta: hoe je kan leren van systemen, hoe ze keuzes makes
wanneer elementen worden toegevoegd, hoe beïnvloedt dat keuzes
op niveau van classifier, én ook op concept van 'dat werkt'
leren van houdingen die in systeem zitten

Een excercise de Style versie waarin teksten kunnen worden ge-skinned, in een bepaalde tekst kan worden getransformeerd. 
zoals beelden bepaalde stijlen kunnen aannemen, geheugen van canonauteurs gebruiken voor je eigen povere Engels
http://genekogan.com/works/style-transfer/


- auteursherkenning: wat betekent het om in de klasse "Herman Brusselmans" te vallen?
- similarity search: wanneer zijn twee zinnen volledig overeenkomstig? Het onmogelijke aspect hiervan resoneert naar de onzekerheid van uitkomsten.
- machine translation: 
- topic extraction (alternatieve lees interfaces)


constructief / reactief
constructief
- ML als zoek techniek, manier van kennis ordenen en alternatieve lees methodes ontwikkelen
        - archief van Stedelijk Museum (SMTP)
        - sociale media tijdslijnen
        - bibliotheek (Texcavator & Koninklijke bibliotheek)
        - historie van "democratie" (UvA CREATE) => concrete toepassing?
        - iets à la Asibot

- ML als kwaliteits beheer
        - wikipedia vandalisme bestrijding (ORES)

- ML om menselijke bias vast te stellen
        - academische paper over machine learning & human bias

Andere constructieve elementen waar ik aan moet denken zijn: 

reactief (kritisch)
- ML in het publieke domein, en visualisaties als een manier om inzicht te geven op de rol van ML
        - sollicitatie procedures (Randstad)
        - aanbevelings algoritmes van advertenties


voorstellen
- focus op GLoVE word embeddings, met een referentie naar de paper over het aantonen van human bias in text https://arxiv.org/abs/1608.07187
        + interview met academici over motivatie + toepassingen zoeken van word-embeddings in nederland/belgië + de pre-trainde GLoVE analyseren + Common Crawl dataset uitspitten (context)
        + complexe code visualiseren, en zo laten zien hoe human-bias herkend kan worden + zelf tests draaien met eigen onderwerpen (visualisatie)
        + fictief verhaal over herkennen van human bias (fictie)

- focus op Stedelijk Museum archief
        + het verhaal van ML in archiverings discourse, en specifiek van het museum (context)
        + met de code werken die gebruikt is voor het archief om zo verschillende leesmethodes te maken (visualisatie)
        + het onderzoek gebruiken als basis voor een fictief verhaal door het archief (fictie)

- focus op Wikimedia's ORES
        + het verhaal achter ORES vertellen, overwegingen van definitie van vandalisme etc. (context)
        + met de code werken, en zo visualiseren hoe tekst classificatie in zijn werk gaat (visualisatie)
        + als basis gebruiken voor fictief verhaal over het weren van vandalisme en slechte kwaliteit van informatie (fictie)

        voorbeeld van API output: https://ores.wmflabs.org/scores/enwiki/draftquality/768416538

- focus op een schrijftool die een tekst kan herschrijven in verschillende auteur-stijlen
op basis van project Asibot/Giphart van Mike & co
Het idee is dat Giphart en de computer op elkaar reageren. De auteur tikt in een Word-achtig programma een zin, waarna de software met suggesties komt. Gevoed door duizenden boeken zou de kunstmatige intelligentie normaal gesproken met een nogal generiek geformuleerde zin komen. Om dit te voorkomen, krijgt de schrijver toegang tot een aantal verschillende stijlen die hij kan aanroepen.
Een eigen Giphart-knop bijvoorbeeld, op basis van alle Giphart-­romans die zijn ingevoerd. Hij kan vervolgens ook gaan mixen: Giphart met sciencefictionauteur Isaac Asimov. Of een vleugje meer creativiteit.
voorbeelden van de Asibot: https://www.mupload.nl/img/ogpyimm5axnre.jpg

- focus op model dat de metafoor van het bos aanhoudt:
    https://arxiv.org/abs/1702.08835
    pdf: https://arxiv.org/pdf/1702.08835.pdf
    software: https://github.com/kingfengji/gcForest
    In this paper, we propose gcForest, a decision tree ensemble approach with performance highly competitive to deep neural networks. In contrast to deep neural networks which require great effort in hyper-parameter tuning, gcForest is much easier to train. Actually, even when gcForest is applied to different data from different domains, excellent performance can be achieved by almost same settings of hyper-parameters. The training process of gcForest is efficient and scalable. In our experiments its training time running on a PC is comparable to that of deep neural networks running with GPU facilities, and the efficiency advantage may be more apparent because gcForest is naturally apt to parallel implementation. Furthermore, in contrast to deep neural networks which require large-scale training data, gcForest can work well even when there are only small-scale training data. Moreover, as a tree-based approach, gcForest should be easier for theoretical analysis than deep neural networks. 


poetisch / beschouwend / observerend / artistiek / functioneel / bespiegelend / bekijken / signalerend / mediterend / reflecterend / activerend / loerend / bekijkend / bestuderend / een ontmoetend boek


contact email
Beste ... 

Mijn naam is Manetta Berends, en mede namens An Mertens en Gijs de Heij schrijf ik deze mail om in contact te komen met machine learning projecten in het Nederlands taalgebied (Nederland/Vlaanderen). We combineren onze beroepspraktijken als kunstenaars, ontwerpers en schrijfster met een interesse in machine learning en natural language processing. We wonen en werken in Rotterdam (Manetta) en Brussel (An & Gijs) en werken op dit moment aan een artistiek onderzoeksproject met de steun van het Nederlandse Stimuleringsfonds Creatieve Industrie Digitale Cultuur. 

In dat kader zijn we volop in de voorbereidingen van een artistiek bespiegelend boek, onder de werktitel Algorithmic Uncertainty, waarin we het maak- en uitvoeringsproces van een machine learning model vanuit verschillende perspectieven willen beschouwen en leesbaar maken. We willen dit doen door middel van interviews, visualisatie-experimenten en een fictief verhaal. Onze waarnemingen zullen specifiek gericht zijn op momenten van benadering en compromis, die we zowel binnen de software zullen zoeken als ook in de mechanismes die rondom een model ontstaan, zoals bijvoorbeeld methodes om trainingsdata te maken. We schrijven alledrie ook zelf code, en willen ons heel bewust richten op het leesbaar maken van het software-proces. Hierdoor zijn we met name geïnteresseerd om een bestaand en getraind model te deconstrueren, om dat vervolgens centraal te zetten in de verschillende software experimenten.

<<< hier over specifiek project >>>

We zouden graag meer horen over het project, welke software er is gebruikt, hoe de trainingsdata is verkregen, waar het project door beperkt werd, waar de resultaten terecht komen, etc. Zouden jullie interesse, tijd en energie hebben om eens met ons af te spreken?


<<<
CREATE (Manetta)

DJOERD HIEMSTRA (Gijs)

PIEK VOSSEN

ORES (An)

KB (Manetta)



>>>


in latere email:
- gepubliceerde code
- eventueel artikelen


overlappende thema's
Mike
KB
ORES
Djoerd Hiemstra