Welcome to Constant Etherpad!
These pads are archived each night (around 4AM CET) @
An RSS feed from the etherdump also appears on
To prevent your public pad from appearing in the archive and RSS feed, put or just leave the following (including the surrounding double underscores) anywhere in the text of your pad:
Changes will be reflected after the next update at 4AM.
Algorithmic Uncertainty
pad paradijs
Algemene pad:
Afspraken met Mike:
Blog manual:
Extra City workshop Antwerpen:
Op zoek naar een model:
Nederlandse media aandacht:
Extra City
Summer School #2 - 11/09-15/09*
*DAY 1 (11/09): Making public domain - */Artistic and social practices at the intersection of the on –and offline world./
How can digital artistic and social practices expand the possibilities of making public domain?
Today the on –and offline world are immensely intertwined, a disconnection seems no longer possible. Not only do social media platforms have an increasing impact on our perception of the world, but beyond that concepts like the ‘smart city’ and ‘the internet of things’ are buzzing around. These terms are popular among protagonists from the creative industry, Sillicon Valley-adepts and policy makers. In most cases they see an opportunity in data mining for economic and political use, and the optimalization of the management of public space.
However, on the other side, there is a long tradition of activists, artists, thinkers, hackers, advocating for the Internet as a free zone to create tools for resistance. They build for example open source technology, question author rights, create new currencies (e.g. Faircoin), and invent ways to fight against the privatization of knowledge.
On the first day of the seminar we will hear theorists, artists, hackers about the dangers and possibilities of the digital public domain. As the Internet is maturing we see more its limits and possibilities. What do we gain with the dissolution between on –and offline? What are the downsides?
*Day program 11/09:*
10h-10h15: Welcome and introduction by the moderator of the day (Extra City)
10h15-11H15: Lecture: Geert Lovink - Social Media Abyss (40 min. +20 min. questions)
11h15-11h30: Break
11h30-12h30: Lecture: ?
12h30-13h: Discussion: Geert Lovink,… Moderator:…
13h-14h: Lunchbreak
14h-17h: Three workshops:
Larbitslab, Max Dovey (and collectif?), Femke/Constant?
17h-18h: final debate: everyone
18h-20h00: Dinner
20h00-21h30: Lecture and discussion: Evgeny Morozev (tbc.)
Booklet Extracity
Deadline: August 4th
short bio
title + short text description of your lecture and/ or workshop session during the summer school.
any other short text that is related to what you are going to present at this event
stukje uit de free software links / debian mailinglist thread ?
an image of your work (at 300dpi)
the size of this booklet is going to be A5 with stapled binding, 4 pages per invited guest, and printed in 1 color. very important!: all texts should be delivered in english as we have a very diverse group of guests and audiences!
Verloop Workshop
intro over licenties
Intro over machine learning, proces, rol van data & infrastructuur
concreet wat dat betekent ivm machine learning
voorbeeld free software, data & software
Karpathy die de char-NN publiceerd
scraping (
algolit extension
/ twitter
scraping interface
& bespreken wat daar in past ~ 'leeslijst' van iemand die studeert
persoonlijke database maken & ontwerpen van een eigen licentie
linear regression spel
context (introductie over licenties) / visualisaties / fictie (scraping oefening?) verdeling gebruiken
samen lezen van verschillende open licenties. "open" is niet een eenduidig woord.
schrijven van een eigen licentie als oefening.
voorstel An:
Anekdotes uit ons machine learning proces
- wat gebruiken we?
- welke licenties zitten op die tools
Common Crawl
anekdote Mike Kestemont, Asibot data, oa. Europese wet op data mining
handboek over Deep Learning, gepubliceerd door MIT, als html gepubliceerd
Free software anekdote, model wel in pakket, maar trainingset is te groot om op te nemen
Hoe maak je gebruik van materiaal uit het publieke domein?
Wat als we de database als platte tekst online willen publiceren?
Wat willen we gebruiken?
7:57u Brussel Zuid
8:45 Antwerpen Berchem
9:10 Middelheim aankomst
Gijs & Manetta sluiten computer vast aan en testen het netwerk
An brengt auto terug
Pitch workshop (10 min) - Gijs
inrichten van de ruimte met datastation (harde schijf), beamer met zinnenteller
+ tekst generator
Betekenis publiek domein + verschillende licenties (printen we een selectie uit?) - An - 10 min
Introductie Machine learning op basis van de presentatie bij het fonds, Getraind CharRNN model tonen, dataset, aanpassing dataset, start van de training - Gijs, 1
In machine-learning probeert een algoritme patronen en correlaties te ontdekken in een dataset om daarmee kennis te ontwikkelen. Een van de gemakkelijkste voorbeelden is het herkennen van een taal, veel talen hebben een specifieke verhouding voor de frequentie van een bepaald karakter.
ML wordt vaak gebruikt om informatie te klassificeren; welke taal is deze tekst? Is de tekst positief of negatief?
Rule based machine learning, waarbij regels worden opgesteld om data te klassificeren, voorbeeld sentiment analyse, waarbij een lijst met woorden is opgesteld, met een bijbehoren gewicht, van -1 heel negatief tot 1; heel positief.
Meer en meer worden neurale netwerken gebruikt. Neuraal netwerk is een net van neuronen, gegroepeerd in lagen. Het trainen van zo'n netwerk bestaat uit het vinden van de gewichten van de verbindingen en de drempelwaardes in de individuele neuronen.
Voorbeelden van machine-learning & neurale netwerken zijn:
Google translate
wetenschappelijk onderzoek naar taalgebruik op sociale media
vacature websites gebruiken text mining om cv's te scannen
asibot, genereren van nieuwe tekst
Voorbeeld, CharRNN, een Recurrent neural network op letter-niveau. Het netwerk leert welke karakters na elkaar worden gebruikt in de voorbeelden en kan zo teksten genereren die heel goed lijken op wat het heeft gezien. Het leert sequences.
Dataset laten zien, in dit geval de corpus van Shakespeare, aan elkaar geplakte scripts, maar platte tekst.
Vervolgens laten zien hoe het trainen eruit ziet, op de vaste computer; commando voorbereiden
Vervolgens laten zien hoe het genereren eruit ziet, op de vaste computer; commando voorbereiden
introductie van Common Crawl
- An (10 min)
aanleiding van workshop
grote dataset is nodig voor neural nets
maar niet mogelijk om te gebruiken volgens de wet
voorstel voor de workshop
+ Demo zinnenteller - Manetta - (10 min)
machine learning dataset for the public domain
goal is to collect enough public domain data to create a public domain dataset for machine learning
The dataset would for example be used in the Algolit sessions
in an ideal situation, as we are making a dataset for machine learning, we make a dataset from the size of the Common Crawl
The collection of data is an important step in a machine learning process
Data is often thought of as if it is a "natural resource".
The word "raw" in the context of "raw data" is an example of this, referring to raw minerals that are given by Mother earth and "only" need to be extracted from there.
Data seems to be a type of material that you "just" need to download from the internet.
But actually data is not something that is given. Data is material that we need to choose, process and clean.
is “taken” actively while data is assumed to be a “given” able to be recorded and observed. From this distinction, a world of differences arises. Humanistic inquiry acknowledges the situated, partial, and constitutive character of knowledge production, the recognition that knowledge is constructed, taken, not simply given as a natural representation of pre-existing fact. Johanna Drucker in Humanities Approaches to Graphical Display
partial and incomplete
constitutive (knowledge/information is framed by rules that make something happen or exist, what would not exist without these rules)
In machine learning concretely, this means
choice in type of material
source & access to this source: big datasets (Gutenberg/Archive.org, free service like social media, customer behavior like reviews on Amazon)
pre-processing and cleaning of data
page numbers
spelling mistakes
full sentences
.txt files to the computer
workshop structure
exploration of material on personal computer
what can we donate to the public domain?
a short list of questions > discuss in small groups of 4/5?
short break
groups to continue collecting public domain data
continue collecting public domain material from personal computer
extracting material from other (online) sources
15:45 - 16:00 = PAUZE
16:00 -
groepen vormen
publiek domein data verzamelen van eigen computer
gutenberg / archive.org / andere publiek domein bron? opschonen en omvormen tot dataset
(eventueel, bij keuze voor CC share-a-like) Wikipedia opschonen
16:50 - 17:00
collectief een readme schrijven
README.md schrijven voor bij de dataset.
Hoe we tot keuzes zijn gekomen?
Lijst van alle bronnen.
Waar wordt de dataset gepubliceerd?
- crawlers voorbereiden
- Gijs
- Manetta heeft een crawler voor Twitter
- Pattern heeft ook verschillende web-crawlers
- email crawlers?
- OCR software voor scans ?
- eventueel cgi interface? input .jpg > output .txt
- PDF to text software voor PDF ?
- eventueel cgi interface? input .pdf > output .txt
- etherbox om bestanden uit te delen - An
- externe hardeschijf - neemt Manetta mee (2TB)
- interface om zinnen te tellen
- Manetta
- een set datasets voorbereiden:
common crawler - An
- An
- Gijs
archive.org - Manetta
library of congress - Gijs
- welk format gebruiken we voor de dataset?
- kan je dataset 'doneren' aan publiek domein?
onder welke licentie publiceren we onze dataset?
balans tussen hoeveelheid & mogelijke openheid:
Readme toevoegen, hoe we tot keuzes zijn gekomen + lijst van alle bronnen
'The public domain always arrives too late. Seventy years is a long long time to wait in the culture we live in, of sharing knowledge, works and sources.' (Femke Snelting, during Public Domain Day in Koninklijke Bibliotheek Brussels, May 2017,