Algorithmic Uncertainty
pad paradijs
-------------------------------------------------------------------------------------------------------------------------------------------
Algemene pad: http://pad.constantvzw.org/p/algorithmic_uncertainty
Afspraken met Mike: http://osp.kitchen:9999/p/algorithmic_uncertainty
Visualisaties: http://pad.constantvzw.org/p/algorithmic_uncertainty_viz
Blog manual: http://pad.constantvzw.org/p/algorithmic_uncertainty_blog
Extra City workshop Antwerpen: http://pad.constantvzw.org/p/algorithmic_uncertainty.extracity
Op zoek naar een model: http://pad.constantvzw.org/p/algorithmic_uncertainty.modellen
Nederlandse media aandacht: http://pad.constantvzw.org/p/algorithmic_uncertainty.media
-------------------------------------------------------------------------------------------------------------------------------------------
Extra City
https://www.makingpublicdomain.be/
Summer School #2 - 11/09-15/09*
*DAY 1 (11/09): Making public domain - */Artistic and social practices at the intersection of the on –and offline world./
How can digital artistic and social practices expand the possibilities of making public domain?
Today the on –and offline world are immensely intertwined, a disconnection seems no longer possible. Not only do social media platforms have an increasing impact on our perception of the world, but beyond that concepts like the ‘smart city’ and ‘the internet of things’ are buzzing around. These terms are popular among protagonists from the creative industry, Sillicon Valley-adepts and policy makers. In most cases they see an opportunity in data mining for economic and political use, and the optimalization of the management of public space.
However, on the other side, there is a long tradition of activists, artists, thinkers, hackers, advocating for the Internet as a free zone to create tools for resistance. They build for example open source technology, question author rights, create new currencies (e.g. Faircoin), and invent ways to fight against the privatization of knowledge.
On the first day of the seminar we will hear theorists, artists, hackers about the dangers and possibilities of the digital public domain. As the Internet is maturing we see more its limits and possibilities. What do we gain with the dissolution between on –and offline? What are the downsides?
*Day program 11/09:*
Morning:
10h-10h15: Welcome and introduction by the moderator of the day (Extra City)
10h15-11H15: Lecture: Geert Lovink - Social Media Abyss (40 min. +20 min. questions)
11h15-11h30: Break
11h30-12h30: Lecture: ?
12h30-13h: Discussion: Geert Lovink,… Moderator:…
13h-14h: Lunchbreak
14h-17h: Three workshops:
Larbitslab, Max Dovey (and collectif?), Femke/Constant?
17h-18h: final debate: everyone
18h-20h00: Dinner
20h00-21h30: Lecture and discussion: Evgeny Morozev (tbc.)
TEKST
http://osp.kitchen:9999/p/extracity
Booklet Extracity
Deadline: August 4th
- short bio
- title + short text description of your lecture and/ or workshop session during the summer school.
- any other short text that is related to what you are going to present at this event
- stukje uit de free software links / debian mailinglist thread ?
- an image of your work (at 300dpi)
the size of this booklet is going to be A5 with stapled binding, 4 pages per invited guest, and printed in 1 color. very important!: all texts should be delivered in english as we have a very diverse group of guests and audiences!
Verloop Workshop
- intro over licenties
- Intro over machine learning, proces, rol van data & infrastructuur
- concreet wat dat betekent ivm machine learning
- voorbeeld free software, data & software
- Karpathy die de char-NN publiceerd
- oefening
- scraping (diversies?) / algolit extension / twitter-wikipedia-comoncrawl scraping interface & bespreken wat daar in past ~ 'leeslijst' van iemand die studeert
- persoonlijke database maken & ontwerpen van een eigen licentie
- linear regression spel
- visualisatie-oefening
- context (introductie over licenties) / visualisaties / fictie (scraping oefening?) verdeling gebruiken
- samen lezen van verschillende open licenties. "open" is niet een eenduidig woord.
- schrijven van een eigen licentie als oefening.
- voorstel An:
- Anekdotes uit ons machine learning proces
- - wat gebruiken we?
- - welke licenties zitten op die tools
- Common Crawl
- anekdote Mike Kestemont, Asibot data, oa. Europese wet op data mining
- handboek over Deep Learning, gepubliceerd door MIT, als html gepubliceerd
- Free software anekdote, model wel in pakket, maar trainingset is te groot om op te nemen
Hoe maak je gebruik van materiaal uit het publieke domein?
Wat als we de database als platte tekst online willen publiceren?
Wat willen we gebruiken?
Program
http://pad.constantvzw.org/p/extracity.program
7:57u Brussel Zuid
8:45 Antwerpen Berchem
9:10 Middelheim aankomst
- Gijs & Manetta sluiten computer vast aan en testen het netwerk
- An brengt auto terug
-
11:30
14:00
- Pitch workshop (10 min) - Gijs
13:00-14:00
- Lunch
- (eventueel) inrichten van de ruimte met datastation (harde schijf), beamer met zinnenteller + tekst generator
14:45-15:30
- Betekenis publiek domein + verschillende licenties (printen we een selectie uit?) - An - 10 min
- Introductie Machine learning op basis van de presentatie bij het fonds, Getraind CharRNN model tonen, dataset, aanpassing dataset, start van de training - Gijs, 10min
- In machine-learning probeert een algoritme patronen en correlaties te ontdekken in een dataset om daarmee kennis te ontwikkelen. Een van de gemakkelijkste voorbeelden is het herkennen van een taal, veel talen hebben een specifieke verhouding voor de frequentie van een bepaald karakter.
- ML wordt vaak gebruikt om informatie te klassificeren; welke taal is deze tekst? Is de tekst positief of negatief?
- Rule based machine learning, waarbij regels worden opgesteld om data te klassificeren, voorbeeld sentiment analyse, waarbij een lijst met woorden is opgesteld, met een bijbehoren gewicht, van -1 heel negatief tot 1; heel positief.
- Meer en meer worden neurale netwerken gebruikt. Neuraal netwerk is een net van neuronen, gegroepeerd in lagen. Het trainen van zo'n netwerk bestaat uit het vinden van de gewichten van de verbindingen en de drempelwaardes in de individuele neuronen.
- Voorbeelden van machine-learning & neurale netwerken zijn:
- Google translate
- wetenschappelijk onderzoek naar taalgebruik op sociale media
- vacature websites gebruiken text mining om cv's te scannen
- asibot, genereren van nieuwe tekst
- Voorbeeld, CharRNN, een Recurrent neural network op letter-niveau. Het netwerk leert welke karakters na elkaar worden gebruikt in de voorbeelden en kan zo teksten genereren die heel goed lijken op wat het heeft gezien. Het leert sequences.
- Dataset laten zien, in dit geval de corpus van Shakespeare, aan elkaar geplakte scripts, maar platte tekst.
- Vervolgens laten zien hoe het trainen eruit ziet, op de vaste computer; commando voorbereiden
- Vervolgens laten zien hoe het genereren eruit ziet, op de vaste computer; commando voorbereiden
- introductie van Common Crawl http://commoncrawl.org/ - An (10 min)
- aanleiding van workshop
- grote dataset is nodig voor neural nets
- maar niet mogelijk om te gebruiken volgens de wet
- voorstel voor de workshop + Demo zinnenteller - Manetta - (10 min)
- WHAT
- machine learning dataset for the public domain
- goal is to collect enough public domain data to create a public domain dataset for machine learning
- The dataset would for example be used in the Algolit sessions
- in an ideal situation, as we are making a dataset for machine learning, we make a dataset from the size of the Common Crawl
- WHY
- The collection of data is an important step in a machine learning process
- Data is often thought of as if it is a "natural resource".
- The word "raw" in the context of "raw data" is an example of this, referring to raw minerals that are given by Mother earth and "only" need to be extracted from there.
- Data seems to be a type of material that you "just" need to download from the internet.
- But actually data is not something that is given. Data is material that we need to choose, process and clean.
-
Capta
is “taken” actively while data is assumed to be a “given” able to be recorded and observed. From this distinction, a world of differences arises. Humanistic inquiry acknowledges the situated, partial, and constitutive character of knowledge production, the recognition that knowledge is constructed, taken, not simply given as a natural representation of pre-existing fact. Johanna Drucker in Humanities Approaches to Graphical Display http://www.digitalhumanities.org/dhq/vol/5/1/000091/000091.html
- situated
- partial and incomplete
- constitutive (knowledge/information is framed by rules that make something happen or exist, what would not exist without these rules)
- In machine learning concretely, this means
- choice in type of material
-
source & access to this source: big datasets (Gutenberg/Archive.org, free service like social media, customer behavior like reviews on Amazon)
-
pre-processing and cleaning of data
- metadata
- page numbers
- spelling mistakes
- full sentences
- HOW
- .txt files to the computer
-
-
workshop structure
- exploration of material on personal computer
- what can we donate to the public domain?
- a short list of questions > discuss in small groups of 4/5?
- short break
- groups to continue collecting public domain data
- continue collecting public domain material from personal computer
- extracting material from other (online) sources
- Readme.md
15:30-15:45
15:45 - 16:00 = PAUZE
16:00 - 16:50
- groepen vormen
- publiek domein data verzamelen van eigen computer
- gutenberg / archive.org / andere publiek domein bron? opschonen en omvormen tot dataset
- (eventueel, bij keuze voor CC share-a-like) Wikipedia opschonen
16:50 - 17:00
- collectief een readme schrijven
- README.md schrijven voor bij de dataset.
- Hoe we tot keuzes zijn gekomen?
- Lijst van alle bronnen.
- Waar wordt de dataset gepubliceerd?
---
- - crawlers voorbereiden - Gijs
- - Manetta heeft een crawler voor Twitter
- - Pattern heeft ook verschillende web-crawlers
- - email crawlers?
- - OCR software voor scans ?
- - eventueel cgi interface? input .jpg > output .txt
- - PDF to text software voor PDF ?
- - eventueel cgi interface? input .pdf > output .txt
-
- etherbox om bestanden uit te delen - An
- - externe hardeschijf - neemt Manetta mee (2TB)
- - interface om zinnen te tellen - Manetta
- - een set datasets voorbereiden:
- common crawler - An
- wikipedia 14GB parsen - An
- gutenberg - Gijs
- archive.org - Manetta
- library of congress - Gijs
- EU
- - welk format gebruiken we voor de dataset? txt/xml/json
- - kan je dataset 'doneren' aan publiek domein? onder welke licentie publiceren we onze dataset?
- - balans tussen hoeveelheid & mogelijke openheid: Readme toevoegen, hoe we tot keuzes zijn gekomen + lijst van alle bronnen
Links
Statement
'The public domain always arrives too late. Seventy years is a long long time to wait in the culture we live in, of sharing knowledge, works and sources.' (Femke Snelting, during Public Domain Day in Koninklijke Bibliotheek Brussels, May 2017, http://constantvzw.org/site/Public-Domain-Day-2017.html)