marco@work van 2006-12-01 tot nu...

07/12/2006: Theelezing: A quantitative perspective on syntactic variation

Op woensdag 6 december 2006 heb ik de maandelijkse theelezing verzorgd op het Meertens Instituut, onder de titel: A quantitative perspective on syntactic variation. Ik heb in ongeveer 60 minuten tijd een overzicht van mijn onderzoeksactiviteiten gegeven. De handout kun je hier inzien.


03/01/2007: LOT winter -en zomerscholen 2004-2006

Van 2004 tot nu heb ik cursussen op de volgende LOT zomer -en winterscholen gevolgd:

Overigens zijn hier ook de bijbehorende certificaten te zien...


15/01/2007: Presentatie: Affinities among syntactic variables

Op vrijdag 12 januari 2007 heb ik op de jaarlijkse Computational Linguistics in the Netherlands (CLIN) conferentie aan de Universiteit van Leuven in België de presentatie Affinities among syntactic variables gegeven tijdens de sessie Dialects. De andere twee presentaties in deze Dialects sessie, die dit jaar voor het eerst op de CLIN was ingeroosterd, waren:

Beiden waren zeer interessant, overigens.
Mijn presentatie is hier beschikbaar, net als de bijbehorende handout.


15/01/2007: On Rule Interestingness Measures - Alex Freitas

Als achtergrondinformatie voor mijn presentatie Affinities among syntactic variables heb ik onder meer On Rule Interestingness Measures door Alex Freitas uit 1999 gelezen. Het gaat over de factoren die van belang zijn bij het evalueren van de interesantheid van gegenereerde associatie regels. Hierdoor kwam ik op het spoor van de Piatetsky-Shapiro (1991) principes voor rule interestingness (RI), en de tekortkomingen ervan.


16/01/2007: A survey of interestingness measures for knowledge discovery - Ken McGarry

Ik zou willen dat ik A survey of interestingness measures for knowledge discovery door Ken McGarry uit 2005 een paar maanden eerder had ontdekt... Dit paper evalueert de huidige stand van zaken in het wetenschappelijke onderzoek naar het meten van de mate van interessantheid van associaties tussen variabelen. Deze informatie is voor mij relevant aangezien ik op zoek ben naar afhankelijkheden tussen de syntactische variabelen in de SAND...


18/01/2007: Fonologie en morfologie van de Nederlandse dialecten - Ton Goeman en Johan Taeldeman

Als relevante achtergrondinformatie bij het afronden van het Associations among Linguistic Levels paper heb ik Fonologie en morfologie van de Nederlandse dialecten. Een nieuwe materiaalverzameling en twee nieuwe atlasprojecten gelezen, dat in 1996, nr 48, van Taal en Tongval verscheen. Het beschrijft de ontstaansgeschiedenis van de twee complementaire dialectatlassen in wording: de "Fonologische Atlas van de Nederlandse Dialecten" (FAND) en de "Morfologische Atlas van de Nederlandse dialecten" (MAND).


29/01/2007: Verzoek tot toelating

Als eerste stap in de promotieprocedure moet je als promovendus een Verzoek tot toelating tot de voorbereiding van de promotie aan de Universiteit van Amsterdam indienen. Dit formulier blijkt echter uit twee, in elkaar verstrengelde exemplaren te bestaan: een Nederlandstalige en een Engelstalige. Bovendien verwacht het formulier dat de volledige namen van mijn twee promotores op een stippellijntje van 15 millimeter lang op leesbare wijze in te vullen zijn. Ik heb daarom een leesbaardere en werkbaardere variant bij elkaar geknipt en geplakt, die hier is te hergebruiken voor andere UvA promovendi.


05/02/2007: Presentatie: Associations among syntactic variables

Op zaterdag 3 februari 2007 heb ik op de jaarlijkse Linguistics in the Netherlands (TIN-)dag aan de Universiteit van Utrecht de presentatie Associations among syntactic variables gegeven over het toepassen van data mining technieken op de Syntactische Atlas van de Nederlandse Dialecten. Ook de handout is nog in te zien.

Ik heb naar de volgende presentaties geluisterd:


12/02/2007: Er zijn grenzen aan wat je kunt zeggen - Sjef Barbiers

Enigzins verlaat heb ik Sjef Barbiers' oratie Er zijn grenzen aan wat je kunt zeggen, die hij op 1 juni 2006 hield, gelezen. Het bevat onder meer enkele duidelijke voorbeelden van de soorten zinsbouwvariatie in de Nederlandse dialecten. Op Kennislink staat meer over deze gelegenheid en dit thema. (ps: Sjef is mijn co-promotor)


15/03/2007: Abstract: ACLC lezing

Op 23 maart 2007 zal ik in zaal 420 van het Bungehuis in de Spuistraat van 15:15 uur tot 16:30 uur de ACLC lezing verzorgen. Ik zal het gaan hebben over "Quantitative perspectives on syntactic variation". Ik wil met deze presentatie onder meer duidelijk maken dat kwantitatief taalkundig onderzoek zowel een uitbreiding als een verrijking is van meer traditioneel/kwalitatief onderzoek. Hieronder volgt het abstract.


28/03/2007: Presentatie: Three quantitative perspectives on syntactic variation

Zoals eerder aangekondigd, heb ik op 23 maart 2007 de tweewekelijkse ACLC lezing verzorgd over kwantiatieve benaderingen in taalkundig onderzoek onder de titel 'Three quantitative perspectives on syntactic variation'. Na een uur spreken was er nog een half uur tijd voor vragen... De volledige presentatie is hier beschikbaar. De bijbehorende handout staat hier.


20/04/2007: Met het einde in zicht

Met het einde van mijn promotieonderzoek in zicht, ben ik afgelopen week niet alleen naar de eerste bijeenkomst van de cursus Succesvol solliciteren van de KNAW geweest, maar heb ik tevens de Intermediair PhD Career Event bezocht! Om met de laatste gebeurtenis te beginnen, ik ben bij 3 workshops geweest:

Bij de cursus Succesvol solliciteren hoort onder meer een syllabus met allerhande practische tips. De dag bestond grotendeels uit...


24/05/2007: Presentatie: Discovery of association rules between syntactic variables

Op 23 mei 2007 heb ik het wekelijkse Seminar in Methodology and Statistics aan de Universiteit van Groningen voor Master en PhD studenten verzorgd. Ik heb het gehad over Associations among Categorical Variables. Het was een mijns inziens geslaagd anderhalf uur durend multimediaal college over het toepassen van een data mining techniek voor het verkennen van afhankelijkheden tussen syntactische microvariabelen.

De handout is hier in te zien, en ook de volledige presentatie is hier te bekijken. Dit verhaal is gebaseerd op mijn artikel Discovery of association rules between syntactic variables - Data mining the Syntactic atlas of the Dutch dialects dat geaccepteerd is voor publicatie in Computational Linguistics in the Netherlands 2006.


01/06/2007: Publicatie in Computational Linguistics in the Netherlands 2006

Vandaag heb ik de definitieve versie van mijn paper Discovery of association rules between syntactic variables - Data mining the Syntactic atlas of the Dutch dialects opgestuurd voor publicatie in Computational Linguistics in the Netherlands 2006.

Beter gezegd, twee definitieve versies. De eerste versie is de complete versie, de tweede bevat een pagina minder om aan de eis van maximaal 15 pagina's te voldoen. Dit had echter wel tot gevolg dat ik flink in de referenties heb geschrapt (want dat levert relatief snel weer een paar regels op) en enkele kaarten en resultaattabellen heb verwijderd... Inhoud versus voorkomen dus.


29/06/2007: Presentatie: Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied

Op 28 juni 2007 heb ik het paper Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied van Wilbert Heeringa, John Nerbonne, Renée van Bezooijen, en mijzelf gepresenteerd op het symposium “Kwantitatieve benaderingen in het taal- en letterkundige onderzoek en elders in de geesteswetenschappen” dat plaats vond in Amsterdam ter omlijsting van het verschijnen van het themanummer van het Tijdschrift voor Nederlandse taal- en letterkunde over dit onderwerp.

De handout is hier in te zien, en ook de volledige presentatie is hier te bekijken.


01/08/2007: Geaccepteerd voor publicatie in een speciale uitgave van Lingua

Het paper Associations among linguistic levels dat ik samen met Wilbert Heeringa en John Nerbonne heb geschreven, is--behoudens enkele nog door te voeren verbeterpunten--geaccepteerd voor publicatie in een nog te verschijnen speciale uitgave over syntactische databases van Lingua.

Dit is het eerste onderzoek dat de mate van overeenkomst tussen geaggregeerde taalverschillen op zowel syntactisch, uitspraak en lexicaal niveau kwantificeert.


31/08/2007: Weet wat je meet en waarom

Op pagina 2 van het kwartaalblad e-data en research staat een verslag van het symposium Kwantitatieve benaderingen in het taal- en letterkundige onderzoek en elders in de geesteswetenschappen getiteld Weet wat je meet en waarom. Hier heb ik het paper Geografie en inwoneraantallen als verklarende factoren voor variatie in het Nederlandse dialectgebied van Wilbert Heeringa, John Nerbonne, Renée van Bezooijen, en mezelf gepresenteerd. Zie hier voor meer info.


22/02/2008: Proefschrift af en goedgekeurd!

Het viel niet mee, die laatste proefschriftloodjes, naast mijn nieuwe baan... Maar de tien mannen-en-vrouw sterke leescommissie heeft op 13 februari 2008 dan toch het groene licht gegeven voor de verdediging van mijn proefschrift op 26 maart 2008. Mijn proefschrift verschijnt als nummer 174 in de LOT Dissertation Series en is vanaf eind februari 2008 in te zien en te bestellen op de LOT publications website.


07/03/2008: Persbericht bij verdediging proefschrift op 26 maart 2008

Het multidisciplinaire onderzoek van Marco Spruit verweeft en vernieuwt inzichten in de onderzoeksgebieden van dialectologie, dialectometrie, syntactische variatie, data analyse en data mining. De afgelopen vier jaar bestudeerde hij de taalkundige verschillen op zinsbouwniveau in 267 dialecten in Nederland en België. Dergelijke taalverschillen omvatten onder meer de verschillende volgordes en functies van de woorden in een zin, waarbij de zinsvarianten dezelfde betekenis uitdrukken.

De volgende vier zinnen illustreren de taalvariatie die men in Nederlandse dialecten aantreft in het gebruik van het voegwoord als aankondiging van een bijzin: “Het lijkt wel OF er iemand in de tuin staat”, “Het lijkt wel DAT er iemand in de tuin staat”, “Het lijkt wel OF DAT er iemand in de tuin staat” en “Het lijkt wel OF er STAAT iemand in de tuin”. Deze en honderden andere zinsvarianten zijn verzameld in de Syntactische Atlas van de Nederlandse Dialecten, waar deze kwantitatieve studie dankbaar gebruik van maakt.

Dit onderzoek bestudeert de onderlinge relaties tussen de honderden zinsvarianten met behulp van een “taalkundige liniaal”: een computationeel instrument dat verschillen in zinsbouw vertaalt naar numerieke waarden. Hiermee is het mogelijk om te “tellen met taal”. De opgetelde taalverschillen tussen dialectenparen resulteren in taalvariatiepatronen die op meerdere abstractieniveaus gevisualiseerd worden op geografische kleurenkaarten. Dit eerste perspectief op zinsbouwvariatie toont onder meer op overtuigende wijze aan dat er een coherente relatie bestaat tussen geaggregeerde verschillen in zinsbouw en geografische afstand. Het tweede perspectief op zinsbouwvariatie relateert de variatiepatronen in zinsbouw met patronen op het gebied van woorduitspraak en woordkeus. Dit toont aan dat er een mate van structurele of typologische verwantschap bestaat tussen deze drie taalkundige niveaus. Het derde perspectief op zinsbouwvariatie introduceert een “taalkundige liniaal” waarmee de mate van overeenkomst tussen willekeurige combinaties van zinsvarianten ontdekt kan worden. Deze drie perspectieven bieden nieuwe inzichten en methoden om het menselijke taalsysteem beter te begrijpen en reeds bestaande taaltheoretische inzichten te valideren.

Een greep uit de nieuwswaardige resultaten:


22/03/2008: Artikel over mijn onderzoek in de Volkskrant

Op zaterdag 22 maart 2008 stond het volgende artikel over mijn promotieonderzoek in de Volkskrant in de Kennis katern: Promovendus ontwikkelt systeem om grammaticale verschillen in verband te brengen met geografische afstanden. Helaas heeft de redacteur de begeleidende one-liner verkeerd ge-copy-paste.
Minder verrassend maar ook leuk is de aankondiging van mijn verdediging in de UvA agenda: 'Lineaal' meet mate van overeenkomst verschillende dialecten (de spelfout is niet van mij), gebaseerd op mijn aangeleverde tekst. De aankondigingstekst is hier na te lezen:


01/04/2008: Lectoribus salutem!

Latijn Engels Nederlands


08/04/2008: Meer media aandacht voor mijn onderzoek

In deze, naar alle waarschijnlijkheid, laatste ingang in mijn promotieweblog wil ik graag wijzen naar het interview in de rubriek doctor dat verschenen is in het UvA-weekblad Folia, jaargang 61, nummer 27, d.d. 11 april 2008. Tot slot zag ik bij toeval in editie 776 van de driewekelijkse nieuwsbrief Taalpost een verwijzing naar het Kennislink artikel Dialecten verschillen niet alleen van elkaar door hun woordenschat over mijn promotieonderzoek... Bon!