marco@work - Computational Linguistics Methods & Population Genetics Workshop in Lyon

Workshops datum: Thursday, 24. June 2004 Einddatum: Friday, 25. June 2004
Vorige week ben ik naar de Computational Linguistics Methods & Population Genetics Workshop in Lyon geweest. Een van de doelen van deze workshop was om de mogelijke benaderingen te inventariseren om taalvariatie te onderzoeken met behulp van computationele methodes uit de populatiegenetica en phylogenetica. In twee dagen werden de volgende presentaties gegeven:

Introduction to population genetics door Franz Manni
Median-joining network analysis applied to Germanic lexica door Peter Forster
How far can we push the analogy between biological and linguistic evolution? door Russel Gray
Short presentation of the central methods and results of the "Salzburg Dialectometry School" (SDS) door Hans Goebl
The use of Levenshtein distance in dialectometry: analysis, consistency, validation and sensibility door John Nerbonne
Genes, languages and population contacts door Robert McMahon
The use of cluster methods in d ialectometry: application and validation door Christine Siedle
The classification of germanic languages: genetic versus linguistic door Charlotte Gooskens & Wilbert Heeringa
Making measurements meaningful - how to put figures on language data, from first principles to new techniques door Paul Heggarty

Zomaar wat indrukken die ik aldaar heb opgedaan...

Ik vond het als volslagen onwetende op genetisch gebied wel verhelderend om te horen dat mitochondrial DNA enkel door de moeder wordt doorgegeven, terwijl het Y-chromosoom uniek voor de man is. Dit laatste zou je linguistisch gezien enigzins kunnen vergelijken met achternamen. Een andere genetisch-linguistische overeenkomst is verder de 'glottoklok' versus de moleculaire klok. Overigens dient wel opgemerkt te worden dat linguistisch onderzoek vanuit de genetische hoek zich vooral richt op cognates (meaning lists/lexicostatistiek). Een verfijning hiervan is het gebruik van high-high en low-low meaning lists die als mutatiesnelheidsuitersten als hulpmiddel ingezet kunnen worden om bijvoorbeeld taalcontactsituaties op te sporen. Ook een gebruik als validatiemiddel is mogelijk.

Phylogenetische reconstructie kan vanuit twee perspectieven benaderd worden: afstands- en karaktergebaseerd, oftewel continue (numeriek) versus discreet (ATCG). Iedere benadering kan vervolgens weer gestructureerd worden in hierarchische bomen en relationele netwerken. Deze laatste methode denk ik overigens voor mijn eigen onderzoek in te kunnen gaan zetten om bijvoorbeeld geforceerde hierarchische onderverdelingen te ontdekken.

Bootstrapping, of resampling, bestaat uit het verdelen van de dataset in X delen, wa arna Y procent verwijderd wordt. Uit deze verwijderde deelverzameling wordt vervolgens telkens willekeurig gekozen om de Y procent gaten in de dataset weer op te vullen. Dit is kortom niet hetzelfde als crossvalidatie, waar de dataset in X delen verdeeld wordt, waarna vervolgens 1 deel verwijderd wordt. Dit verandert namelijk de dataset die getest wordt. Bij bootstrapping wordt altijd dezelfde verzameling gegevens ingezet.

Wat betreft de verschillende cluster-algoritmes begrijp ik nu dat het nut van de single link/nearest neighbour methode in mijn linguistische context beperkt blijft tot het visualiseren van outliers. Complete linkage/Furthest neighbour daarentegen forceert gelijke clustergroottes. Tenslotte is de Unweighted average beter in combinatie met gelijk verdeelde data distributies; de Weighted average levert met ongelijk verdeelde data weer betere resultaten.