Computational Linguistics Methods & Population Genetics Workshop in Lyon
Datum: Maandag 28 juni @ 00:00:00 GMT+1
Onderwerp: Algemeen


Workshops Workshops datum: Thursday, 24. June 2004 Einddatum: Friday, 25. June 2004
Vorige week ben ik naar de Computational Linguistics Methods & Population Genetics Workshop in Lyon geweest. Een van de doelen van deze workshop was om de mogelijke benaderingen te inventariseren om taalvariatie te onderzoeken met behulp van computationele methodes uit de populatiegenetica en phylogenetica. In twee dagen werden de volgende presentaties gegeven: Zomaar wat indrukken die ik aldaar heb opgedaan...

Ik vond het als volslagen onwetende op genetisch gebied wel verhelderend om te horen dat mitochondrial DNA enkel door de moeder wordt doorgegeven, terwijl het Y-chromosoom uniek voor de man is. Dit laatste zou je linguistisch gezien enigzins kunnen vergelijken met achternamen. Een andere genetisch-linguistische overeenkomst is verder de 'glottoklok' versus de moleculaire klok. Overigens dient wel opgemerkt te worden dat linguistisch onderzoek vanuit de genetische hoek zich vooral richt op cognates (meaning lists/lexicostatistiek). Een verfijning hiervan is het gebruik van high-high en low-low meaning lists die als mutatiesnelheidsuitersten als hulpmiddel ingezet kunnen worden om bijvoorbeeld taalcontactsituaties op te sporen. Ook een gebruik als validatiemiddel is mogelijk.

Phylogenetische reconstructie kan vanuit twee perspectieven benaderd worden: afstands- en karaktergebaseerd, oftewel continue (numeriek) versus discreet (ATCG). Iedere benadering kan vervolgens weer gestructureerd worden in hierarchische bomen en relationele netwerken. Deze laatste methode denk ik overigens voor mijn eigen onderzoek in te kunnen gaan zetten om bijvoorbeeld geforceerde hierarchische onderverdelingen te ontdekken.

Bootstrapping, of resampling, bestaat uit het verdelen van de dataset in X delen, wa arna Y procent verwijderd wordt. Uit deze verwijderde deelverzameling wordt vervolgens telkens willekeurig gekozen om de Y procent gaten in de dataset weer op te vullen. Dit is kortom niet hetzelfde als crossvalidatie, waar de dataset in X delen verdeeld wordt, waarna vervolgens 1 deel verwijderd wordt. Dit verandert namelijk de dataset die getest wordt. Bij bootstrapping wordt altijd dezelfde verzameling gegevens ingezet.

Wat betreft de verschillende cluster-algoritmes begrijp ik nu dat het nut van de single link/nearest neighbour methode in mijn linguistische context beperkt blijft tot het visualiseren van outliers. Complete linkage/Furthest neighbour daarentegen forceert gelijke clustergroottes. Tenslotte is de Unweighted average beter in combinatie met gelijk verdeelde data distributies; de Weighted average levert met ongelijk verdeelde data weer betere resultaten.





Dit artikel komt van marco@work
http://marco.info/pro

De URL voor dit verhaal is:
http://marco.info/pro/modules.php?name=News&file=article&sid=92