Welkom bij marco@work, waar ik mijn promotieonderzoek documenteer in het kader van het Determinants of Dialectal Variation project.
Welcome to marco@work, where I document my Ph.D research in the context of the Determinants of Dialectal Variation project.

 Onderdelen
· Startpagina
· Afbeeldingen
· Archief
· Downloads
· Lidmaatschap
· Links
· Onderwerpen
· Statistieken

 Speerpunten
· Meertens pagina
· Video
· Powerpoint
· Paper
· Status
· Literatuurlijst
· Project portaal
· Recentelijk
· Taalhulpjes
· /

 Babylon

 Prijsuitreiking


 marco@work

© 2003-2007
Marco Rene Spruit

Computational Linguistics Methods & Population Genetics Workshop in Lyon
Geplaatst op Maandag 28 juni @ 00:00:00 GMT+1

Algemeen Workshops Workshops datum: Thursday, 24. June 2004 Einddatum: Friday, 25. June 2004
Vorige week ben ik naar de Computational Linguistics Methods & Population Genetics Workshop in Lyon geweest. Een van de doelen van deze workshop was om de mogelijke benaderingen te inventariseren om taalvariatie te onderzoeken met behulp van computationele methodes uit de populatiegenetica en phylogenetica. In twee dagen werden de volgende presentaties gegeven: Zomaar wat indrukken die ik aldaar heb opgedaan...

Ik vond het als volslagen onwetende op genetisch gebied wel verhelderend om te horen dat mitochondrial DNA enkel door de moeder wordt doorgegeven, terwijl het Y-chromosoom uniek voor de man is. Dit laatste zou je linguistisch gezien enigzins kunnen vergelijken met achternamen. Een andere genetisch-linguistische overeenkomst is verder de 'glottoklok' versus de moleculaire klok. Overigens dient wel opgemerkt te worden dat linguistisch onderzoek vanuit de genetische hoek zich vooral richt op cognates (meaning lists/lexicostatistiek). Een verfijning hiervan is het gebruik van high-high en low-low meaning lists die als mutatiesnelheidsuitersten als hulpmiddel ingezet kunnen worden om bijvoorbeeld taalcontactsituaties op te sporen. Ook een gebruik als validatiemiddel is mogelijk.

Phylogenetische reconstructie kan vanuit twee perspectieven benaderd worden: afstands- en karaktergebaseerd, oftewel continue (numeriek) versus discreet (ATCG). Iedere benadering kan vervolgens weer gestructureerd worden in hierarchische bomen en relationele netwerken. Deze laatste methode denk ik overigens voor mijn eigen onderzoek in te kunnen gaan zetten om bijvoorbeeld geforceerde hierarchische onderverdelingen te ontdekken.

Bootstrapping, of resampling, bestaat uit het verdelen van de dataset in X delen, wa arna Y procent verwijderd wordt. Uit deze verwijderde deelverzameling wordt vervolgens telkens willekeurig gekozen om de Y procent gaten in de dataset weer op te vullen. Dit is kortom niet hetzelfde als crossvalidatie, waar de dataset in X delen verdeeld wordt, waarna vervolgens 1 deel verwijderd wordt. Dit verandert namelijk de dataset die getest wordt. Bij bootstrapping wordt altijd dezelfde verzameling gegevens ingezet.

Wat betreft de verschillende cluster-algoritmes begrijp ik nu dat het nut van de single link/nearest neighbour methode in mijn linguistische context beperkt blijft tot het visualiseren van outliers. Complete linkage/Furthest neighbour daarentegen forceert gelijke clustergroottes. Tenslotte is de Unweighted average beter in combinatie met gelijk verdeelde data distributies; de Weighted average levert met ongelijk verdeelde data weer betere resultaten.

 
 Gerelateerde links
· Meer over Algemeen
· Nieuws door Marco


Meest gelezen verhaal om Algemeen:
Downtime


 Score Artikel
Gemiddelde score: 0
Stemmen: 0

Neem even tijd om dit artikel te beoordelen:

Uitstekend
Zeer Goed
Goed
Gewoon
Slecht


 Opties

 Printervriendelijke pagina Printervriendelijke pagina

 Stuur dit verhaal naar een kennis Stuur dit verhaal naar een kennis