Persuasive communication

Centre for Language Studies | Faculty of Arts | Radboud University Nijmegen
Maxresdefault

Zoeken naar woorden

Door Wilbert Spooren

Als onderzoekers van taal en persuasieve communicatie zijn we soms geïnteresseerd in kleine woordjes en subtiele verschillen. Zo ben ik al jaren geïnteresseerd in het verschil tussen want en omdat.  Het verschil tussen want en omdat is soms heel subtiel. Neem zinnetjes als “Marie was moe omdat ze de trap af kwam gerend” en “Marie had haast want ze kwam de trap af gerend”. In de omdat-zin geeft het tweede deel een verklaring waarom Marie moe was. In de want-zin concludeert de spreker of schrijver dat Marie kennelijk haast had op grond van de observatie dat ze trap af kwam gerend. Dat wordt wel een verschil in subjectiviteit genoemd: want signaleert een subjectieve conclusie, terwijl omdat een meer objectieve reden of verklaring signaleert. En daardoor is nog weer een stuk objectiever, omdat dat over echte oorzaken gaat (“het huis brandde af doordat de bliksem insloeg”; omdat en want klinken hier gek).

Eén van de manieren waarop je hier onderzoek naar kunt doen is door te kijken naar de omgeving waarin deze woorden voorkomen: als want, omdat en doordat van elkaar verschillen in subjectiviteit dan verwacht je dat de omgeving van deze woorden er anders uitziet. Zo zou je kunnen verwachten dat in de omgeving van een subjectief voegwoord meer woorden die gevoel uitdrukken (zoals jammer, vreselijk, treurig) voorkomen. En je zou ook verwachten dat subjectieve voegwoorden meer voorkomen in genres die iemand proberen te overtuigen (zoals in reclames of facebookposts) dan in meer feitelijke teksten (zoals nieuwsberichten). Zou het nou niet leuk zijn als je een instrument had om dat soort vragen mee te onderzoeken?

Goed nieuws: dat instrument is er. De afgelopen maanden hebben we samen met een stel onderzoekers van het Humanities Lab en het Centre for Language and Speech Technology van onze Letterenfaculteit en met onderzoekers van de Universiteit van Utrecht gewerkt aan het project ACAD: Automatic Coherence Analysis of Dutch. De kern van het project is een zoekinterface, Cesar (Corpus Editor for Syntactically Annotated Resources). Met Cesar kun je geavanceerde zoekopdrachten formuleren zonder dat je veel programmeerkennis nodig hebt. Zo kun je naar een woord als omdat gaan zoeken. Daarnaast kun je allerlei zaken specificeren. Zo wil je je analyse van dat woordje omdat beperken tot het zinnetje ervoor en het zinnetje erna. Vervolgens wil je weten hoeveel gevoelswoorden er in die zinnetjes voor en na omdat voorkomen. En het resultaat wil je vervolgens bekijken, downloaden etc. Dat gaat met behulp van menu’s die ervoor zorgen dat je geen programmeur hoeft te zijn om dit voor elkaar te krijgen (al zul je wel moeten oefenen).

Cesar zoekt in allerlei corpora, die al eerder beschikbaar waren (zoals het Corpus Gesproken Nederlands, CGN of het Stevin Nederlandstalig Referentiecorpus, SoNaR) maar ook in nieuw toegevoegde corpora (zoals teksten van de papieren en de digitale versie van NRC over vergelijkbare onderwerpen en de whatsappgesprekken die in het onderzoek van Lieke Verheijen zijn verzameld). Al die corpora zijn verrijkt: er zitten niet alleen woorden in, maar ook de woordenboekvormen van die woorden (de zgn. lemmavorm) en de woordklasse (de zgn. Part-of-Speechtag). Verder is er van elke zin in de corpora een grammaticale analyse beschikbaar, die gemaakt is met de parser Alpino. Tezamen biedt dat een heel krachtig instrument waarmee je bijvoorbeeld zou kunnen zoeken in hoeveel van de zinnen vóór want tegenwoordige tijden voorkomen en wat alle gevallen zijn van omdat met hoofdzinsvolgorde.

Laatst vroeg collega Lidwien me: En wat heb ik daar nou aan? Tja. ACAD en Cesar vervullen allereerst natuurlijk een wetenschappelijke interesse. Dergelijke instrumenten maken het mogelijk om vragen die tot voor kort alleen met moeizame handmatige analyses beantwoord kunnen worden, nu veel sneller te beantwoorden en met behulp van veel meer gegevens uit heel veel verschillende genres. Daarnaast hebben we nu een hulpmiddel dat in principe (en ik bedoel “in principe”, want het zal zeker nog een hoop werk en tijd kosten) uit te breiden is naar heel andere onderzoeksvragen, maar ook naar andere talen, zodat we talige patronen die te maken hebben met samenhang in overtuigende en andere teksten veel preciezer kunnen bestuderen. En wie weet wat voor toepassingen onderzoekers nog bedenken.

Grappig genoeg kwam collega Lidwien zelf al onmiddellijk met een vraag. Ze had gepraat met een jurist die zei dat juristen een onderscheid maken tussen kennelijk en klaarblijkelijk. Zie je dat verschil ook terug in gewone taal? Ik heb ernaar gekeken in drie genres: krantentaal en gesproken taal. Wat blijkt? Kennelijk komt veel vaker voor dan klaarblijkelijk (kennelijk: 3,5 keer per 100.000 woorden; klaarblijkelijk: 0,12 keer per 100.000 woorden). Bovendien komt klaarblijkelijk helemaal niet voor in gesproken taal. Klaarblijkelijk deed er geen jurist mee bij het verzamelen van het Corpus Gesproken Nederlands.

 

Uitproberen? Ga naar cesar.science.ru.nl

Leave a Reply