Hendri over zijn afstudeer scriptie

Deze Suithouse dag heeft Hendri iets gedeeld over zijn scriptie die hij bij de Universiteit Stellenbosch in 2019 heeft gedaan: In het kort, mijn scriptie gaat over het vinden van onderwerpen in nieuws artikelen door gebruik te maken van statistische onderwerp modellen en dan artikelen met dezelfde onderwerpen te groeperen.

Vaak zien we dat bestaande nieuwsfeeds artikelen bevatten die over dezelfde onderwerpen gaan, maar deze artikelen zijn waarschijnlijk door een mens getagt. Het onderzoek bekijkt of we dit proces kunnen automatiseren en artikelen te groeperen gebaseerd op hun onderwerpen i.p.v. de tags. We denken dat we op deze manier meer relevante artikelen uit onze nieuwsfeeds kunnen halen.

Het model werkt als volg:

Gegeven een aantal artikelen, kunnen we de gemeenschappelijke onderwerpen van al deze artikelen bepalen door gebruik te maken van een onderwerp modellen zoals LDA – Latent Dirichlet Allocation en HDP – Hierarchical Dirichlet Proces. Dit zijn ‘generative probabilistic’ modellen oftewel modellen die artikelen genereren. Een onderwerp kan gezien worden als een collectie van specifieke woorden. Denk hierbij aan een onderwerp als een distributie over woorden. We kunnen nu deze artikelen voorstellen in termen van de globale onderwerpen die ons onderwerp model heeft gevonden. Dus nu is een artikel een distributie van onderwerpen. Vervolgens proberen we de artikelen met dezelfde onderwerp structuur (distributie vorm) te groeperen door gebruik te maken van een cluster techniek genaamd DBSCAN (Density Based spatial Clustering of Applications with Noise). Op die manier hebben we een applicatie die artikelen kan groeperen op basis van echte onderwerpen en niet op basis van tags .

Dat is in het kort ons project! Heb je vragen, laat het weten via het contact formulier.