Een corpus is een grote en gestructureerde verzameling tekst- of spraakgegevens die wordt gebruikt voor taalkundig onderzoek en het trainen en testen van machine learning-modellen. Corpora kunnen zowel geannoteerde als niet-geannoteerde gegevens bevatten en worden vaak samengesteld om een specifieke taal, domein of toepassing te vertegenwoordigen.