Utilisation de CorText sur un corpus de documents universitaires sur le racisme (corpus en langue anglaise)

Qu’est ce que le Text Mining (ou fouille de texte) ?

Le text mining, également appelé traitement automatique du langage, peut être défini comme étant un ensemble de techniques issues de l’intelligence artificielle, alliant plusieurs domaines : la linguistique, la sémantique, le langage, les statistiques et l’informatique. Combinées ensemble, ces techniques permettent d’extraire des données pour recréer de l’information à partir de corpus de textes en les classifiant et les analysant de manière à établir des tendances.

Nous avons commencé par extraire 198 notices bibliographiques de la base de données PubMed que nous avons converties au format RIS avec Harzing et importées dans CorTexT. Nos analyses ont porté sur les champs titre, résumé et date.

Nous avons ensuite lancé une analyse sémantique sur ce corpus puis une analyse des entités nommés

Puis nous avons demandé à Cortext de créer une carte sémantique :

Voir la version interactive