Achya2at momila fel debut ta3 el cours

Definition Indexation:

tseba3 fel document bech tkharej kelmat chabin li dir bihom la requette

Approches RI

  1. Approche naive: balayer les documents séquentiellement c’est a dire bech tel9a teswira ta3 diddy tfout 3la 50 teswira li 3andek (fihom chimpanzini bananini )
  2. Approche basée sur une indexation: dir prétraitements lel documents pour construire un index qui permets de retrouver les documents rapidements c’est a dire tkhalas yacine rkhis bech ychouf 50 teswira ou ydirelhom kamel label bech tel9a diddy facilement (ta7taj stockage bzaf, 40% 7ata 200% ta3 la taille de la collection)

Type Indexation:

  1. Indexation Manuelle: tjib expert bech yseba3lek fel document tedi bzaf wa9t ou effort .
  2. Indexation semi-automatique: mix mabin el 1 ou 3 tebda automatique moraha manuel.
  3. Indexation automatique: dir kolch automatiquement mel A lel Z.

Phase Indexation:

Phase 1 Segmentation:

t9assam text en token b des separteur (espace,ponctuation) ou t9ad tsa7a7 el akhta2 bizarre

Phase 2 Normalisation:
  1. tegla3 les mots vides (la, le …)
  2. Racinisation: kelmat li 3andhom la meme racine t7othom fi ra7ba (isba3,tseba3,tasbi3)
  3. Lemmatisation: kelmat conjugué t3odhom m3a el verbe original
Phase 3 Indexeur:

tchouf ch7al kayen men kol kelma

Achaya2at mofida

Fichiers Utiles