Achya2at momila fel debut ta3 el cours
Definition Indexation:
tseba3 fel document bech tkharej kelmat chabin li dir bihom la requette
Approches RI
- Approche naive: balayer les documents séquentiellement c’est a dire bech tel9a teswira ta3 diddy tfout 3la 50 teswira li 3andek (fihom chimpanzini bananini )
- Approche basée sur une indexation: dir prétraitements lel documents pour construire un index qui permets de retrouver les documents rapidements c’est a dire tkhalas yacine rkhis bech ychouf 50 teswira ou ydirelhom kamel label bech tel9a diddy facilement (ta7taj stockage bzaf, 40% 7ata 200% ta3 la taille de la collection)
Type Indexation:
- Indexation Manuelle: tjib expert bech yseba3lek fel document tedi bzaf wa9t ou effort .
- Indexation semi-automatique: mix mabin el 1 ou 3 tebda automatique moraha manuel.
- Indexation automatique: dir kolch automatiquement mel A lel Z.
Phase Indexation:
Phase 1 Segmentation:
t9assam text en token b des separteur (espace,ponctuation) ou t9ad tsa7a7 el akhta2 bizarre
Phase 2 Normalisation:
- tegla3 les mots vides (la, le …)
- Racinisation: kelmat li 3andhom la meme racine t7othom fi ra7ba (isba3,tseba3,tasbi3)
- Lemmatisation: kelmat conjugué t3odhom m3a el verbe original
Phase 3 Indexeur:
tchouf ch7al kayen men kol kelma