Fiche:
Solution:
Exercice 1 — Loi de Zipf
Liste des termes unique:
| # | Terme |
|---|---|
| 1 | recherche |
| 2 | informations |
| 3 | domaine |
| 4 | algorithmes |
| 5 | moteurs |
| 6 | fondamental |
Total : 6 termes uniques
Fréquence d’apparition de chaque terme
| Terme | D1 | D2 | D3 | Fréquence totale |
|---|---|---|---|---|
| recherche | 1 | 1 | 1 | 3 |
| algorithme | 0 | 1 | 1 | 2 |
| information | 2 | 0 | 0 | 2 |
| domaine | 1 | 0 | 0 | 1 |
| fondamental | 1 | 0 | 0 | 1 |
| moteurs | 0 | 1 | 0 | 1 |
Vérification de la loi de Zipf
| Rang (r) | Terme(s) | fréquence | f Zipf = 3/r |
|---|---|---|---|
| 1 | recherche | 3 | 3.00 |
| 2 | algorithme | 2 | 1.50 |
| 3 | information | 2 | 1.00 |
| 4 | domaine | 1 | 0.75 |
| 5 | fondamental | 1 | 0.6 |
| 6 | moteurs | 1 | 0.5 |
Conclusion
La loi de Zipf est approximativement vérifiée : la fréquence diminue bien lorsque le rang augmente. Cependant, sur un si petit corpus, la distribution reste grossière. La loi de Zipf se manifeste pleinement sur de grands corpus.
Graphique fréquence vs rang
Commentaire
- La courbe suit globalement la décroissance hyperbolique de Zipf.
Exercice 2 — Approche basée sur la discrimination
Vrai 3jezet mala 9olt el AI yektob el 7al kach makayen clicki hna
Données
Documents (fréquences des termes) :
- Nombre de documents
- Nombre de termes
- Poids maximal
- Facteur de normalisation
1. Vecteur centroïde initial
2. Uniformité initiale
Similarité d’un document avec le centroïde :
Sommes des carrés des différences :
- :
- :
- :
D’où :
Uniformité :
3. Suppression de chaque terme et calcul de
Lorsqu’on annule le terme (mise à zéro dans tous les documents), le nouveau centroïde a sa -ième composante nulle, les autres inchangées.
La nouvelle somme des carrés pour le document devient :
Les carrés des différences sont :
| Terme | |||
|---|---|---|---|
| 1 | 0 | 0 | 0 |
| 2 | |||
| 3 | 1 | 0 | 1 |
| 4 | 16 | 4 | 4 |
| 5 |
On calcule alors puis .
Résultats numériques
| Terme | ||
|---|---|---|
| 1 | 0.7413 | 0 |
| 2 | 0.7792 | 0.0379 |
| 3 | 0.7479 | 0.00663 |
| 4 | 0.8500 | 0.1088 |
| 5 | 0.7513 | 0.0100 |
4. Interprétation
- : le terme est discriminant (sa suppression uniformise le corpus).
- Plus est grand, meilleur est le pouvoir discriminant.
Classement des termes :
Terme 4 (0.1088) > Terme 2 (0.0379) > Terme 5 (0.0100) > Terme 3 (0.00663) > Terme 1 (0)
Le terme 4 est le plus utile pour distinguer les documents ; le terme 1 (constant) ne discrimine pas.
Exercice 3 — IF/IDF
Vrai 3jezet mala 9olt el AI yektob el 7al kach makayen clicki hna
Tableau des fréquences
| Terme | D1 | D2 | D3 | D4 | D5 |
|---|---|---|---|---|---|
| Algo | 0 | 1 | 0 | 0 | 1 |
| Informa | 0 | 1 | 0 | 0 | 1 |
| Programm | 3 | 2 | 2 | 0 | 1 |
| lang | 1 | 0 | 1 | 1 | 0 |
| fonct | 0 | 0 | 1 | 1 | 1 |
| const | 1 | 0 | 0 | 0 | 0 |
Formules utilisées
-
TF (Term Frequency) :
(fréquence normalisée par la longueur du document) -
IDF (Inverse Document Frequency) :
avec (N_t) = nombre de documents contenant (t_i). -
Poids :
Étape 1 : Somme des fréquences par document (dénominateur du TF)
On additionne toutes les fréquences de chaque document.
Ces sommes servent à normaliser : un document long (D1) aura des TF plus faibles qu’un document court (D4) pour une même fréquence brute.
Étape 2 : Calcul de l’IDF pour chaque terme
On compte (documents où freq > 0) :
| Terme | Documents contenant le terme | IDF | ||
|---|---|---|---|---|
| Algo | D2, D5 | 2 | 2.5 | 0.39794 |
| Informa | D2, D5 | 2 | 2.5 | 0.39794 |
| Programm | D1, D2, D3, D5 | 4 | 1.25 | 0.09691 |
| lang | D1, D3, D4 | 3 | 1.6667 | 0.22185 |
| fonct | D3, D4, D5 | 3 | 1.6667 | 0.22185 |
| const | D1 | 1 | 5 | 0.69897 |
L’IDF est d’autant plus grand que le terme est rare. « const » apparaît dans un seul document → IDF le plus élevé.
Étape 3 : Calcul du TF et du poids pour chaque document
Document D1 (somme = 5)
Document D2 (somme = 4)
Document D3 (somme = 4)
Document D4 (somme = 2) – le plus court
Document D5 (somme = 4)
Étape 4 : Tableau récapitulatif des poids
| Terme | D1 | D2 | D3 | D4 | D5 |
|---|---|---|---|---|---|
| Algo | 0 | 0.09949 | 0 | 0 | 0.09949 |
| Informa | 0 | 0.09949 | 0 | 0 | 0.09949 |
| Programm | 0.05815 | 0.04846 | 0.04846 | 0 | 0.02423 |
| lang | 0.04437 | 0 | 0.05546 | 0.11093 | 0 |
| fonct | 0 | 0 | 0.05546 | 0.11093 | 0.05546 |
| const | 0.13979 | 0 | 0 | 0 | 0 |