Fiche:


Solution:

Loi de Zipf

Exercice 1 — Loi de Zipf

Liste des termes unique:
#Terme
1recherche
2informations
3domaine
4algorithmes
5moteurs
6fondamental

Total : 6 termes uniques


Fréquence d’apparition de chaque terme
TermeD1D2D3Fréquence totale
recherche1113
algorithme0112
information2002
domaine1001
fondamental1001
moteurs0101

Vérification de la loi de Zipf
Rang (r)Terme(s)fréquencef Zipf = 3/r
1recherche33.00
2algorithme21.50
3information21.00
4domaine10.75
5fondamental10.6
6moteurs10.5

Conclusion

La loi de Zipf est approximativement vérifiée : la fréquence diminue bien lorsque le rang augmente. Cependant, sur un si petit corpus, la distribution reste grossière. La loi de Zipf se manifeste pleinement sur de grands corpus.


Graphique fréquence vs rang

Commentaire

  • La courbe suit globalement la décroissance hyperbolique de Zipf.

Exercice 2 — Approche basée sur la discrimination

Vrai 3jezet mala 9olt el AI yektob el 7al kach makayen clicki hna

Données

Documents (fréquences des termes) :

  • Nombre de documents
  • Nombre de termes
  • Poids maximal
  • Facteur de normalisation

1. Vecteur centroïde initial

2. Uniformité initiale

Similarité d’un document avec le centroïde :

Sommes des carrés des différences :

  • :
  • :
  • :

D’où :

Uniformité :

3. Suppression de chaque terme et calcul de

Lorsqu’on annule le terme (mise à zéro dans tous les documents), le nouveau centroïde a sa -ième composante nulle, les autres inchangées.
La nouvelle somme des carrés pour le document devient :

Les carrés des différences sont :

Terme
1000
2
3101
41644
5

On calcule alors puis .

Résultats numériques
Terme
10.74130
20.77920.0379
30.74790.00663
40.85000.1088
50.75130.0100

4. Interprétation

  • : le terme est discriminant (sa suppression uniformise le corpus).
  • Plus est grand, meilleur est le pouvoir discriminant.

Classement des termes :
Terme 4 (0.1088) > Terme 2 (0.0379) > Terme 5 (0.0100) > Terme 3 (0.00663) > Terme 1 (0)

Le terme 4 est le plus utile pour distinguer les documents ; le terme 1 (constant) ne discrimine pas.

Exercice 3 — IF/IDF

Vrai 3jezet mala 9olt el AI yektob el 7al kach makayen clicki hna

Tableau des fréquences

TermeD1D2D3D4D5
Algo01001
Informa01001
Programm32201
lang10110
fonct00111
const10000

Formules utilisées

  • TF (Term Frequency) :
    (fréquence normalisée par la longueur du document)

  • IDF (Inverse Document Frequency) :
    avec (N_t) = nombre de documents contenant (t_i).

  • Poids :

Étape 1 : Somme des fréquences par document (dénominateur du TF)

On additionne toutes les fréquences de chaque document.

Ces sommes servent à normaliser : un document long (D1) aura des TF plus faibles qu’un document court (D4) pour une même fréquence brute.

Étape 2 : Calcul de l’IDF pour chaque terme

On compte (documents où freq > 0) :

TermeDocuments contenant le termeIDF
AlgoD2, D522.50.39794
InformaD2, D522.50.39794
ProgrammD1, D2, D3, D541.250.09691
langD1, D3, D431.66670.22185
fonctD3, D4, D531.66670.22185
constD1150.69897

L’IDF est d’autant plus grand que le terme est rare. « const » apparaît dans un seul document → IDF le plus élevé.

Étape 3 : Calcul du TF et du poids pour chaque document

Document D1 (somme = 5)
Document D2 (somme = 4)
Document D3 (somme = 4)
Document D4 (somme = 2) – le plus court
Document D5 (somme = 4)

Étape 4 : Tableau récapitulatif des poids

TermeD1D2D3D4D5
Algo00.09949000.09949
Informa00.09949000.09949
Programm0.058150.048460.0484600.02423
lang0.0443700.055460.110930
fonct000.055460.110930.05546
const0.139790000