RITD2

Fiche:

FICHERITD2.pdf

Solution:

Exercice 1 — Loi de Zipf

Liste des termes unique:

#	Terme
1	recherche
2	informations
3	domaine
4	algorithmes
5	moteurs
6	fondamental

Total : 6 termes uniques

Fréquence d’apparition de chaque terme

Terme	D1	D2	D3	Fréquence totale
recherche	1	1	1	3
algorithme	0	1	1	2
information	2	0	0	2
domaine	1	0	0	1
fondamental	1	0	0	1
moteurs	0	1	0	1

Vérification de la loi de Zipf

Rang (r)	Terme(s)	fréquence	f Zipf = 3/r
1	recherche	3	3.00
2	algorithme	2	1.50
3	information	2	1.00
4	domaine	1	0.75
5	fondamental	1	0.6
6	moteurs	1	0.5

Conclusion

La loi de Zipf est approximativement vérifiée : la fréquence diminue bien lorsque le rang augmente. Cependant, sur un si petit corpus, la distribution reste grossière. La loi de Zipf se manifeste pleinement sur de grands corpus.

Graphique fréquence vs rang

Commentaire

La courbe suit globalement la décroissance hyperbolique de Zipf.

Exercice 2 — Approche basée sur la discrimination

Vrai 3jezet mala 9olt el AI yektob el 7al kach makayen clicki hna

Données

Documents (fréquences des termes) :

d_{1} = [6, 2, 3, 6, 2], d_{2} = [6, 1, 2, 0, 2], d_{3} = [6, 5, 1, 0, 0]

Nombre de documents $N = 3$
Nombre de termes $M = 5$
Poids maximal $max (d_{ij}) = 6$
Facteur de normalisation $MaxS = M \times (max)^{2} = 5 \times 36 = 180$

1. Vecteur centroïde initial $V$

v_{j} = \frac{1}{N} i = 1 \sum N d_{ij}

V = [6, \frac{8}{3}, 2, 2, \frac{4}{3}]

2. Uniformité initiale $U_{1}$

Similarité d’un document $d_{i}$ avec le centroïde $V$ :

Sim (d_{i}, V) = 1 - \frac{\sum _{j = 1}^{M} ∣ d _{ij} - v _{j} ∣ ^{2}}{MaxS}

Sommes des carrés des différences :

$d_{1}$ : $\sum = \frac{161}{9}$
$d_{2}$ : $\sum = \frac{65}{9}$
$d_{3}$ : $\sum = \frac{110}{9}$

D’où :

Sim (d_{1}, V) Sim (d_{2}, V) Sim (d_{3}, V) = 1 - \frac{161/9}{180} \approx 0.6847 = 1 - \frac{65/9}{180} \approx 0.7997 = 1 - \frac{110/9}{180} \approx 0.7394

Uniformité :

U_{1} = \frac{1}{N} i = 1 \sum N Sim (d_{i}, V) \approx 0.7413

3. Suppression de chaque terme et calcul de $U_{2}$

Lorsqu’on annule le terme $k$ (mise à zéro dans tous les documents), le nouveau centroïde $V^{'}$ a sa $k$ -ième composante nulle, les autres inchangées.
La nouvelle somme des carrés pour le document $i$ devient :

new_sum_{i} = orig_sum_{i} - (d_{ik} - v_{k})^{2}

Les carrés des différences $(d_{ik} - v_{k})^{2}$ sont :

Terme $k$	$d_{1}$	$d_{2}$	$d_{3}$
1	0	0	0
2	$4/9$	$25/9$	$49/9$
3	1	0	1
4	16	4	4
5	$4/9$	$4/9$	$16/9$

On calcule alors $Sim (d_{i}^{'}, V^{'}) = 1 - new_sum_{i} /180$ puis $U_{2} = \frac{1}{3} \sum Sim^{'}$ .

Résultats numériques

Terme $k$	$U_{2}$	$v_{k} = U_{2} - U_{1}$
1	0.7413	0
2	0.7792	0.0379
3	0.7479	0.00663
4	0.8500	0.1088
5	0.7513	0.0100

4. Interprétation

$v_{k} > 0$ : le terme est discriminant (sa suppression uniformise le corpus).
Plus $v_{k}$ est grand, meilleur est le pouvoir discriminant.

Classement des termes :
Terme 4 (0.1088) > Terme 2 (0.0379) > Terme 5 (0.0100) > Terme 3 (0.00663) > Terme 1 (0)

Le terme 4 est le plus utile pour distinguer les documents ; le terme 1 (constant) ne discrimine pas.

Exercice 3 — IF/IDF

Vrai 3jezet mala 9olt el AI yektob el 7al kach makayen clicki hna

Tableau des fréquences

Terme	D1	D2	D3	D4	D5
Algo	0	1	0	0	1
Informa	0	1	0	0	1
Programm	3	2	2	0	1
lang	1	0	1	1	0
fonct	0	0	1	1	1
const	1	0	0	0	0

Formules utilisées

TF (Term Frequency) :
$TF (t_{i}, d_{j}) = \frac{freq ( t _{i} , d _{j} )}{\sum _{t^{'} \in d_{j}} freq ( t ^{'} , d _{j} )}$ (fréquence normalisée par la longueur du document)
IDF (Inverse Document Frequency) :
$I D F (t_{i}) = lo g_{10} (\frac{N}{N _{t}}), N = 5$ avec (N_t) = nombre de documents contenant (t_i).
Poids :
$W (t_{i}, d_{j}) = TF (t_{i}, d_{j}) \times I D F (t_{i})$

Étape 1 : Somme des fréquences par document (dénominateur du TF)

On additionne toutes les fréquences de chaque document.

S_{D 1} S_{D 2} S_{D 3} S_{D 4} S_{D 5} = = = = = 0 + 0 + 3 + 1 + 0 + 1 = 5 1 + 1 + 2 + 0 + 0 + 0 = 4 0 + 0 + 2 + 1 + 1 + 0 = 4 0 + 0 + 0 + 1 + 1 + 0 = 2 1 + 1 + 1 + 0 + 1 + 0 = 4

Ces sommes servent à normaliser : un document long (D1) aura des TF plus faibles qu’un document court (D4) pour une même fréquence brute.

Étape 2 : Calcul de l’IDF pour chaque terme

On compte $N_{t}$ (documents où freq > 0) :

Terme	Documents contenant le terme	$N_{t}$	$5/ N_{t}$	IDF
Algo	D2, D5	2	2.5	0.39794
Informa	D2, D5	2	2.5	0.39794
Programm	D1, D2, D3, D5	4	1.25	0.09691
lang	D1, D3, D4	3	1.6667	0.22185
fonct	D3, D4, D5	3	1.6667	0.22185
const	D1	1	5	0.69897

L’IDF est d’autant plus grand que le terme est rare. « const » apparaît dans un seul document → IDF le plus élevé.

Étape 3 : Calcul du TF et du poids pour chaque document

Document D1 (somme = 5)

TF (Algo) TF (Informa) TF (Programm) TF (lang) TF (fonct) TF (const) = = = = = = 0/5 = 0 \Rightarrow W = 0 0 \Rightarrow W = 0 3/5 = 0.6 \Rightarrow W = 0.6 \times 0.09691 = 0.05815 1/5 = 0.2 \Rightarrow W = 0.2 \times 0.22185 = 0.04437 0 \Rightarrow W = 0 1/5 = 0.2 \Rightarrow W = 0.2 \times 0.69897 = 0.13979

Document D2 (somme = 4)

TF (Algo) TF (Informa) TF (Programm) TF (lang) TF (fonct) TF (const) = = = = = = 1/4 = 0.25 \Rightarrow W = 0.25 \times 0.39794 = 0.09949 1/4 = 0.25 \Rightarrow W = 0.09949 2/4 = 0.5 \Rightarrow W = 0.5 \times 0.09691 = 0.04846 0 \Rightarrow W = 0 0 \Rightarrow W = 0 0 \Rightarrow W = 0

Document D3 (somme = 4)

TF (Algo) TF (Informa) TF (Programm) TF (lang) TF (fonct) TF (const) = = = = = = 0 \Rightarrow W = 0 0 \Rightarrow W = 0 2/4 = 0.5 \Rightarrow W = 0.5 \times 0.09691 = 0.04846 1/4 = 0.25 \Rightarrow W = 0.25 \times 0.22185 = 0.05546 1/4 = 0.25 \Rightarrow W = 0.25 \times 0.22185 = 0.05546 0 \Rightarrow W = 0

Document D4 (somme = 2) – le plus court

TF (lang) TF (fonct) autres termes = = \Rightarrow 1/2 = 0.5 \Rightarrow W = 0.5 \times 0.22185 = 0.11093 1/2 = 0.5 \Rightarrow W = 0.5 \times 0.22185 = 0.11093 W = 0

Document D5 (somme = 4)

TF (Algo) TF (Informa) TF (Programm) TF (fonct) TF (lang) TF (const) = = = = = = 1/4 = 0.25 \Rightarrow W = 0.25 \times 0.39794 = 0.09949 0.25 \Rightarrow W = 0.09949 1/4 = 0.25 \Rightarrow W = 0.25 \times 0.09691 = 0.02423 1/4 = 0.25 \Rightarrow W = 0.25 \times 0.22185 = 0.05546 0 \Rightarrow W = 0 0 \Rightarrow W = 0

Étape 4 : Tableau récapitulatif des poids $W (t_{i}, d_{j})$

Terme	D1	D2	D3	D4	D5
Algo	0	0.09949	0	0	0.09949
Informa	0	0.09949	0	0	0.09949
Programm	0.05815	0.04846	0.04846	0	0.02423
lang	0.04437	0	0.05546	0.11093	0
fonct	0	0	0.05546	0.11093	0.05546
const	0.13979	0	0	0	0

Fih-Portal

Explorer

RITD2

Fiche:

Solution:

Exercice 1 — Loi de Zipf

Liste des termes unique:

Fréquence d’apparition de chaque terme

Vérification de la loi de Zipf

Graphique fréquence vs rang

Exercice 2 — Approche basée sur la discrimination

Données

1. Vecteur centroïde initial $V$

2. Uniformité initiale $U_{1}$

3. Suppression de chaque terme et calcul de $U_{2}$

Résultats numériques

4. Interprétation

Exercice 3 — IF/IDF

Tableau des fréquences

Formules utilisées

Étape 1 : Somme des fréquences par document (dénominateur du TF)

Étape 2 : Calcul de l’IDF pour chaque terme

Étape 3 : Calcul du TF et du poids pour chaque document

Document D1 (somme = 5)

Document D2 (somme = 4)

Document D3 (somme = 4)

Document D4 (somme = 2) – le plus court

Document D5 (somme = 4)

Étape 4 : Tableau récapitulatif des poids $W (t_{i}, d_{j})$

Graph View

Table of Contents

Backlinks

Fih-Portal

Explorer

RITD2

Fiche:

Solution:

Exercice 1 — Loi de Zipf

Liste des termes unique:

Fréquence d’apparition de chaque terme

Vérification de la loi de Zipf

Graphique fréquence vs rang

Exercice 2 — Approche basée sur la discrimination

Données

1. Vecteur centroïde initial V

2. Uniformité initiale U1​

3. Suppression de chaque terme et calcul de U2​

Résultats numériques

4. Interprétation

Exercice 3 — IF/IDF

Tableau des fréquences

Formules utilisées

Étape 1 : Somme des fréquences par document (dénominateur du TF)

Étape 2 : Calcul de l’IDF pour chaque terme

Étape 3 : Calcul du TF et du poids pour chaque document

Document D1 (somme = 5)

Document D2 (somme = 4)

Document D3 (somme = 4)

Document D4 (somme = 2) – le plus court

Document D5 (somme = 4)

Étape 4 : Tableau récapitulatif des poids W(ti​,dj​)

Graph View

Table of Contents

Backlinks

1. Vecteur centroïde initial $V$

2. Uniformité initiale $U_{1}$

3. Suppression de chaque terme et calcul de $U_{2}$

Étape 4 : Tableau récapitulatif des poids $W (t_{i}, d_{j})$