http(s)://reyesr.github.io/webschool-tours-S08E05-moteurs-de-recherche
Présentation destinée à l'édification personnelle
Trouver les documents pertinents qui correspondent à la requête
Doc1 → | mot1, mot2, mot3, ... |
Doc2 → | mot2, mot4, mot5, ... |
Mot1 → | Doc1, Doc45, Doc76, ... |
Mot2 → | Doc1, Doc2, Doc18, ... |
Doc1 | Le, chat, a, miaulé, dans, la, grange |
Doc2 | Félix, le, chat, repartira, demain |
Normalisation du texte: minuscule sans accent
Doc1 | le, chat, a, miaule, dans, la, grange |
Doc2 | felix, le, chat, repartira, demain |
minuscule sans accent
+ lemmatisation (lemme = forme canonique, «neutre»)
Doc1 | le, chat, avoir, miauler, dans, le, grange |
Doc2 | felix, le, chat, repartir, demain |
1 terme = 1 ensemble de documents
Le résultat est l'intersection des ensembles
1 terme = 1 ensemble de documents
On attribue un total de scores à chaque document
Le résultat est la liste des documents triés par leur score
Calcul le taux de faux positifs (documents non-pertinents retournés)
Précision = | Nombre de résultats pertinents retournés |
Nombre total de résultats retournés |
Calcul le taux de faux négatifs (documents pertinents ratés)
Rappel = | Nombre de résultats pertinents retournés |
Nombre total de résultats pertinents dans la base |
minuscule, effacement des diacritiques, lemmatisation
→ Bonne précision, rappel bas
normalisation phonétique, racinisation
→ Précision basse, bon rappel
Demain, les élèves mangeront des frites.
Demain les élèves mangeront des frites
demain un eleve manger un frite
Doc1 | Regarde, ces seaux débordent
[casse+diac] regarde ces seaux debordent [stemming] regard un seau debord [phonet.] røgard ce so debɔrd |
Doc2 | Ce sot me gave
[casse+diac] ce sot me gave [stemming.] ce sot m gav [phonet.] cø so mø gav |
seau - sot - sceau
regardons ce gavage
il me gave
|
|
|
|
etc etc
Une function heuristique pondérant une grande variétés de paramètres