|
Cet article vise à fournir aux lecteurs un aperçu des règles de bases de recherche d'information. La compréhension de ces principes peuvent vous aider à optimiser le contenu de votre site web pour les moteurs de recherche et aussi vous aider à analyser les changements d'algorithme du moteur de recherche. Toutefois, les détails dans cet article ne visent pas à décrire comment les moteurs de recherche modernes de travail, car ils utilisent de nombreux autres facteurs, y compris l'analyse des liens. Information retrieval (IR) est la science de la recherche de documents ou au sein de documents. Techniques de recherche d'information sous forme certains des éléments les plus fondamentaux de la technologie de recherche web moteur. Cet article traitera de recherche d'information dans le contexte des moteurs de recherche. Indices Il n'est pas réaliste d'accéder à distance des documents en temps réel lorsque vous effectuez une recherche, car il serait extrêmement lent et peu fiable. Par conséquent, un indice local est créé, qui, pour les moteurs de recherche est effectuée par un robot d'exploration (alias Spider). Ainsi, lorsque vous effectuez une recherche, vous ne cherchent pas réellement le web, mais sont à la recherche d'une version du web comme on le voit et stockées par le robot d'exploration à un moment donné dans le passé. L'indice ne contiennent généralement l'ensemble du document (ce mai, toutefois, être stocké dans un cache de document distinct), mais stocke une représentation des termes pertinents pour le document qui est rapidement et aisément consultable. Il ya différentes étapes de ce processus (et non tous les systèmes devront englober chacune de ces étapes):
Après ces processus ont été réalisées, nous avons une liste de mots clés pour ce document particulier. Index terme de pondération Nous avons maintenant besoin de calculer dans quelle mesure un terme est pertinente pour un document particulier. Ce qui suit est un exemple d'un système de pondération:
Autres articles en mai comme un facteur dans la décision de poids, tels que: la position des termes dans le document, s'il est dans le titre, s'il est gras, si elle était dans une liste, ..., etc Reverse Index Nous avons maintenant une liste de termes (avec leur poids) pour un document donné. Toutefois, une liste des documents qui contiennent un mot particulier, serait beaucoup plus utile, plutôt que d'une liste de mots pour un document particulier. C'est ce qu'on appelle un indice inverse. Par exemple, si nous avions les trois documents suivants:
Puis termes de l'indice pour chaque document de mai s'établit comme suit (poids serait entre parenthèses):
Toutefois, l'indice inverse serait: file: Document1 (?), document2 (?), docuement3 (?) site web: Document1 (?), document2 (?) Recherche: Document1 (?) Moteur: Document1 (?) Optimisation: Document1 (?) Conception: document2 (?), Document3 (?) Tutoriel: document2 (?) sur mesure: Document3 (?) logiciel: Document3 (?) développement: Document3 (?) L'indice inverse nous permet ensuite de trouver facilement les documents pertinents pour un mot particulier Similarity Matching Il s'agit du processus de calcul de la pertinence d'un document à une requête particulière. Elle peut comprendre:
L'actualisation de l'index Les documents peuvent toujours changer, donc l'indice doit être constamment actualisé. Le robot d'exploration doit décider combien de fois à des documents réindexer particulier, fondé sur la manière dont ils sont souvent mis à jour. Si un document n'est pas mis à jour très souvent, alors il réindexation très souvent serait un gaspillage de ressources. Toutefois, les documents qui changent toujours besoin d'être continuellement ré-indexé mai comme ils ne sont plus pertinentes pour des termes qu'ils sont actuellement indexées pour. Mesurer la précision des systèmes IR Deux des moyens les plus simples pour évaluer la précision d'un système de base de recherche d'information sont la précision et le rappel. Ces montants sont calculés en utilisant le nombre de documents pertinents et le nombre de documents trouvés (les documents perçus comme pertinents par le système), les documents effectivement retourné à l'utilisateur sont ceux où ces deux séries de documents se chevauchent.
Les documents effectivement restitués à partir des documents récupérés fixés seront adoptées par une certaine forme de mécanisme de classement (discussion de cela est au-delà du champ d'application de cet article). En général, il s'agit d'un compromis entre la précision et de rappel, que l'augmentation du nombre de documents trouvés est susceptible d'augmenter également le nombre de documents non pertinents dans l'ensemble des documents récupérés. Web Search Engines Moteurs de recherche (comme Google, Yahoo et MSN) combinent généralement les techniques de recherche d'information à l'analyse de structure des liens, ainsi que de nombreuses autres techniques inconnues. De toute évidence, les techniques ci-dessus sont très facilement spammé, donc n'importe quel moteur de recherche utile serait inutile de chercher à filtrer les spams, si possible. |



















