Introduction to Information Retrieval-Moteurs de recherche




 

Cet article vise à fournir aux lecteurs un aperçu des règles de bases de recherche d'information. La compréhension de ces principes peuvent vous aider à optimiser le contenu de votre site web pour les moteurs de recherche et aussi vous aider à analyser les changements d'algorithme du moteur de recherche. Toutefois, les détails dans cet article ne visent pas à décrire comment les moteurs de recherche modernes de travail, car ils utilisent de nombreux autres facteurs, y compris l'analyse des liens.

Information retrieval (IR) est la science de la recherche de documents ou au sein de documents. Techniques de recherche d'information sous forme certains des éléments les plus fondamentaux de la technologie de recherche web moteur. Cet article traitera de recherche d'information dans le contexte des moteurs de recherche.

Indices

Il n'est pas réaliste d'accéder à distance des documents en temps réel lorsque vous effectuez une recherche, car il serait extrêmement lent et peu fiable. Par conséquent, un indice local est créé, qui, pour les moteurs de recherche est effectuée par un robot d'exploration (alias Spider). Ainsi, lorsque vous effectuez une recherche, vous ne cherchent pas réellement le web, mais sont à la recherche d'une version du web comme on le voit et stockées par le robot d'exploration à un moment donné dans le passé.

L'indice ne contiennent généralement l'ensemble du document (ce mai, toutefois, être stocké dans un cache de document distinct), mais stocke une représentation des termes pertinents pour le document qui est rapidement et aisément consultable. Il ya différentes étapes de ce processus (et non tous les systèmes devront englober chacune de ces étapes):

  1. Document
    C'est le document dans son format brut avec l'ensemble du texte, la structure et le formatage.
  2. Structure Analysis
    Reconnaissant les titres, paragraphes, titres, texte en gras, les listes, ..., etc
  3. Analyse lexicale
    Convertir les caractères dans le document dans une liste de mots. Ce processus mai comprennent l'analyse des chiffres, des traits d'union, la ponctuation et la casse des lettres. Proper Noun analyse peut utiliser le boîtier et le format des mots / phrases pour identifier des informations importantes comme les noms, lieux, dates et organisations.
  4. Suppression des mots vides
    La suppression de mots qui se produisent très souvent et ne fournissent aucune capacité de discrimination entre les documents. Par exemple: «le», «il», «est». Toutefois, on peut constater que certains moteurs de recherche laisser ces mots dans l'index et retirez-les au niveau de la requête utilisateur. Cela permet "+ mot" dans les requêtes à exécuter.
  5. Endiguer
    Il s'agit d'une procédure d'amalgame qui réduit les variations d'un mot dans une racine unique. Par exemple, à la fois «travaillé» et «travailler» mai être réduite à un «travail». Le Porter Stemming algorithme peut être utilisé pour effectuer stemming.

Après ces processus ont été réalisées, nous avons une liste de mots clés pour ce document particulier.

Index terme de pondération

Nous avons maintenant besoin de calculer dans quelle mesure un terme est pertinente pour un document particulier. Ce qui suit est un exemple d'un système de pondération:

  • Index terme de fréquence
    C'est la fréquence d'un terme dans un document. La fréquence est généralement normalisé dans le document en particulier:
    TermFrequency terme (,) = document (n ° occurrences du terme dans le document) / (nbre de survenance terme avec des occurrences max dans le document)
  • Inverse Document Frequency
    L'inverse de la fréquence d'un terme entre tous les documents dans l'ensemble. Termes qui apparaissent dans de nombreux documents ne sont pas très utiles, car elles ne nous permettent pas de distinguer entre les documents.
    IDF (terme) = log ([no. Documents de la collection] / [no. Contenant des documents de la collection terme])
  • Poids
    C'est le poids réel terme d'index pour un terme donné dans un document particulier:
    Poids (terme) document = TermFrequency (terme), document * IDF (durée)

Autres articles en mai comme un facteur dans la décision de poids, tels que: la position des termes dans le document, s'il est dans le titre, s'il est gras, si elle était dans une liste, ..., etc

Reverse Index

Nous avons maintenant une liste de termes (avec leur poids) pour un document donné. Toutefois, une liste des documents qui contiennent un mot particulier, serait beaucoup plus utile, plutôt que d'une liste de mots pour un document particulier. C'est ce qu'on appelle un indice inverse.

Par exemple, si nous avions les trois documents suivants:

  1. Il s'agit d'un dossier sur le site Web d'optimisation des moteurs de recherche
  2. Une conception de site Web fichier du didacticiel
  3. Un dossier sur la conception et le développement logiciel sur mesure

Puis termes de l'indice pour chaque document de mai s'établit comme suit (poids serait entre parenthèses):

  1. fichier (?), site (?), recherche (?), le moteur (?), optimisation (?)
  2. Site Web (?), la conception (?), tutorial (?), fichier (?)
  3. fichier (?), sur mesure (?), le logiciel (?), la conception (?), le développement (?)

Toutefois, l'indice inverse serait:

file: Document1 (?), document2 (?), docuement3 (?)

site web:

Document1 (?), document2 (?)

Recherche:

Document1 (?)

Moteur:

Document1 (?)

Optimisation:

Document1 (?)

Conception:

document2 (?), Document3 (?)

Tutoriel:

document2 (?)

sur mesure:

Document3 (?)

logiciel:

Document3 (?)

développement:

Document3 (?)

L'indice inverse nous permet ensuite de trouver facilement les documents pertinents pour un mot particulier

Similarity Matching

Il s'agit du processus de calcul de la pertinence d'un document à une requête particulière. Elle peut comprendre:

  • Un terme de requête Pondération
    Applique une pondération à chaque terme dans une requête. Par exemple, les termes au début d'une requête mai avoir plus de poids.
  • Coefficient de similarité
    Utilise le terme de requête poids et poids concept de document pour calculer la similarité entre une requête et un document. La similitude pourrait être calculé en utilisant le modèle vectoriel et le calcul du coefficient de cosinus (ce ne sera pas examiné ici).

L'actualisation de l'index

Les documents peuvent toujours changer, donc l'indice doit être constamment actualisé. Le robot d'exploration doit décider combien de fois à des documents réindexer particulier, fondé sur la manière dont ils sont souvent mis à jour. Si un document n'est pas mis à jour très souvent, alors il réindexation très souvent serait un gaspillage de ressources. Toutefois, les documents qui changent toujours besoin d'être continuellement ré-indexé mai comme ils ne sont plus pertinentes pour des termes qu'ils sont actuellement indexées pour.

Mesurer la précision des systèmes IR

Deux des moyens les plus simples pour évaluer la précision d'un système de base de recherche d'information sont la précision et le rappel. Ces montants sont calculés en utilisant le nombre de documents pertinents et le nombre de documents trouvés (les documents perçus comme pertinents par le système), les documents effectivement retourné à l'utilisateur sont ceux où ces deux séries de documents se chevauchent.

  • Precision
    Ratio du no. les documents pertinents retournés au nombre total de documents trouvés - c'est à dire le nombre de retour de documents qui sont pertinents.
  • Rappel
    Ratio du no. les documents pertinents retournés au nombre total de documents pertinents - à savoir le nombre de documents pertinents qui sont retournées.

Les documents effectivement restitués à partir des documents récupérés fixés seront adoptées par une certaine forme de mécanisme de classement (discussion de cela est au-delà du champ d'application de cet article).

En général, il s'agit d'un compromis entre la précision et de rappel, que l'augmentation du nombre de documents trouvés est susceptible d'augmenter également le nombre de documents non pertinents dans l'ensemble des documents récupérés.

Web Search Engines

Moteurs de recherche (comme Google, Yahoo et MSN) combinent généralement les techniques de recherche d'information à l'analyse de structure des liens, ainsi que de nombreuses autres techniques inconnues. De toute évidence, les techniques ci-dessus sont très facilement spammé, donc n'importe quel moteur de recherche utile serait inutile de chercher à filtrer les spams, si possible.

 
Trouver un poste de travail à la maisonDevrait non-entrepreneurs Internet donnent des conseils aux entreprises nouvelles en ligne?Web Hosting - Ce qu'il faut rechercher?Faites-vous partie des 90% affectés par le spyware ou adware?Les moyens d'accroître Dirige et de taux de conversionLa bonne manière d'utiliser Free Traffic ExchangesTips For Successful sur l'optimisation des pagesWeb Site Promotion AustralieVotre Signature File - Give It Some LoveTout pour le client - L'un à votre arrivée StorefrontEbay Profits - Rendre l'argent sur eBayBuilding List-Comment organiser le tout Lead Generation CampaignLow Cost Web Hosting3 trucs pour choisir un marché de nicheCapture de toutes vos affaires locales avec la SEOSEO Tools - What's In et What's HotSEO - Les composantes d'un plan d'affairesExciting and Creative Marketing Tips For Your WebsiteMaking Money On The Internet n'est pas facileGoogle Nouvelle demande de brevet - Panneaux d'affichage numérique

© 2007-2012 Geocitoyen.com