|
Chacun de nous a dû faire face au problème de recherche d'informations plus d'une fois. Quelle que soit la source de données que nous utilisons (Internet, système de fichiers sur notre disque dur, base de données ou un système mondial d'information d'une grande entreprise), les problèmes peuvent être multiples et comprennent le volume physique de la base de données de la recherche, l'information étant non structurées , les types de fichiers différents et aussi la complexité de précision la formulation de la requête de recherche. Nous avons déjà atteint le stade où la quantité de données sur un seul PC est comparable à la quantité de données de texte stocké dans une bibliothèque adéquate. Et comme les flux de données non structurées, à l'avenir, ils vont seulement à augmenter et à un tempo très rapide. Si pour un utilisateur moyen, cela pourrait être juste un mal mineur, pour une absence grande entreprise de contrôle sur l'information peut se traduire par des problèmes importants. Ainsi, la nécessité de créer des systèmes de technologies de recherche et la simplification et l'accélération de l'accès aux informations nécessaires, est née il ya longtemps. Ces systèmes sont d'ailleurs pas nombreux et chacun d'eux est basé sur une technologie unique. Et la tâche de choisir celui qui convient dépend directement des tâches spécifiques devant être résolus dans l'avenir. Bien que la demande pour les données de la recherche et parfaite des outils de traitement est en augmentation constante Examinons l'état des affaires avec l'offre. Ne pas aller profondément dans les diverses particularités de la technologie, tous les programmes de recherche et les systèmes peuvent être divisés en trois groupes. Ce sont: les systèmes Internet mondial, les solutions d'affaires clés en main (données de l'entreprise de recherche et les technologies de transformation) et phrasal simple ou de recherche de fichiers sur un ordinateur local. Différentes directions faut probablement entendre des solutions différentes. Recherche locale Tout est clair sur la recherche sur un PC local. Ce n'est pas pour les autres fonctions remarquables fonctionnalités particulier la réception du choix du type de fichier (médias, texte, etc) et la destination de recherche. Il suffit d'entrer le nom du fichier recherché (ou une partie de texte, par exemple au format Word) et c'est tout. La vitesse et le résultat dépend entièrement sur le texte entré dans la ligne de requête. Il est égal à zéro dans cette intellectualité: cherchons simplement à travers les fichiers disponibles pour définir leur pertinence. Ceci est explicable dans son sens: quelle est l'utilité de créer un système sophistiqué de ces besoins simples. Les technologies de recherche mondial État actuel des choses totalement différentes avec des systèmes de recherche opérant dans le réseau mondial. On ne peut pas simplement se fier en regardant à travers les données disponibles. Grand volume (Yandex, par exemple, peut se vanter la capacité d'indexation de plus de 11 téraoctets de données) du chaos mondial de l'information non structurée fera la recherche simple, non seulement inefficace mais aussi à long et main d'oeuvre considérable. C'est pourquoi, dernièrement, la priorité s'est déplacée vers l'optimisation et l'amélioration des caractéristiques qualitatives de recherche. Mais le régime est encore très simple (sauf pour les innovations secret de chaque système séparé) - la recherche phrasal à travers la base de données indexée tenant dûment compte de la morphologie et de synonymes. Sans aucun doute, une telle approche fonctionne mais ne résout pas le problème complètement. La lecture des dizaines de divers articles consacrés à l'amélioration de la recherche avec l'aide de Google ou Yandex, on peut conduire à la conclusion que, sans connaître les possibilités cachées de ces systèmes de trouver un document pertinent par la requête est une question de plus d'une minute, et parfois plus d'une heure. Le problème est que cette prise de conscience de la recherche est très dépendante de requête sur le mot ou la phrase, est entré par l'utilisateur. Le plus indistincte la requête le pire c'est la recherche. C'est devenu un axiome, ou un dogme, celui que vous préférez. Bien sûr, en utilisant intelligemment les fonctions clés des systèmes de recherche et la définition correcte de la phrase par laquelle les documents et les sites sont recherchées, il est possible d'obtenir des résultats acceptables. Mais ce serait le résultat d'un travail laborieux, mental et le temps perdu à regarder à travers l'information non pertinente avec un espoir à au moins trouver quelques indices sur la façon d'améliorer la requête de recherche. En général, le régime est la suivante: introduire le membre de phrase, regarder à travers plusieurs résultats, en vous assurant que la requête n'était pas la bonne, entrez une nouvelle phrase et les étapes sont répétées jusqu'à ce que la pertinence des résultats obtenu le meilleur niveau possible. Mais même dans ce cas les chances de trouver le bon document sont encore peu nombreux. Aucun utilisateur moyen sera volontaire aller pour le raffinement de "recherche avancée" (mais elle est équipée avec un certain nombre de fonctions très utiles telles que le choix de la langue, format de fichiers, etc). Le mieux serait d'insérer simplement le mot ou une expression et obtenir une réponse toute prête, sans souci particulier pour les moyens de l'obtenir. Laissez le cheval pense - il a une grosse tête. Ce n'est peut être pas exactement à la pointe, mais l'une des fonctions de recherche Google est appelé "I am feeling lucky!" Caractérise très bien les technologies existantes de la recherche. Néanmoins, la technologie fonctionne, pas de façon optimale et ne pas toujours justifier les espoirs, mais si vous tenez compte de la complexité de la recherche à travers le chaos du volume de données Internet, elle pourrait être acceptable. Corporate Systems Le troisième sur la liste sont les solutions clés en main basées sur les technologies de recherche. Ils sont destinés aux entreprises sérieuses et des sociétés, qui possèdent des bases de données vraiment importantes et doté de toutes sortes de systèmes d'information et de documents. En principe, les technologies elles-mêmes peuvent aussi être utilisés pour les besoins de la maison. Par exemple, un programmeur travaillant à distance de l'Office en fera bon usage de la recherche à accès aléatoire situé sur le disque dur de ses codes source du programme. Mais ce sont des détails. La principale application de cette technologie est encore résoudre le problème de rechercher rapidement et avec précision grâce à des volumes de données volumineux et de travailler avec diverses sources d'information. Ces systèmes fonctionnent généralement par un régime très simple (bien qu'il existe certainement de nombreuses méthodes uniques d'indexation et de traitement des requêtes sous la surface): recherche phrasal, tenant dûment compte de toutes les formes souches, des synonymes, etc, qui une fois de plus nous conduit au problème des ressources humaines. Lorsque vous utilisez la technologie, l'utilisateur doit le premier mot des phrases de recherche qui vont être les critères de recherche et, vraisemblablement, a rencontré dans les documents nécessaires pour être récupérées. Mais il n'y a aucune garantie que l'utilisateur sera en mesure de choisir en toute indépendance ou de se rappeler la phrase correcte et de plus, que la recherche par cette phrase sera satisfaisant. One more moment clé est la vitesse de traitement d'une requête. Bien sûr, lorsque vous utilisez le document en entier au lieu d'un couple de mots, de l'exactitude des augmentations de recherche multiples. Mais jusqu'à ce jour, une telle possibilité n'a pas été utilisée en raison de l'exode à grande capacité d'un tel processus. Le point est que la recherche par des mots ou des expressions ne nous fournissent avec une ressemblance très pertinente des résultats. Et la recherche par phrase égale dans sa longueur, le document entier consomme beaucoup de temps et des ressources informatiques. Voici un exemple: lors du traitement de la requête d'un mot il n'ya pas de différence considérable dans la vitesse: que ce soit 0,1 ou deuxième 0001 n'est pas d'une importance cruciale pour l'utilisateur. Mais quand vous prenez un document de taille moyenne qui contient environ 2000 mots unique, alors la recherche en considération pour la morphologie (formes souches) et thésaurus (synonymes), ainsi que de générer une liste pertinente des résultats en cas de recherche par mots-clés se plusieurs dizaines de minutes (ce qui est inacceptable pour un utilisateur). La synthèse provisoire Comme nous pouvons le voir, actuellement les systèmes existants et les technologies de recherche, même si elle fonctionne correctement, ne résolvent pas le problème de la recherche complètement. Où la vitesse est acceptable de la pertinence laisse plus à désirer. Si la recherche est précise et adéquate, il consomme beaucoup de temps et de ressources. Il est bien sûr possible de résoudre le problème d'une manière très évidente - en augmentant la capacité des ordinateurs. Mais équiper le bureau avec des dizaines d'ordinateurs à ultra-rapide qui sera constamment traiter les demandes phrasal composé de milliers de mots uniques, qui ont traversé une giga-octets de la correspondance reçue, la littérature technique, les rapports finaux et d'autres renseignements plus irrationnel et désavantageux. Il ya une meilleure façon. La recherche unique du contenu similaire À présent beaucoup d'entreprises travaillant intensivement sur le développement de recherche en texte intégral. Les vitesses de calcul permettent de créer des technologies qui permettent les requêtes dans différents exposants et large éventail de conditions supplémentaires. L'expérience dans la création de recherche phrasal offre à ces entreprises une expertise pour développer et perfectionner la technologie de recherche. En particulier, l'une des recherches les plus populaires est le système Google, et notamment l'un de ses fonctions appelées les «Pages similaires». En utilisant cette fonction permet à l'utilisateur de visualiser les pages de similitude maximale dans leur contenu à celui de l'échantillon. Fonctionnement, en principe, cette fonction ne permet pas encore à obtenir des résultats pertinents - ils sont souvent vagues et de la pertinence de faible et, en outre, en utilisant parfois cette fonction montre l'absence complète de pages similaires à un résultat. Très probablement, il s'agit du résultat de la nature chaotique et non structurées de l'information dans l'Internet. Mais une fois que le précédent a été créé, l'avènement de la recherche de la perfection sans anicroche n'est qu'une question de temps. Ce qui concerne le traitement des données d'entreprise et systèmes d'extraction de connaissances, ici l'état actuel des choses bien pires. Le fonctionnement (qui n'existe pas sur le papier) les technologies sont très peu nombreux. Et pas de géant ou ce qu'on appelle le gourou de la technologie de recherche a jusqu'ici réussi à créer une vraie recherche du contenu similaire. Peut-être, la raison en est que ce n'est pas désespérément besoin, peut-être - trop difficiles à implémenter. Mais il ya un fonctionnement one though. SoftInform Search Technology, développé par SoftInform, est la technologie de recherche de documents similaires dans leur contenu à l'échantillon. Il permet une recherche rapide et précis pour les documents d'un même contenu dans un volume quelconque de données. La technologie est basée sur le modèle mathématique de l'analyse de la structure du document et en sélectionnant des mots, des combinaisons de mots et de tableaux de texte, ce qui entraîne la formation d'une liste de documents de similitude maximale du texte à l'exemple de résumé pour cent de pertinence définis. Contrairement à la recherche phrasal norme par la recherche de contenu semblable il n'est pas nécessaire pour déterminer les mots clés à l'avance - la recherche est menée à travers tout le document. La technologie fonctionne avec plusieurs sources de renseignements qui peuvent être stockées à la fois dans les fichiers texte de txt, doc, rtf, pdf, htm, les formats HTML, et les systèmes d'information des bases de données les plus populaires (Access, MS SQL, Oracle, ainsi que toute SQL supportant les bases de données). Il a également supporte en outre les synonymes et mots d'importantes fonctions qui permettent d'effectuer une recherche plus spécifique. La technologie de recherche similaire permet de réduire considérablement les pertes de temps sur la recherche et l'examen des identiques ou très similaires de documents, de diminuer le temps de traitement au stade de l'intégration des données dans l'archive en évitant les documents en double et en formant des ensembles de données par un certain sujet. Un autre avantage de la technologie SoftInform est que ce n'est pas si sensible à la capacité des ordinateurs et permet le traitement des données à une vitesse très élevée, même sur les ordinateurs de bureau ordinaires. Cette technologie n'est pas seulement un développement théorique. Il a été testé et appliqué avec succès dans un projet de donner des conseils juridiques par téléphone, où la vitesse de récupération de l'information est d'une importance cruciale. Et il sera sans doute plus utiles dans n'importe quelle base de connaissances, de services analytiques et ministère de l'appui d'une grande entreprise. L'universalité et l'efficacité de la technologie Recherche SoftInform permet de résoudre un large éventail de problèmes, tandis que les informations découlant de transformation. Il s'agit notamment du flou de l'information (le document à l'entrée stade, il est possible de définir immédiatement si un tel document appartient déjà à la base de données ou non) et l'analyse de la similitude des documents qui sont déjà entrés dans la base de données, et la recherche sémantiquement des documents similaires pour ce qui économise le temps consacré à la sélection des mots clés appropriés et le visionnement des documents non pertinents. Perspectives Outre sa mission primaire (recherche rapide et de haute qualité pour les renseignements concernant le volume d'énormes tels que textes, archives, bases de données) une direction Internet pourrait également être définies. Par exemple, il est possible d'élaborer un système expert pour le traitement du courrier entrant et des nouvelles qui deviendra un outil important pour les analystes de différentes entreprises. Principalement, ce sera possible grâce à la technologie unique de contenu Recherche similaires, en l'absence de l'un des systèmes existants à ce jour à l'exception des SearchInform. Le problème du spamming moteurs de recherche avec les portes dites (pages avec des mots clés cachés redirigeant vers les pages principales du site et utilisés pour augmenter la cote de page avec les moteurs de recherche) et le problème du spam e-mail (une analyse plus intellectuelle assurer une meilleure niveau de sécurité) devraient également être résolu avec l'aide de cette technologie. Mais la perspective la plus intéressante de la technologie de recherche SoftInform est la création d'un nouveau moteur de recherche Internet, le principal avantage concurrentiel de ce qui serait aptitude à rechercher non seulement par des mots clés, mais aussi pour les pages web similaires, ce qui ajoutera à la flexibilité d'une recherche la rendre plus confortable et efficace. Pour tirer une conclusion, on peut affirmer avec confiance que l'avenir appartient aux technologies texte intégral de recherche, tant dans l'Internet et les systèmes de recherche d'entreprise. Unlimited potentiel de développement, de la pertinence des résultats et la vitesse de traitement de n'importe quelle taille de requête de rendre cette technologie bien plus confortable et très en demande. SoftInform technologie de recherche pourrait ne pas être le pionnier, mais c'est un fonctionnement stable et une uniques n'ayant pas d'analogues existant (qui peut être prouvé par le brevet eurasien active). À mon avis, même avec l'aide de la recherche "similaire" il sera difficile de trouver une technologie similaire. |



















