Logo
Unionpédia
Communication
Disponible sur Google Play
Nouveau! Téléchargez Unionpédia sur votre appareil Android™!
Gratuit
Accès plus rapide que le navigateur!
 

Robot d'indexation

Indice Robot d'indexation

Architecture d'un robot d'indexation Un robot d'indexation (en anglais ou, littéralement araignée du Web) est un logiciel qui explore automatiquement le Web.

66 relations: Adresse électronique, AltaVista, Anglais, Apache Ant, Apache Software Foundation, Apple, Araneae, Aynid, Baidu, Bande passante, Bot informatique, C (langage), Calcul distribué, Clubic, DuckDuckGo, Exalead, GNU Wget, Google, Googlebot, Grep, Heritrix, HTTrack, Hyperlien, Image numérique, Indexation automatique de documents, Interface en ligne de commande, Internet, Internet Archive, Java (langage), LeMoteur, Licence Apache, Licence publique générale GNU, Linguistique, Logiciel, Logiciel libre, Lucene, Microsoft Bing, Microsoft Word, Moteur de recherche, MSN, Multimédia, Nutch, OpenSearchServer, Page web, PageRank, Portable Document Format, PostScript, Protocole d'exclusion des robots, Qwant, Récursivité, ..., Ressource du World Wide Web, Sémantique, Serveur web, Siri (logiciel), Spam, Spambot, Uniform Resource Locator, Unix, Vidéo, Web 2.0, Web profond, Web sémantique, WebCrawler, World Wide Web, YaCy, Yahoo!. Développer l'indice (16 plus) »

Adresse électronique

Une adresse électronique, adresse courriel ou adresse e-mail (de l'anglais) est une chaîne de caractères permettant d'acheminer du courrier électronique dans une boîte aux lettres électronique.

Nouveau!!: Robot d'indexation et Adresse électronique · Voir plus »

AltaVista

AltaVista ou Alta Vista (littéralement « vue haute » en espagnol) est un moteur de recherche du World Wide Web.

Nouveau!!: Robot d'indexation et AltaVista · Voir plus »

Anglais

vignette Langlais (prononcé) est une langue indo-européenne germanique originaire d'Angleterre qui tire ses racines de langues du nord de l'Europe (terre d'origine des Angles, des Saxons et des Frisons) dont le vocabulaire a été enrichi et la syntaxe et la grammaire modifiées par le français anglo-normandLe français anglo-normand est la forme insulaire du normand., apporté par les Normands, puis par le français avec les Plantagenêt. La langue anglaise est ainsi composée d'environ 29 % de mots d'origine normande et française et plus des deux tiers de son vocabulaire proviennent du français ou du latin. L'anglais est également très influencé par les langues romanes, en particulier par l'utilisation de l'alphabet latin ainsi que les chiffres arabes. Langue officielle de facto du Royaume-Uni, de l'Irlande et d'autres îles de l'archipel britannique (Île de Man, îles anglo-normandes), l'anglais est la langue maternelle de tout ou partie de la population, et suivant les cas, la langue ou une des langues officielles de plusieurs pays, totalement ou partiellement issus des anciennes colonies britanniques de peuplement, dont les États-Unis, le Canada, l'Australie et la Nouvelle-Zélande, que l'on réunit sous l'appellation de « monde anglo-saxon », bien qu'il n'existe pas de définition universelle de cette expression. Il est également langue officielle ou langue d'échange dans de très nombreux pays issus de l'ancien Empire britannique, même en l'absence de population d'origine anglo-saxonne significative (Cameroun, Kenya, Nigeria, Hong Kong, Inde, Pakistan, Singapour, etc.). Beaucoup de pays dont l'anglais est la langue officielle sont réunis au sein du Commonwealth (bien que pour certains, il ne soit pas l'unique langue officielle). C'est également l'une des vingt-quatre langues officielles de l'Union européenne et l'une des six langues officielles et des deux langues de travail — avec le français — de l'Organisation des Nations unies (ONU). L'anglais est la langue la plus parlée au monde; en tant que langue maternelle, il se classe troisième, après le chinois (mandarin) et l'espagnol. Considérée par beaucoup comme étant la langue internationale prédominante, elle est la langue la plus souvent enseignée en tant que langue étrangère à travers le monde. Elle est également la langue la plus utilisée sur Internet.

Nouveau!!: Robot d'indexation et Anglais · Voir plus »

Apache Ant

Ant est un logiciel créé par la fondation Apache qui vise à automatiser les opérations répétitives du développement de logiciel telles que la compilation, la génération de documents (Javadoc) ou l'archivage au format JAR, à l'instar des logiciels Make.

Nouveau!!: Robot d'indexation et Apache Ant · Voir plus »

Apache Software Foundation

LApache Software Foundation (ASF) est une organisation à but non lucratif qui développe des logiciels open source sous la licence Apache, dont le renommé serveur web Apache HTTP Server.

Nouveau!!: Robot d'indexation et Apache Software Foundation · Voir plus »

Apple

Apple Inc. (« pomme » en anglais) (anciennement Apple Computer, Inc.) est une entreprise multinationale américaine qui crée et commercialise des produits électroniques grand public, des ordinateurs personnels et des logiciels.

Nouveau!!: Robot d'indexation et Apple · Voir plus »

Araneae

Les araignées ou Aranéides (ordre des Araneae de la classe des Arachnides, à laquelle il a donné son nom) sont des arthropodes prédateurs.

Nouveau!!: Robot d'indexation et Araneae · Voir plus »

Aynid

Aynid est un moteur de recherche de shopping africain mis en ligne en 2014 en version bêta, et de façon officielle le.

Nouveau!!: Robot d'indexation et Aynid · Voir plus »

Baidu

Baidu est une entreprise Internet chinoise.

Nouveau!!: Robot d'indexation et Baidu · Voir plus »

Bande passante

En électronique, la bande passante d'un système est l'intervalle de fréquences dans lequel l'affaiblissement du signal est inférieur à une valeur spécifiée.

Nouveau!!: Robot d'indexation et Bande passante · Voir plus »

Bot informatique

Un bot informatique est un agent logiciel automatique ou semi-automatique qui interagit avec des serveurs informatiques.

Nouveau!!: Robot d'indexation et Bot informatique · Voir plus »

C (langage)

C est un langage de programmation impératif, généraliste et de bas niveau.

Nouveau!!: Robot d'indexation et C (langage) · Voir plus »

Calcul distribué

Un calcul distribué, ou réparti ou encore partagé, est un calcul ou un traitement réparti sur plusieurs microprocesseurs et plus généralement sur plusieurs unités centrales informatiques, et on parle alors d'architecture distribuée ou de système distribué.

Nouveau!!: Robot d'indexation et Calcul distribué · Voir plus »

Clubic

Clubic est un site web français détenu par la société M6 entre 2008 et mars 2018, puis redevenu indépendant le.

Nouveau!!: Robot d'indexation et Clubic · Voir plus »

DuckDuckGo

DuckDuckGo est un moteur de recherche américain qui vise à préserver la vie privée de ses utilisateurs et à leur éviter la bulle de filtres.

Nouveau!!: Robot d'indexation et DuckDuckGo · Voir plus »

Exalead

Exalead était une entreprise développant une solution logicielle créée en 2000 et spécialisée dans les infrastructures proposant des applications pour les entreprises sur une base de moteur de recherche.

Nouveau!!: Robot d'indexation et Exalead · Voir plus »

GNU Wget

Wget est un client HTTP, HTTPS et FTP développé en janvier 1996 par Hrvoje Nikšić puis maintenu par le projet GNU depuis février 1997.

Nouveau!!: Robot d'indexation et GNU Wget · Voir plus »

Google

Google LLC Prononciation en anglais américain retranscrite selon la norme API.

Nouveau!!: Robot d'indexation et Google · Voir plus »

Googlebot

Les googlebots sont des robots d'indexation utilisés par le moteur de recherche Google afin de recenser et indexer les pages web.

Nouveau!!: Robot d'indexation et Googlebot · Voir plus »

Grep

grep est un programme en ligne de commande de recherche de chaînes de caractères, initialement écrit pour UNIX par Ken Thompson, puis amélioré par l'utilisation de l'algorithme d'Aho-Corasick.

Nouveau!!: Robot d'indexation et Grep · Voir plus »

Heritrix

Heritrix est un robot d'indexation conçu et utilisé par Internet Archive pour l'archivage du web.

Nouveau!!: Robot d'indexation et Heritrix · Voir plus »

HTTrack

HTTrack est un logiciel permettant de copier un site web, aussi appelé « aspirateur de site Web ».

Nouveau!!: Robot d'indexation et HTTrack · Voir plus »

Hyperlien

Pointeur de souris en forme de main au-dessus d'un hyperlien « Wikipedia ». Un hyperlien ou lien hypertexte, est une référence placée dans le contenu d'un document électronique permettant de passer automatiquement d'un document consulté à un autre document ou à une autre partie du même document.

Nouveau!!: Robot d'indexation et Hyperlien · Voir plus »

Image numérique

L'appellation d'image numérique désigne toute image (dessin, icône, photographie…) acquise, créée, traitée et stockée sous forme binaire.

Nouveau!!: Robot d'indexation et Image numérique · Voir plus »

Indexation automatique de documents

L’indexation automatique de documents est un domaine de l'informatique et des sciences de l'information et des bibliothèques qui utilise des méthodes logicielles pour organiser un ensemble de documents et faciliter ultérieurement la recherche de contenu dans cette collection.

Nouveau!!: Robot d'indexation et Indexation automatique de documents · Voir plus »

Interface en ligne de commande

Bash sous Gentoo. Une interface en ligne de commande ou ILC (en anglais command line interface, couramment abrégé CLI) est une interface homme-machine dans laquelle la communication entre l'utilisateur et l'ordinateur s'effectue en mode texte.

Nouveau!!: Robot d'indexation et Interface en ligne de commande · Voir plus »

Internet

Nombre d'abonnements à Internet par accès fixe rapporté à la population, exprimé en pourcentage, par pays, en 2021. Visualisation des multiples chemins à travers une portion d'Internet. Internet est un réseau informatique mondial accessible au public.

Nouveau!!: Robot d'indexation et Internet · Voir plus »

Internet Archive

(ou IA) est un organisme à but non lucratif consacré à l’archivage du Web qui agit aussi comme bibliothèque numérique.

Nouveau!!: Robot d'indexation et Internet Archive · Voir plus »

Java (langage)

Java est un langage de programmation de haut niveau orienté objet créé par James Gosling et Patrick Naughton, employés de Sun Microsystems, avec le soutien de Bill Joy (cofondateur de Sun Microsystems en 1982), présenté officiellement le au.

Nouveau!!: Robot d'indexation et Java (langage) · Voir plus »

LeMoteur

LeMoteur est le moteur de recherche web francophone d'Orange.

Nouveau!!: Robot d'indexation et LeMoteur · Voir plus »

Licence Apache

La licence Apache est une licence de logiciel libre et open source.

Nouveau!!: Robot d'indexation et Licence Apache · Voir plus »

Licence publique générale GNU

La licence publique générale GNU, ou GNU General Public License (son seul nom officiel en anglais, communément abrégé GNU GPL, voire simplement « GPL »), est une licence qui fixe les conditions légales de distribution d'un logiciel libre du projet GNU.

Nouveau!!: Robot d'indexation et Licence publique générale GNU · Voir plus »

Linguistique

La linguistique est une discipline scientifique s’intéressant à l’étude du langage.

Nouveau!!: Robot d'indexation et Linguistique · Voir plus »

Logiciel

Démarche de construction d'un logiciel. En informatique, un logiciel est un ensemble de séquences d’instructions interprétables par une machine et d’un jeu de données nécessaires à ces opérations.

Nouveau!!: Robot d'indexation et Logiciel · Voir plus »

Logiciel libre

alt.

Nouveau!!: Robot d'indexation et Logiciel libre · Voir plus »

Lucene

Lucene est une bibliothèque open source écrite en Java qui permet d'indexer et de chercher du texte.

Nouveau!!: Robot d'indexation et Lucene · Voir plus »

Microsoft Bing

Microsoft Bing (anciennement Bing, Live Search, Windows Live Search et MSN Search), est un moteur de recherche élaboré par la société Microsoft.

Nouveau!!: Robot d'indexation et Microsoft Bing · Voir plus »

Microsoft Word

est un logiciel de traitement de texte publié par Microsoft.

Nouveau!!: Robot d'indexation et Microsoft Word · Voir plus »

Moteur de recherche

Capture d'écran d'une page de résultat de recherche Un moteur de recherche est une application permettant à un utilisateur d'effectuer une recherche locale ou en ligne, c'est-à-dire de trouver des ressources à partir d'une requête composée de termes.

Nouveau!!: Robot d'indexation et Moteur de recherche · Voir plus »

MSN

MSN (auparavant The Microsoft Network) est un portail web offrant des sites et services Internet fournis par Microsoft.

Nouveau!!: Robot d'indexation et MSN · Voir plus »

Multimédia

Exposition multimédia pour les deux cents ans de l'Arc de triomphe, à Paris. Le terme multimédia trouve ses origines au début du chez les surréalistes et le mouvement Bauhaus notamment.

Nouveau!!: Robot d'indexation et Multimédia · Voir plus »

Nutch

Nutch est une initiative visant à construire un moteur de recherche open source.

Nouveau!!: Robot d'indexation et Nutch · Voir plus »

OpenSearchServer

OpenSearchServer (OSS) est un serveur d’applications en open source permettant le développement d’applications reposant sur des index comme les moteurs de recherche.

Nouveau!!: Robot d'indexation et OpenSearchServer · Voir plus »

Page web

Capture d'écran montrant la présente page web en 2020. La page web, ou page Web.

Nouveau!!: Robot d'indexation et Page web · Voir plus »

PageRank

Illustration du PageRank. Le PageRankAntonomase du nom de marque inventé par Larry Page, cofondateur de Google, composé des mots anglais page (« page ») et rank (« rang »).

Nouveau!!: Robot d'indexation et PageRank · Voir plus »

Portable Document Format

Le, communément abrégé en PDF, est un langage de description de page présenté par la société Adobe Systems en 1992 et qui est devenu une norme ISO en 2008.

Nouveau!!: Robot d'indexation et Portable Document Format · Voir plus »

PostScript

PostScript est un langage de description de page mis au point par Adobe.

Nouveau!!: Robot d'indexation et PostScript · Voir plus »

Protocole d'exclusion des robots

Le protocole d'exclusion des robots souvent nommé robots.txt, est une ressource de format texte qui peut être placée à la racine d'un site web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d'indexation des moteurs de recherche.

Nouveau!!: Robot d'indexation et Protocole d'exclusion des robots · Voir plus »

Qwant

Qwant (prononciation) est un moteur de recherche français mis en ligne en février 2013.

Nouveau!!: Robot d'indexation et Qwant · Voir plus »

Récursivité

La récursivité est une démarche qui fait référence à l'objet même de la démarche à un moment du processus.

Nouveau!!: Robot d'indexation et Récursivité · Voir plus »

Ressource du World Wide Web

Logo Resource Description Framework RDF Une ressource du World Wide Web est un élément constitutif de base de l'architecture du World Wide Web.

Nouveau!!: Robot d'indexation et Ressource du World Wide Web · Voir plus »

Sémantique

La sémantique est une branche de la linguistique qui étudie les signifiés, ce dont on parle, ce que l'on veut transmettre par un énoncé, soit l'ensemble des processus concourant à la construction d'un sens dans la communication (langagière particulièrement).

Nouveau!!: Robot d'indexation et Sémantique · Voir plus »

Serveur web

Serveurs de la Fondation Wikimédia en 2012. Un serveur web est soit un logiciel de service de ressources web (serveur HTTP), soit un serveur informatique (ordinateur) qui répond à des requêtes du World Wide Web sur un réseau public (Internet) ou privé (intranet), en utilisant principalement le protocole HTTP.

Nouveau!!: Robot d'indexation et Serveur web · Voir plus »

Siri (logiciel)

Ancien logo de Siri sous iOS 7Siri est une intelligence artificielle, vocale, et un assistant virtuel, développée par Apple.

Nouveau!!: Robot d'indexation et Siri (logiciel) · Voir plus »

Spam

Boîte de réception infestée. Le spam, courriel indésirable ou pourriel est une communication électronique non sollicitée, en premier lieu via le courrier électronique.

Nouveau!!: Robot d'indexation et Spam · Voir plus »

Spambot

Un spambot est un bot informatique conçu pour assister ou envoyer du spam.

Nouveau!!: Robot d'indexation et Spambot · Voir plus »

Uniform Resource Locator

Une URL (sigle de l’Uniform Resource Locator, littéralement « localisateur uniforme de ressource »), couramment appelée adresse web, est une chaîne de caractères uniforme qui permet d'identifier une ressource du World Wide Web par son emplacement et de préciser le protocole internet pour la récupérer (par exemple http ou https).

Nouveau!!: Robot d'indexation et Uniform Resource Locator · Voir plus »

Unix

Unix, officiellement UNIX, est une famille de systèmes d'exploitation multitâche et multi-utilisateur dérivé de l'Unix d'origine créé par AT&T, le développement de ce dernier ayant commencé dans les années 1970 au centre de recherche de Bell Labs mené par Kenneth Thompson.

Nouveau!!: Robot d'indexation et Unix · Voir plus »

Vidéo

Réalisateur vidéo Le terme vidéo désigne à la fois l'ensemble des techniques permettant la constitution d'un signal électrique représentant des images animées et la restitution de celles-ci ainsi que ce signal lui-même.

Nouveau!!: Robot d'indexation et Vidéo · Voir plus »

Web 2.0

Cartographie sensible du Web 2.0 Le Web 2.0, quelquefois appelé Web participatif, désigne l'ensemble des techniques, des fonctionnalités et des usages qui ont suivi la forme originelle du Web, www ou World Wide WebLe Monde informatique,.

Nouveau!!: Robot d'indexation et Web 2.0 · Voir plus »

Web profond

Le web profondTerme recommandé depuis 2019 au Québec, cf.

Nouveau!!: Robot d'indexation et Web profond · Voir plus »

Web sémantique

Logo du W3C pour le Web sémantique Le Web sémantique, ou toile sémantique.

Nouveau!!: Robot d'indexation et Web sémantique · Voir plus »

WebCrawler

WebCrawler est un métamoteur qui rassemble les meilleurs résultats d'autres moteurs de recherche, dont Google, Yahoo!, Bing, Ask.com.

Nouveau!!: Robot d'indexation et WebCrawler · Voir plus »

World Wide Web

Logo historique du World Wide Web par Robert Cailliau. ''World Wide Web'' dans les locaux du CERN. Le World Wide Web (Prononciation en anglais britannique retranscrite selon la norme API.; littéralement la « toile (d’araignée) mondiale », abrégé WWW ou le Web), la toile mondiale ou la toile, legifrance.gouv.fr, JORF du, consulté le, est un système hypertexte public fonctionnant sur Internet.

Nouveau!!: Robot d'indexation et World Wide Web · Voir plus »

YaCy

YaCy (pour Yet Another Cyberspace, homophone anglais de ya see (vous voyez)) est un moteur de recherche libre fonctionnant selon le principe d'un réseau pair à pair.

Nouveau!!: Robot d'indexation et YaCy · Voir plus »

Yahoo!

Yahoo! est une société américaine de services web créée en 1994, appartenant, entre 2017 et 2021 à Verizon Media et, désormais, à Apollo Global Management.

Nouveau!!: Robot d'indexation et Yahoo! · Voir plus »

Redirections ici:

Bot référenceur, Indexation Web, Indexation web, Robots d'indexation, Web crawl.

SortantEntrants
Hey! Nous sommes sur Facebook maintenant! »