Votre propre Unionpédia avec votre logo et votre domaine, à partir de 9,99 USD/mois

Algorithmique du texte

L'algorithmique du texte est le domaine de l'algorithmique dans lequel les objets à traiter sont des textes, c'est-à-dire des chaînes de caractères ou suites de symboles.

Table des matières

54 relations: Algorithme d'Aho-Corasick, Algorithme de Baeza-Yates-Gonnet, Algorithme de Boyer-Moore, Algorithme de Boyer-Moore-Horspool, Algorithme de Knuth-Morris-Pratt, Algorithme de Needleman-Wunsch, Algorithme de Rabin-Karp, Algorithme de recherche de sous-chaîne, Algorithme de Smith-Waterman, Algorithme de tri, Algorithme phonétique, Algorithmique, Alignement de séquences, Analyse d'image, Analyse musicale, Analyse syntaxique, Arbre des suffixes, Automate fini, Base de données, Basic Local Alignment Search Tool, Bio-informatique, Chaîne de caractères, Combinatoire des mots, Compression de données, Cryptographie, Dan Gusfield, Détection du plagiat, Distance (mathématiques), Distance de Damerau-Levenshtein, Distance de Hamming, Distance de Jaro-Winkler, Distance de Levenshtein, Distance de Manhattan, Distance de Tchebychev, Espace euclidien, Exploration de données, Fouille de textes, Grep, Langage naturel, Maxime Crochemore, Mesure de similarité, Plus courte super-séquence commune, Plus longue sous-chaîne commune, Plus longue sous-séquence commune, Recherche approximative, Séquence biologique, Similarité cosinus, Soundex, Tatouage numérique, TF-IDF, ... Développer l'indice (4 plus) » « Compacter l'indice

Algorithme d'Aho-Corasick

L'algorithme d'Aho-Corasick est un algorithme de recherche de chaîne de caractères (ou motif) dans un texte dû à Alfred Aho et Margaret Corasick et publié en 1975.

Voir Algorithmique du texte et Algorithme d'Aho-Corasick

Algorithme de Baeza-Yates-Gonnet

L'algorithme de Baeza-Yates-Gonnet plus connu sous le nom de Shift-Or ou encore Bitap est un algorithme de recherche de sous-chaîne.

Voir Algorithmique du texte et Algorithme de Baeza-Yates-Gonnet

En informatique, plus précisément en algorithmique, l'algorithme de Boyer-Moore est un algorithme de recherche de sous-chaîne particulièrement efficace, qui est utilisé comme référence avec lequel on compare d'autres algorithmes quand on réalise des expériences de recherche de sous-chaîne.

Voir Algorithmique du texte et Algorithme de Boyer-Moore

Algorithme de Boyer-Moore-Horspool

Illustration de la recherche de la sous-chaîne "long des" dans la première strophe du poème Chanson d'automne de Paul Verlaine. L'algorithme de Boyer-Moore-Horspool, parfois appelé algorithme de Horspool est un algorithme de recherche de sous-chaîne publié par Nigel Horspool en 1980.

Voir Algorithmique du texte et Algorithme de Boyer-Moore-Horspool

Algorithme de Knuth-Morris-Pratt

L'algorithme de Knuth-Morris-Pratt (ou d'une manière plus courte lalgorithme KMP) est un algorithme de recherche de sous-chaîne (de caractères), permettant de trouver les occurrences d'une chaîne P dans un texte S avec une complexité linéaire O(|P| + |S|) dans le pire cas.

Voir Algorithmique du texte et Algorithme de Knuth-Morris-Pratt

Algorithme de Needleman-Wunsch

L'algorithme de Needleman-Wunsch est un algorithme qui effectue un alignement global maximal de deux chaînes de caractères.

Voir Algorithmique du texte et Algorithme de Needleman-Wunsch

Algorithme de Rabin-Karp

L’algorithme de Rabin-Karp ou algorithme de Karp-Rabin est un algorithme de recherche de sous-chaîne créé par Richard M. Karp et Michael O. Rabin (1987).

Voir Algorithmique du texte et Algorithme de Rabin-Karp

Algorithme de recherche de sous-chaîne

Illustration de la recherche de la sous-chaîne "long des" dans la première strophe du poème Chanson d'automne de Paul Verlaine. En algorithmique du texte, un algorithme de recherche de sous-chaîne est un type d'algorithme de recherche qui a pour objectif de trouver une chaîne de caractères dans un texte.

Voir Algorithmique du texte et Algorithme de recherche de sous-chaîne

Algorithme de Smith-Waterman

Exemple d'algorithme de Smith-Waterman. Les flèches montrent le chemin de l'algorithme à travers la matrice. Les flèches rouges montrent le meilleur alignement local final. L'algorithme de Smith-Waterman est un algorithme d'alignement de séquences utilisé notamment en bioinformatique.

Voir Algorithmique du texte et Algorithme de Smith-Waterman

Algorithme de tri

Tri d'une liste aléatoire à l'aide du tri par fusion. Un algorithme de tri est, en informatique ou en mathématiques, un algorithme qui permet d'organiser une collection d'objets selon une relation d'ordre déterminée.

Voir Algorithmique du texte et Algorithme de tri

Algorithme phonétique

Un algorithme phonétique est un algorithme conçu pour indexer les mots selon leur prononciation.

Voir Algorithmique du texte et Algorithme phonétique

Algorithmique

Organigramme de programmation représentant l'algorithme d'Euclide. Lalgorithmique est l'étude et la production de règles et techniques qui sont impliquées dans la définition et la conception d'algorithmes, c'est-à-dire de processus systématiques de résolution d'un problème permettant de décrire précisément des étapes pour résoudre un problème algorithmique.

Voir Algorithmique du texte et Algorithmique

Alignement de séquences

En bio-informatique, l'alignement de séquences (ou alignement séquentiel) est une manière de représenter deux ou plusieurs séquences de macromolécules biologiques (ADN, ARN ou protéines) les unes sous les autres, de manière à en faire ressortir les régions homologues ou similaires.

Voir Algorithmique du texte et Alignement de séquences

Analyse d'image

Analyse d'image en histologie. L'analyse d'image est la reconnaissance des éléments et des informations contenus dans une image.

Voir Algorithmique du texte et Analyse d'image

Analyse musicale

L’analyse musicale est une discipline consistant en l'étude d'une œuvre musicale de façon à en comprendre la genèse, l'architecture et les dessins.

Voir Algorithmique du texte et Analyse musicale

Analyse syntaxique

L' consiste à mettre en évidence la structure d'un texte, généralement une phrase écrite dans une langue naturelle, mais on utilise également cette terminologie pour l'analyse d'un programme informatique.

Voir Algorithmique du texte et Analyse syntaxique

Arbre des suffixes

En informatique, un arbre des suffixes (en anglais suffix tree) est une structure de données arborescente contenant tous les suffixes d'un texte.

Voir Algorithmique du texte et Arbre des suffixes

Automate fini

Fig. 1: Une hiérarchie d'automates. Un automate fini ou automate avec un nombre fini d'états (en anglais ou ou FSM) est un modèle mathématique de calcul, utilisé dans de nombreuses circonstances, allant de la conception de programmes informatiques et de circuits en logique séquentielle aux applications dans des protocoles de communication, en passant par le contrôle des processus, la linguistique et même la biologie.

Voir Algorithmique du texte et Automate fini

Base de données

Une base de données permet de stocker et de retrouver des données structurées, semi-structurées ou des données brutes ou de l'information, souvent en rapport avec un thème ou une activité; celles-ci peuvent être de natures différentes et plus ou moins reliées entre elles.

Voir Algorithmique du texte et Base de données

Basic Local Alignment Search Tool

BLAST (acronyme de) est une méthode de recherche heuristique utilisée en bioinformatique.

Voir Algorithmique du texte et Basic Local Alignment Search Tool

Bio-informatique

La bioinformatique (ou bio-informatique), est un champ de recherche multidisciplinaire de la biotechnologie où travaillent de concert biologistes, médecins, informaticiens, mathématiciens, physiciens et bioinformaticiens, dans le but de résoudre un problème scientifique posé par la biologie.

Voir Algorithmique du texte et Bio-informatique

Chaîne de caractères

En informatique, une chaîne de caractères est à la fois conceptuellement une suite ordonnée de caractères et physiquement une suite ordonnée d' unités de code (code unit).

Voir Algorithmique du texte et Chaîne de caractères

Combinatoire des mots

La combinatoire des mots est une branche des mathématiques et de l'informatique théorique qui applique l'analyse combinatoire aux mots finis ou infinis.

Voir Algorithmique du texte et Combinatoire des mots

Compression de données

La compression de données ou codage de source est l'opération informatique consistant à transformer une suite de bits A en une suite de bits B plus courte pouvant restituer les mêmes informations, ou des informations voisines, en utilisant un algorithme de décompression.

Voir Algorithmique du texte et Compression de données

Cryptographie

La machine de Lorenz utilisée par les nazis durant la Seconde Guerre mondiale pour chiffrer les communications militaires de haut niveau entre Berlin et les quartiers-généraux des différentes armées. La cryptographie est une des disciplines de la cryptologie s'attachant à protéger des messages (assurant confidentialité, authenticité et intégrité) en s'aidant souvent de secrets ou clés.

Voir Algorithmique du texte et Cryptographie

Dan Gusfield

Dan Gusfield (de nom complet Daniel Mier Gusfield) est un informaticien américain spécialiste en informatique théorique, distinguished professeur emeritus d'informatique à l'université de Californie à Davis.

Voir Algorithmique du texte et Dan Gusfield

Détection du plagiat

Avec le développement d'Internet et des nouvelles technologies, le phénomène du plagiat scolaire s'est beaucoup développé, en particulier dans le milieu universitaire.

Voir Algorithmique du texte et Détection du plagiat

Distance (mathématiques)

En mathématiques, une distance est une application qui formalise l'idée intuitive de distance, c'est-à-dire la longueur qui sépare deux points.

Voir Algorithmique du texte et Distance (mathématiques)

Distance de Damerau-Levenshtein

En informatique théorique, la distance de Damerau–Levenshtein est une distance entre deux chaînes de caractères.

Voir Algorithmique du texte et Distance de Damerau-Levenshtein

Distance de Hamming

La distance de Hamming est une notion mathématique, définie par Richard Hamming, et utilisée en informatique, en traitement du signal et dans les télécommunications.

Voir Algorithmique du texte et Distance de Hamming

Distance de Jaro-Winkler

La distance de Jaro-Winkler mesure la similarité entre deux chaînes de caractères.

Voir Algorithmique du texte et Distance de Jaro-Winkler

Distance de Levenshtein

La distance de Levenshtein est une distance, au sens mathématique du terme, donnant une mesure de la différence entre deux chaînes de caractères.

Voir Algorithmique du texte et Distance de Levenshtein

Distance de Manhattan

La distance de Manhattan, appelée aussi taxi-distance.

Voir Algorithmique du texte et Distance de Manhattan

Distance de Tchebychev

La distance de Tchebychev, distance de Chebyshev ou ∞-distance, est la distance entre deux points donnée par la différence maximale entre leurs coordonnées sur une dimension.

Voir Algorithmique du texte et Distance de Tchebychev

Espace euclidien

En mathématiques, un espace euclidien est un objet algébrique permettant de généraliser de façon naturelle la géométrie traditionnelle développée par Euclide, dans ses Éléments.

Voir Algorithmique du texte et Espace euclidien

Exploration de données

L’exploration de donnéesTerme recommandé au Canada par l'OQLF, et en France par la DGLFLF (Journal officiel du 27 février 2003) et par FranceTerme, connue aussi sous l'expression de fouille de données, forage de données, prospection de données,, ou encore extraction de connaissances à partir de données, a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques.

Voir Algorithmique du texte et Exploration de données

Fouille de textes

La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle.

Voir Algorithmique du texte et Fouille de textes

Grep

grep est un programme en ligne de commande de recherche de chaînes de caractères, initialement écrit pour UNIX par Ken Thompson, puis amélioré par l'utilisation de l'algorithme d'Aho-Corasick.

Voir Algorithmique du texte et Grep

Langage naturel

Un langage naturel.

Voir Algorithmique du texte et Langage naturel

Maxime Crochemore

Maxime Crochemore est un mathématicien et informaticien théoricien français, qui travaille en théorie des automates, algorithmique, combinatoire.

Voir Algorithmique du texte et Maxime Crochemore

Mesure de similarité

En mathématiques et en informatique théorique, une mesure de similarité, plus exactement une mesure de distance entre mots, est une façon de représenter par un nombre la différence entre deux mots, ou plus généralement deux chaînes de caractères.

Voir Algorithmique du texte et Mesure de similarité

Plus courte super-séquence commune

En informatique théorique, et notamment en algorithmique des textes, le problème de la plus courte sur-séquence commune est un problème dual du problème de la plus longue sous-séquence commune.

Voir Algorithmique du texte et Plus courte super-séquence commune

Plus longue sous-chaîne commune

En informatique, le problème de la plus longue sous-chaîne commune, à ne pas confondre avec celui de la plus longue sous-séquence commune, consiste à déterminer la (ou les) plus longue(s) chaîne(s) consécutives de caractères qui est sous-chaîne de deux chaînes de caractères.

Voir Algorithmique du texte et Plus longue sous-chaîne commune

Plus longue sous-séquence commune

En informatique théorique, la plus longue sous-séquence commune à deux suites, ou deux chaînes de caractères, est une sous-suite extraite des deux suites, et de taille maximum.

Voir Algorithmique du texte et Plus longue sous-séquence commune

Recherche approximative

Fuzzy Mediawiki search for "''angry emoticon''": "Did you mean: ''andré emotions''" En informatique, la recherche approximative ou recherche floue (fuzzy search en anglais) est le problème qui consiste à trouver des chaînes de caractères qui correspondent à un motif approximatif plutôt qu'à une correspondance exacte.

Voir Algorithmique du texte et Recherche approximative

Séquence biologique

Une séquence biologique est la description de l'enchaînement des éléments (ou monomères) qui constituent une macromolécule biologique, acide nucléique ou protéine.

Voir Algorithmique du texte et Séquence biologique

Similarité cosinus

La similarité cosinus donne la similarité de deux vecteurs à dimensions en déterminant le cosinus de leur angle.

Voir Algorithmique du texte et Similarité cosinus

Soundex

Soundex est un algorithme phonétique d'indexation de noms par leur prononciation en anglais britannique.

Voir Algorithmique du texte et Soundex

Tatouage numérique

Image avec tatouage numérique visible. Le texte « 2006 » apparaît au centre de l'image. Le tatouage numérique (en anglais digital watermark, « filigrane numérique ») est une technique permettant d'ajouter des informations de copyright ou d'autres messages de vérification à un fichier ou signal audio, vidéo, une image ou un autre document numérique.

Voir Algorithmique du texte et Tatouage numérique

TF-IDF

Le TF-IDF (de l'anglais) est une méthode de pondération souvent utilisée en recherche d'information et en particulier dans la fouille de textes.

Voir Algorithmique du texte et TF-IDF

Théorème des répétitions maximales

Le théorème des répétitions maximales (en anglais) qui s’appelait, avant d'avoir été démontrée, la conjecture des répétitions maximales (en anglais) est un résultat de combinatoire des mots.

Voir Algorithmique du texte et Théorème des répétitions maximales

Traitement de texte

Le traitement de texte (en anglais word processing) est le processus qui consiste à mettre en forme un texte d'un point de vue typographique sur un support numérique.

Voir Algorithmique du texte et Traitement de texte

Transformée de Burrows-Wheeler

La transformée de Burrows-Wheeler, couramment désignée par le sigle BWT (pour Burrows-Wheeler Transform) est un prétraitement utilisé en compression de données.

Voir Algorithmique du texte et Transformée de Burrows-Wheeler

Unix

Unix, officiellement UNIX, est une famille de systèmes d'exploitation multitâche et multi-utilisateur dérivé de l'Unix d'origine créé par AT&T, le développement de ce dernier ayant commencé dans les années 1970 au centre de recherche de Bell Labs mené par Kenneth Thompson.

Voir Algorithmique du texte et Unix

, Théorème des répétitions maximales, Traitement de texte, Transformée de Burrows-Wheeler, Unix.

Unionpédia est une carte conceptuelle ou réseau sémantique organisée comme une encyclopédie ou un dictionnaire. Il donne une brève définition de chaque concept et de ses relations.

Ceci est une carte mentale en ligne géant qui sert de base pour les schémas conceptuels. Il est libre d'utiliser et de chaque article ou document peut être téléchargé. Il est un outil, ressources ou de référence pour l'étude, la recherche, l'éducation, l'apprentissage ou de l'enseignement, qui peut être utilisé par les enseignants, les éducateurs, les élèves ou étudiants; pour le monde universitaire: à l'école, primaire, secondaire, l'école secondaire, au milieu, un collège, diplôme technique, collégial, universitaire, baccalauréat, de maîtrise ou de doctorat; pour les papiers, des rapports, des projets, des idées, de la documentation, des enquêtes, des résumés, ou une thèse. Voici la définition, l'explication, la description ou la signification de chaque importantes sur lesquelles vous avez besoin d'informations, et une liste de leurs concepts connexes comme un glossaire. Disponible en français, anglais, espagnol, portugais, japonais, chinois, allemand, italien, polonais, néerlandais, russe, arabe, hindi, suédois, ukrainien, hongrois, catalan, tchèque, hébreu, danois, finlandais, indonésien, norvégien, roumain, turc, vietnamien, coréen, thaïlandais, grec, bulgare, croate, slovaque, lituanien, philippin, letton, estonien et slovène. Plus de langues bientôt.

Les informations sont basées sur des articles de Wikipedia et d'autres projets Wikimedia, et elles sont disponibles sous la Licence Creative Commons Attribution-Partage dans les Mêmes Conditions.

Unionpédia n'est ni approuvée ni affiliée à la Wikimedia Foundation.

Google Play, Android et le logo Google Play sont des marques de Google Inc.

Politique de confidentialité