Rectification de documents
La rectification de documents est le processus d'analyse documents extraire des données significatives. Le terme est souvent associé au piratage informatique, car les pirates peut "broyer" des documents pour révéler des données confidentielles. Cependant, la rectification de documents est également utilisée à des fins non malveillantes. Les exemples incluent l'identification inconnue types de fichier et visualiser le fichier métadonnées.
Il est possible d'effectuer la rectification de documents à la fois texte brut et binaire fichiers.
Fichiers texte
Le broyage de fichiers texte est un processus simple, car ils stockent les données sous forme de texte brut. Vous pouvez rechercher caractères et instruments à cordes dans un document texte en utilisant un outil comme grep ou un autre utilitaire de recherche. Le traitement de texte étant une opération informatique relativement rapide, il est possible de moudre plusieurs gros documents en moins d'une seconde.
Les types de fichiers texte courants ciblés pour la rectification de document incluent les fichiers journaux (.LOG, . TXT) et les fichiers de configuration (.CONF, .CNF). Si un pirate informatique accède à une le serveur webpar exemple, il peut rechercher dans ces fichiers noms d'utilisateur, mots de passeet d’autres données confidentielles.
Les fichiers binaires
Les fichiers binaires peuvent contenir du texte brut, mais ils stockent également des fichiers binaires. date - 1 et 0. Il est plus difficile de broyer des données binaires car elles ne peuvent pas être recherchées avec un outil de recherche de texte. De plus, de nombreux fichiers binaires sont enregistrés dans un fichier propriétaire. format de fichier, ce qui est difficile à analyser sans le correspondant application. Par conséquent, la rectification de documents binaires se concentre généralement sur la entête et footer d'un document, qui peut contenir du texte brut. Il peut également avoir pour objectif d’extraire des métadonnées de fichier.
De nombreux fichiers binaires contiennent des informations sur le type de fichier dans l’en-tête du fichier. filet. Par exemple, dans l'exemple d'image, les lettres "PNG" dans l'en-tête indiquent que le fichier est un fichier. PNG image. Cette information est utile pour identifier le type de fichier car elle n’a pas de extension de fichier. De même, les photos numériques contiennent souvent des EXIF données enregistrées lors de la prise de vue. Un programme de visualisation d'images ou une rectification de documents scénario peut être capable de détecter et d'extraire cette information.