Nos encontramos sentados frente al computador para
realizar una búsqueda de información y elegimos el buscador de nuestra
preferencia. Iniciamos la búsqueda y los resultados que nos arroja la red
pueden ser contrastantes; por una parte nos encontramos inundados por
información que quizá no hemos solicitado y/o,
la que solicitamos, que realmente es de nuestro interés es escasa o
nula.

Esto sucede en la actualidad por que las arañas (spiders)
de los buscadores tradicionales
sólo ofrecen acceso a una muy pequeña parte de lo que existe online; lo más
popular o más consultado, a lo que se denomina la Web superficial o visible.
Y al no satisfacernos los resultados, tenemos que
invertir más tiempo en la búsqueda y elementos que nos ayuden a lograr la
información realmente nutritiva y de valor en la red. Información que esta
oculta, invisible, obstruida o que quizá se declare privada, Información almacenada y accesible
mediante bases de datos. Lo que se le considera la web profunda.
Démosle un vistazo y analicemos los niveles de búsqueda de información por la
red:
La Web Superficial o visible
La Web
Superficial comprende todos aquellos sitios cuya información puede ser indexada
por los robots de los buscadores convencionales y recuperada casi en su
totalidad mediante una consulta en sus formularios de búsqueda.
Las características principales de los sitios
de la Web visible son:
su información no está contenida en bases de datos
es de libre acceso
no se requiere la realización de un proceso de registro para acceder a la
información.
mayoritariamente está formada por páginas Web estáticas, es decir páginas o
archivos con una URL fija y accesibles desde otro enlace.
La
Web Profunda o invisible
Web invisible es el término utilizado para describir
toda la información disponible en Internet que no se recupera interrogando a
los buscadores convencionales. Generalmente es información almacenada y
accesible mediante bases de datos.
Parte de la información es "invisible" a
los robots de los buscadores convencionales, ya que los resultados se generan
en la contestación a una pregunta directa mediante páginas dinámicas (ASP, PHP,
etc.) es decir páginas que no tienen una URL fija y que se construyen en el
mismo instante (temporales) desapareciendo una vez cerrada la consulta.
La Web
opaca está compuesta por archivos que, si bien podrían estar incluidos en
los índices de los buscadores, no lo están por alguno de los siguientes
motivos:
Extensión de la indización: a veces, por economía, no todas las páginas de un
sitio son indizadas en los buscadores.
Frecuencia de la indización: los buscadores no poseen la capacidad de indizar
todas las páginas existentes; a diario se agregan y modifican muchas y la
indización no se realiza al ritmo que permita incluirlas a todas.
Número máximo de resultados visibles: aunque los motores de búsqueda arrojan a
veces un gran número de resultados, generalmente limitan el número de
documentos que se muestran (entre 200 y 1000).
URL
desconectadas: las generaciones más recientes de buscadores, presentan los
documentos por relevancia basada en el número de veces que aparecen
referenciados en otros. Si un documento no tiene un link a él, desde otro documento,
será imposible que la página sea encontrada, pues no se encuentra indizada.
La Web
privada consiste en las páginas Web que podrían estar indizadas en los
buscadores pero son excluidas deliberadamente por alguno de estos motivos:
Las
páginas están protegidas por contraseñas.
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador pueda indizar la parte
correspondiente al cuerpo de la página.
La
Web propietaria incluye aquellas
páginas en las que es necesario registrarse para tener acceso al contenido, ya
sea de forma gratuita o arancelada.
La
Web realmente invisible se compone
de páginas que no pueden ser indizadas por limitaciones técnicas de los
buscadores, programas ejecutables y archivos comprimidos, páginas generadas
dinámicamente, es decir, que se generan a partir de datos que introduce el
usuario, información almacenada en bases de datos relacionales, que no puede
ser extraída a menos que se realice una petición específica.
Veamos
algunos de los recursos de búsqueda en la Web Profunda:
The WWW Virtual Library se considera el catálogo más antiguo en la web y
fue iniciado por Tim Berners-Lee, el creador de la web.
Infoplease es una Web de consulta
con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita
la consulta de información con opciones de búsqueda por términos o por áreas de
conocimiento. Es posible acceder a un buen número de enciclopedias, atlas, y
biografías. Y también tiene algunas ramificaciones interesantes como
Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para
biografías, o información de todo lo acontecido históricamente en un
determinado día.
DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los
motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos
motores de búsqueda específicos del tema, puede consultar las bases de datos
subyacentes en la Web profunda.
TechXtra
centra su información, en ingeniería, matemáticas e informática. Es posible
navegar a través de una extensa lista de revistas gratuitas especializadas de
ingeniería, documentos técnicos, descargas y podcasts.
Según
Lluis Codina: “Internet invisible es
un nombre claramente inadecuado para referirse al sector de sitios y de páginas
web que no pueden indizar los motores de búsqueda de uso público. Debería
denominarse, en realidad, la web "no indizable", lo cual es un término
mucho más adecuado”.

Felicidades, en cuanto al texto y a la presentación. Mi Blog és http://elisaianna.blogspot.com.es/
ResponderEliminarFelicidades, en cuanto al texto y a la presentación. Mi Blog és http://elisaianna.blogspot.com.es/
ResponderEliminar