Buscar
información utilizando los buscadores tradicionales puede ser
comparado con arrastrar una red en la superficie de un océano. No
podrá obtener muchos peces de aguas profundas.
El
concepto de Internet invisible o Internet profunda, conocida en
inglés también como Deepweb, Darkweb o Hidden web, hace referencia,
básicamente, a una serie de contenidos que no son visibles para los
motores de búsqueda tradicional, esto es, que Google no puede
encontrar.
Lo
interesante de este concepto es que, tal como lo refiere Brian Wai
Fung en su investigación para el MIT sobre algoritmos para web
profunda, “de acuerdo con una investigación conducida por la
Universidad de Berkeley en California, en 2003 la web (superficial)
contenía aproximadamente 167 terabytes de información. En
contraste, la Internet profunda se estima que contiene 91.000
terabytes de información, lo que corresponde a 500 veces más el
tamaño de la web superficial. Esto significa que el tradicional
sistema de búsqueda basado en enlaces no está rastreando el
contenido del 99% de la web”.
Michael
Bergman, es el más reconocido estudioso de la Web Profunda, quien en
su artículo ‘Web Profunda: sacando a la luz un valor escondido’
(2001), acuñó el término haciendo referencia a la expresión
‘Internet invisible’ que había sido usada por Jill Ellsworth ya
en 1994, momento en el cual se pronosticaba el boom del .com y el
crecimiento exponencial de la web y la consecuencia ampliación del
acceso a la información y el conocimiento.
Tal
como dice Lluís Codina, Internet invisible es un nombre poco
afortunado, ya que la información es perfectamente visible, sólo
que no es indizable. Codina propone el nombre de web no indizable,
aunque el término más usado en la literatura científica continúa
siendo web invisible.
Según
la accesibilidad, podemos diferenciar la Internet superficial
(surface web), porción de Internet que es indexada por los
buscadores, la Internet profunda (deep web), parte de Internet que no
forma parte de la Internet superficial, y la Internet oscura (dark
web), hosts de la red inaccesibles, a los que no se puede acceder a
través de medios convencionales.
La
Internet superficial (surface web)
es la porción de Internet indexada en los motores de búsqueda, a
través de sus arañas o spider. Estas arañas son programas que
ejecutan la función de buscar, clasificar e indexar los contenidos
web, almacenando la información en bases de datos. Cualquier enlace
que encuentren los spider es seguido e indexado a su vez, por lo que
eventualmente todas las páginas web enlazadas mediante hipervínculos
serán en un momento u otro indexadas. Por diferentes motivos, como
enlaces generados por JavaScript y Flash, sitios protegidos con clave
o ficheros excluidos mediante robots.txt, una gran parte del
contenido de la web no puede ser capturada por los buscadores, lo que
impide a los buscadores indexarlas. Estas páginas forman la denomina
Internet profunda, que se estima constituye el 95% de los contenidos
web.
La
Internet profunda o invisible (deep
web, invisible web, hidden web) es la porción de Internet
cuyos contenidos no pueden ser indexados por los motores de búsqueda,
y se estima que representa en torno al 95% de los contenidos web, de
tal manera que la Internet profunda es varios órdenes de magnitud
más grande que la Internet superficial.
La
Internet profunda está compuesta por aquellos sitios web a los que
no pueden acceder los motores de búsqueda, por diversos motivos
como:
- Contenido privado protegido con contraseña.
- Documentos en formatos no indexables.
- Enlaces generados mediante JavaScript o Flash.
- Contenidos que usan protocolos diferentes a HTTP o HTTPS.
- Contenidos no enlazados.
- Contenido que varía según el dispositivo que accede.
- Contenido dinámico generado como respuesta a un formulario.
- Restricciones de acceso a documentos mediante robots.txt o captchas.
- Información a la que sólo se puede acceder consultando bases de datos.
Aunque
su nombre resulte intimidante para algunos, la verdad es que la
Internet invisible ya no está tan oculta como antes y gracias a los
metabuscadores (buscadores de buscadores) es posible rastrear fuentes
de bases de datos, que permiten acceder a la información alojada en
la web profunda, como estos que reseña Luis Castro en ‘¿Qué es
Deep web?’:
•
Scirus
(http://www.scirus.com/), usado para búsquedas de información
científica.
•
Infomine
(http://infomine.ucr.edu/), búsquedas de material escolar de todo
tipo.
•
FreeLunch
(http://www.economy.com/freelunch/default.asp), búsquedas de datos
económicos.
•
CompletePlanet
(http://aip.completeplanet.com/), búsquedas de diversos temas.
•
Archive
(http://archive.org/index.php), metabuscador para rastrear temas
específicos.
•
Search Engine Guide
(http://www.searchengineguide.com/searchengines.html),
metabuscador
que permite encontrar un buscador o base de datos relacionada con el
tema de interés.
Es
justo señalar que gran parte de los recursos auditados de la web
profunda provienen de bibliotecas y centros de investigación
universitarios y que por lo tanto la información es de gran calidad
y valor para la comunidad científica y de investigación.
La
Internet oscura (dark web)
es una parte de la Internet profunda formada por hosts inaccesibles,
a los que no se puede acceder a través de medios convencionales, y
generalmente se utiliza en entornos en los que es esencial proteger
la identidad de los usuarios y el contenido de las comunicaciones.
La
Internet oscura se caracteriza por el tipo de contenidos que la
integran, usualmente relacionados con:
- Actividades delictivas, terroristas, pederastas o violación de derechos de autor.
- Información secreta relativa a actividades gubernamentales, militares o de espionaje.
- Comunicación de información confidencial de índole comercial.
- Lugares donde, debido a conflictos políticos, existen restricciones o censura en la difusión y acceso a ciertos tipos de contenido.
La
Internet oscura se desarrolla a través de redes superpuestas sobre
Internet, cuyos principales objetivos son preservar el anonimato del
usuario, mantener la integridad del mensaje y garantizar el secreto
de la información. Ejemplos de estas redes son GNUnet, Freenet y Tor
(The Onion Router).
Fuentes:
Hola
RispondiEliminaIngresé a tu blog, EXCELENTE tu información. Felicitaciones!!!!
Saludos cordiales
Claudia Wieczorek
Muchas gracias Claudia!!!
EliminaBuen Blog, bastante información, además de las fuentes bibliográficas, me gusta su plantilla. Felicidades
RispondiEliminaGracias Jorge!!!!
EliminaSaludos
Good Look, Muy nutrida su bibliográfica ,tengo la impresión que domina el tema. visita mi blog: http://marcojaujar.blogspot.com/2015/06/desarrollo-de-la-busqueda-de.html
RispondiEliminaGracias marco!!!
EliminaObserve bastante material, denota un gran entusiasmo investigativo, la felicito.
RispondiElimina