Information hunting: Web Superficial y Web Profunda

Buscar información utilizando los buscadores tradicionales puede ser comparado con arrastrar una red en la superficie de un océano. No podrá obtener muchos peces de aguas profundas.

El concepto de Internet invisible o Internet profunda, conocida en inglés también como Deepweb, Darkweb o Hidden web, hace referencia, básicamente, a una serie de contenidos que no son visibles para los motores de búsqueda tradicional, esto es, que Google no puede encontrar.

Lo interesante de este concepto es que, tal como lo refiere Brian Wai Fung en su investigación para el MIT sobre algoritmos para web profunda, “de acuerdo con una investigación conducida por la Universidad de Berkeley en California, en 2003 la web (superficial) contenía aproximadamente 167 terabytes de información. En contraste, la Internet profunda se estima que contiene 91.000 terabytes de información, lo que corresponde a 500 veces más el tamaño de la web superficial. Esto significa que el tradicional sistema de búsqueda basado en enlaces no está rastreando el contenido del 99% de la web”.

Michael Bergman, es el más reconocido estudioso de la Web Profunda, quien en su artículo ‘Web Profunda: sacando a la luz un valor escondido’ (2001), acuñó el término haciendo referencia a la expresión ‘Internet invisible’ que había sido usada por Jill Ellsworth ya en 1994, momento en el cual se pronosticaba el boom del .com y el crecimiento exponencial de la web y la consecuencia ampliación del acceso a la información y el conocimiento.

Tal como dice Lluís Codina, Internet invisible es un nombre poco afortunado, ya que la información es perfectamente visible, sólo que no es indizable. Codina propone el nombre de web no indizable, aunque el término más usado en la literatura científica continúa siendo web invisible.

Según la accesibilidad, podemos diferenciar la Internet superficial (surface web), porción de Internet que es indexada por los buscadores, la Internet profunda (deep web), parte de Internet que no forma parte de la Internet superficial, y la Internet oscura (dark web), hosts de la red inaccesibles, a los que no se puede acceder a través de medios convencionales.

La Internet superficial (surface web) es la porción de Internet indexada en los motores de búsqueda, a través de sus arañas o spider. Estas arañas son programas que ejecutan la función de buscar, clasificar e indexar los contenidos web, almacenando la información en bases de datos. Cualquier enlace que encuentren los spider es seguido e indexado a su vez, por lo que eventualmente todas las páginas web enlazadas mediante hipervínculos serán en un momento u otro indexadas. Por diferentes motivos, como enlaces generados por JavaScript y Flash, sitios protegidos con clave o ficheros excluidos mediante robots.txt, una gran parte del contenido de la web no puede ser capturada por los buscadores, lo que impide a los buscadores indexarlas. Estas páginas forman la denomina Internet profunda, que se estima constituye el 95% de los contenidos web.

La Internet profunda o invisible (deep web, invisible web, hidden web) es la porción de Internet cuyos contenidos no pueden ser indexados por los motores de búsqueda, y se estima que representa en torno al 95% de los contenidos web, de tal manera que la Internet profunda es varios órdenes de magnitud más grande que la Internet superficial.

La Internet profunda está compuesta por aquellos sitios web a los que no pueden acceder los motores de búsqueda, por diversos motivos como:

Contenido privado protegido con contraseña.
Documentos en formatos no indexables.
Enlaces generados mediante JavaScript o Flash.
Contenidos que usan protocolos diferentes a HTTP o HTTPS.
Contenidos no enlazados.
Contenido que varía según el dispositivo que accede.
Contenido dinámico generado como respuesta a un formulario.
Restricciones de acceso a documentos mediante robots.txt o captchas.
Información a la que sólo se puede acceder consultando bases de datos.

Aunque su nombre resulte intimidante para algunos, la verdad es que la Internet invisible ya no está tan oculta como antes y gracias a los metabuscadores (buscadores de buscadores) es posible rastrear fuentes de bases de datos, que permiten acceder a la información alojada en la web profunda, como estos que reseña Luis Castro en ‘¿Qué es Deep web?’:

• Scirus (http://www.scirus.com/), usado para búsquedas de información científica.

• Infomine (http://infomine.ucr.edu/), búsquedas de material escolar de todo tipo.

• FreeLunch (http://www.economy.com/freelunch/default.asp), búsquedas de datos

económicos.

• CompletePlanet (http://aip.completeplanet.com/), búsquedas de diversos temas.

• Archive (http://archive.org/index.php), metabuscador para rastrear temas específicos.

• Search Engine Guide (http://www.searchengineguide.com/searchengines.html),

metabuscador que permite encontrar un buscador o base de datos relacionada con el tema de interés.

Es justo señalar que gran parte de los recursos auditados de la web profunda provienen de bibliotecas y centros de investigación universitarios y que por lo tanto la información es de gran calidad y valor para la comunidad científica y de investigación.

La Internet oscura (dark web) es una parte de la Internet profunda formada por hosts inaccesibles, a los que no se puede acceder a través de medios convencionales, y generalmente se utiliza en entornos en los que es esencial proteger la identidad de los usuarios y el contenido de las comunicaciones.

La Internet oscura se caracteriza por el tipo de contenidos que la integran, usualmente relacionados con:

Actividades delictivas, terroristas, pederastas o violación de derechos de autor.
Información secreta relativa a actividades gubernamentales, militares o de espionaje.
Comunicación de información confidencial de índole comercial.
Lugares donde, debido a conflictos políticos, existen restricciones o censura en la difusión y acceso a ciertos tipos de contenido.

La Internet oscura se desarrolla a través de redes superpuestas sobre Internet, cuyos principales objetivos son preservar el anonimato del usuario, mantener la integridad del mensaje y garantizar el secreto de la información. Ejemplos de estas redes son GNUnet, Freenet y Tor (The Onion Router).

Fuentes:

http://cdn.elheraldo.co/sites/default/files/2013/12/01/infografias/icebergredes98765.jpg

http://www.efefuturo.com/noticia/tor-el-oscuro-mundo-de-la-internet-profunda/

http://aprenderinternet.about.com/od/Glosario/g/Que-es-Deep-Web.htm

http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104

http://www.edukanda.es/mediatecaweb/data/zip/627/PID_00143755/web/main/m3/v5_4_1.html

http://expertoti.blogspot.it/2009/07/la%ADweb%ADsuperficial%ADy%ADla%ADweb%ADprofunda.html

https://www.ideals.illinois.edu/bitstream/handle/2142/8528/librarytrendsv52i2h_opt.pdf

http://www.bibliociencias.cu/gsdl/collect/eventos/import/Para%20acceder%20al%20web%20profundo%20conceptos%20y%20herramientas.pdf

https://www.torproject.org/

https://es.wikipedia.org/wiki/Internet_profunda

http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104