La principal causa de existencia es la imposibilidad de los
motores de búsqueda (Google, Yahoo, Bing,
etc.) de encontrar o indexar gran parte de la
información existente en Internet.
Tamaño
En 2010 se estimó que la información que se encuentra
en la internet profunda es de 7500 terabytes, lo que
equivale a aproximadamente 550 billones de
documentos individuales. El contenido de la internet
profunda es de 400 a 550 veces mayor de lo que se
puede encontrar en la internet superficial.
Motivos
Web contextual
páginas cuyo contenido varía dependiendo del
contexto (por ejemplo, la dirección IP del cliente,
de las visitas anteriores, etc.).
Contenido dinámico
páginas dinámicas obtenidas como
respuesta a parámetros, por ejemplo, datos
enviados a través de un formulario.
Contenido de acceso restringido
páginas protegidas con contraseña,
contenido protegido por un Captcha,
etc.
Software
Contenido oculto intencionadamente, que requiere
un programa o protocolo específico para poder
acceder (ejemplos: Tor, I2P, Freenet)
Rastreando la internet profunda
Los motores de búsqueda comerciales han comenzado a
explorar métodos alternativos para rastrear la Web
profunda. El Protocolo del sitio (primero desarrollado e
introducido por Google en 2005) y OAI son mecanismos
que permiten a los motores de búsqueda y otras partes
interesadas descubrir recursos de la internet profunda
en los servidores web en particular.
Denominación
Bergman, en un artículo semanal sobre la Web
profunda publicado en el Journal of Electronic
Publishing, mencionó que Jill Ellsworth utilizó el
término «Web invisible» en 1994 para referirse a los
sitios web que no están registrados por ningún
motor de búsqueda.
Métodos de profundización
Las arañas (web crawlers)
Una araña web (crawler) es un
programa o script automatizado que
inspecciona la World Wide Web de una
manera metódica y automatizada.
Tor
El Navegador Tor es una versión actualizada de
privacidad optimizada de Mozilla Firefox. Es un
software libre y de código abierto que permite el
anonimato en línea y evasión de censura.