Historia de la DEEP WEB: Mitos de Internet. las aguas profundas y las islas perdidas de la web

NOTA MIA: hoy quiero iniciar una memoria de los artículos históricos de internet. De aquellos contenidos y personajes que los wannabies y los millennials no conocen, pero que marcaron un antes y después en el desarrollo del UNDERGROUND DIGITAL.

Que mejor que iniciar con este brillante documento de uno de mis ídolos que me formó en el tema; Javier Villate, editorialista y colaborador del extinto sitio español de En.Red.Ando.

Este documento, hasta donde yo he rastreado, es el primero o uno de los primeros en hablar de la deep web para públicos de habla hispana. Por tanto, es un histórico que vale la pena volver a leer.

En aquel entonces, el 2001, el único sentido posible de la deep web era el de información no indexada. Tendrían que pasar algunos años (hasta el 2006) , para que el vocablo sumara también a los dominios .onion (cuyo termino más exacto debería ser la cypher web) como parte del fenómeno.

¡QUE GRATOS RECUERDOS, UNA INTERNET QUE LUCHABA POR SER BARLOWIANA Y NO CONTROLADA POR EL GAFAT! (Jorge Lizama)

–

ARTICULO DE JAVIER VILLATE

El carácter descentralizado de la web y el poder que otorga a los individuos son cosas que hay que celebrar sin paliativos. Pero tiene sus contrapartidas. Una de las más notorias es que esta Red se manifiesta como un caos, del que una de sus expresiones es la dificultad para encontrar esa información que estamos buscando. Este artículo puede ser visto como una crítica del mito de: ‘Toda la información está en la punta de tus dedos’, al que también llamaré: ‘Del acceso equidistante a toda la información’.

Efectivamente, todos hemos experimentado la frustración que supone obtener resultados escasos -o poco útiles- cuando buscamos informaciones que no son, digamos, populares. ¿Quiere decir eso que los datos en cuestión no existen en la web? No forzosamente.

Si ya es difícil encontrar cosas en las aguas de superficie del océano web, hacerlo en sus aguas profundas se me antoja una tarea sobrehumana. Y si alguien se había hecho ilusiones y creído el mito de: ‘La información está al alcance de tus dedos’, lo realista es aceptar que la desmesura de la Red, su caos, desborda los intentos de poner orden. Pero dejaré para más adelante mis conclusiones. Antes hay que detallar un poco más las dimensiones del problema.

En julio del 2000, la compañía BrightPlanet dio a conocer un estudio llamado The ‘Deep web‘: Surfacing Hidden Value, según el cual existe una ‘web profunda’ que está más allá del alcance de los motores de búsqueda generalistas. Y por lo tanto, lejos también del alcance del internauta medio. Por entonces, Google había calculado que había 1.200 millones de páginas, pero BrightPlanet afirmó que la ‘web profunda’ se componía de 550.000 millones de documentos. Estas cifras hay que ponerlas en relación con el número de páginas web que tienen indizadas los motores de búsqueda.

Según un artículo publicado por el Ciberp@ís , a finales del año 2000 había 3.000 millones de páginas web, pero Google solo tenía indizadas 1.300.000, siendo de largo el buscador más exitoso en este sentido, por delante de Fast (575.000), Webtop (500.000), AltaVista (350.000) y Excite (250.000). En otras palabras, los mejores motores de búsqueda generalistas indizan una ínfima parte de los documentos de la web. Concretamente, menos del 0,009 por ciento. Parece, pues, que aquella frustración tiene fundamentos sólidos.

–

La ‘web profunda’

BrightPlanet define la ‘web profunda’ como el conjunto de documentos existentes en la web a los que no tienen acceso los motores de búsqueda generalistas. ¿Por qué no tienen acceso?

Los motores de búsqueda como Google, Fast y demás utilizan unas herramientas de software denominadas spiders y crawlers para detectar y registrar la existencia de nuevas páginas. Pero en esta tarea de rastreo se pierden muchos contenidos. Se ha mencionado en muchas ocasiones las dificultades que entraña la existencia de las denominadas páginas dinámicas. Cuando sometemos una solicitud de búsqueda en Yahoo!, por ejemplo, sobre alguna enfermedad u otro tipo de información médica, el buscador nos ofrece resultados obtenidos de su investigación en bases de datos que muchas veces permanecen escondidas en lugares remotos prácticamente inaccesibles para el usuario normal. Pero esas páginas de resultados desaparecen tan pronto el usuario cierra su navegador, pues han sido creadas ad hoc en respuesta a una demanda.

Sin embargo, eso es sólo la punta del iceberg; el problema es de más hondo calado. Es mucho más común que los motores de búsqueda generalistas ni siquiera tengan en sus índices una enorme cantidad de bases de datos de universidades, centros de investigación, organismos de la Administración, etc. Cuando los buscadores se topan con este tipo de bases de datos, se limitan a registrar la página web de inicio y no penetran en sus ingentes contenidos. Estos son los que componen la ‘web profunda’.

Los 550.000 millones de documentos sumergidos en esas aguas profundas suponen, según BrightPlanet, 7.500 terabytes , mientras que la web de superficie contiene 19 terabytes —correspondientes a los 1.200 millones de páginas estimadas en la fecha de la publicación del estudio. Algunos han señalado que buena parte de los contenidos de la ‘web profunda’ son de escaso valor (como también lo son buena parte de los de la web de superficie). Aún teniendo en cuenta esa realidad, BrightPlanet considera que el contenido de calidad presente en la ‘web profunda’ es del orden de 1.000 a 2.000 veces mayor que el contenido de calidad de la web de superficie. Según el estudio, hay más de 100.000 bases de datos ricas en contenidos valiosos.

Como ejemplos de esto, cita un sitio de patentes de IBM, las bases de datos del genoma humano, registros genealógicos, estadísticas históricas deportivas, publicaciones biomédicas, casos y decisiones judiciales, etc. Lo mismo sucede con las bases de datos de la Administración Federal de Aviación de Estados Unidos, que ofrece información actualizada en tiempo real de todos los vuelos del país. Para acceder a esta información, el internauta debe conectarse al servicio Flight Tracker de TheTrip.com. Aunque este sitio está indexado por los principales motores de búsqueda, los datos contenidos en sus bases de datos no lo están. A menos que el internauta conozca previamente la existencia de este recurso, puede perderse este tipo de información.

La información de la ‘web profunda’ no sólo es de gran valor, sino que, según BrightPlanet, está creciendo más rápidamente que la perteneciente a la web de superficie. Además, el 95% de aquella información es libremente accesible.

Esta realidad hace que estén surgiendo diversos servicios especializados en la ordenación de la ‘web profunda’, básicamente directorios dedicados a coleccionar enlaces a bases de datos. El estudio de BrightPlanet afirma que el tráfico que se desarrolla en la ‘web profunda’ es un 50% mayor que el registrado en la superficie: 123.000 páginas vistas al mes frente a 85.000 en un sitio web medio de la superficie de la web. Cabe pensar que algunos verán oportunidades de hacer negocio a través de la oferta de servicios de búsqueda para esta ‘web profunda’. Eso es lo que parece que piensa BrightPlanet, por ejemplo, o Inktomi. Pero otras compañías, como Google y AltaVista no quieren ni oír hablar de ello. Pescar en aguas tan profundas y ordenar los resultados, en su opinión, no es rentable.

–

Servicios para buscar en la ‘web profunda’

CompletePlanet
Servicio creado por BrightPlanet para ayudar a localizar recursos y bases de datos. Incluye un directorio que contiene más de 20.000 bases de datos accesibles en la web.

LexiBot
Es una herramienta de software creada por BrightPlanet para realizar búsquedas en las bases de datos. Debido al complejo y lento proceso de búsqueda que ejecuta, es una aplicación que corre en el lado del ‘cliente’.

AlphaSearch
Facilita acceso a más de 800 ‘pasarelas’ especializadas.

Direct Search
Una enorme colección de enlaces a bases de datos y sitios de búsqueda, clasificados temáticamente.

INFOMINE
Desarrollado por la biblioteca de la Universidad de California, está especializado en información de tipo académico y científico. Da acceso a más de 20.000 recursos de este tipo.

Intelliseek
Compañía especializada en ‘aplicaciones inteligentes’. Distribuye Bulls Eye, un software que rivaliza con LexiBot.

Invisibleweb.com
Sitio creado por Intelliseek, es un directorio con más de 10.000 enlaces a bases de datos, archivos y motores de búsqueda.

Lycos – Searchable Databases
Índice de bases de datos con más de 7.000 recursos de búsqueda especializados.

Open Directory Project
Gigantesco directorio temático, con más de 2,5 millones de páginas recopiladas y organizadas por editores voluntarios.

Refdesk
Colección de enlaces a sitios con información de calidad.

Search Engine Watch
Uno de los sitios pioneros en la búsqueda en la ‘web invisible’.

WebData
Una comprehensiva guía de bases de datos, con evaluaciones sobre la calidad de las mismas.

–

Los nudos perdidos de la web

La estructura de la web no solo puede verse como compuesta de áreas de superficie y áreas profundas. La investigación desprejuiciada nos irá desvelando otras claves para hacernos una imagen más acorde con su verdadera configuración. Si la división entre ‘web de superficie’ y ‘web profunda’ ya supone por sí sola un duro golpe a las visiones míticas de un universo de información transparente y accesible, otros análisis vienen a echar más leña al fuego.

En mayo del 2000, investigadores de IBM, Compaq y AltaVista publicaron un estudio que intentaba mostrar que la web no está tan ‘enredada’ como se cree. Muchos de sus nudos están rotos o mal atados. De alguna forma, este estudio abunda en la tesis de la ‘web profunda’, pero desde otro punto de vista y revelando otras dimensiones del caos de la red. El mito de ‘la información en la punta de tus dedos’ cae herido de muerte y se deja acompañar, en su agonía, por la caída de otro mito complementario: el de que toda información está a la misma distancia de 19 clicks.

En efecto, estudios anteriores sostuvieron que la mayoría de pares de páginas web seleccionadas al azar estaban separadas entre sí por 19 clicks. No es verdad. Partes importantes de la Red no pueden ser alcanzadas en absoluto desde otras partes de ésta. En otros casos pueden ser necesarios cientos de clicks. Si tomas dos páginas al azar e intentas llegar desde una a la otra mediante sucesivos clicks, ‘hay un 75 por ciento de opciones de que nunca consigas llegar a tu destino’, dice el estudio que comentamos.

Según esta investigación, basada en el análisis de 1.500 millones de enlaces existentes entre 200 millones de páginas web, existe un ‘núcleo central’ fuertemente interconectado que agrupa al 30 por ciento de toda la web. En este caso, desde cualquier página de este núcleo central puedes, haciendo sucesivos clicks en páginas enlazadas entre sí, llegar a cualquier otra página de ese mismo núcleo. Otro 24 por ciento se compone de ‘páginas de origen’, es decir, páginas con enlaces que apuntan hacia el núcleo, pero a las que no puede accederse desde ese núcleo. Un ejemplo es una página personal que incluye enlaces a tiendas relacionadas con las aficiones de su creador, pero a la que no apuntan los enlaces incluidos en los sitios web de las tiendas en cuestión. Otro 24 por ciento consiste de ‘páginas de destino’, que pueden ser accedidas desde enlaces incluidos en el núcleo central, pero que no tienen vínculos hacia éste. Ejemplos de este tipo de páginas suelen ser las de documentos académicos y de investigación alojados en sitios web universitarios o corporativos. El 22 por ciento restante está completamente desconectado del núcleo central. Estas páginas son, en la terminología del estudio, ‘zarcillos’ conectados por enlaces sólo a páginas de una de las otras categorías, ‘tubos’ que enlazan páginas de origen y de destino sin atravesar el núcleo, o ‘islas’ no enlazadas por el resto de la web en ninguna forma. La única forma de encontrar estas islas es conociendo previamente su dirección web. Según los investigadores, los porcentajes de estas cuatro categorías permanecieron constantes entre mayo y octubre de 1999, a pesar de que el número de páginas web creció de forma sustancial.

Así, pues, no es exacto decir que mi página personal está a la misma distancia ciberespacial que la página de Microsoft. Eso solo es cierto en términos teóricos abstractos que ignoran que en la web existe un centro y una periferia, y que para llegar al primero hay millones de guías e indicaciones, mientras que para viajar a la periferia de la web hay, muchas veces, que ‘buscarse la vida’ o, sencillamente, hacer un fortuito descubrimiento.

No existe una cartografía de la Red global. No disponemos de mapas reconocidos y bien difundidos para localizar las islas perdidas, ni tampoco de cartas de navegación populares y detalladas para hacer submarinismo por sus aguas profundas. La Red no es tan transparente ni tan navegable como el mito del acceso equidistante a la información ha pretendido hacernos creer. Para llegar a algunos nudos profundos hay que sumergirse en las procelosas y turbias aguas del océano de la web, desenredando madejas, y para recalar en algunos nudos rotos o mal atados hay que dar vueltas y revueltas. No hay simetría. Hay arriba y abajo, centro y periferia. Con la caída del mito del acceso equidistante a toda la información cae, también, la utopía que se ha construido sobre el mismo: la de que en la web todos podemos ser iguales, pues la diferencia entre Microsoft y mi página personal es solo la que existiría entre las diferentes letras que componen nuestras respectivas direcciones web.

Éste parece ser uno de los precios a pagar por el carácter descentralizado de la web y por la libertad de expresión que impera. Podemos pensar que una estructura centralizada, comprometida con el registro de toda la información como servicio público y con la ordenación de todos los recursos siguiendo criterios objetivos podría paliar considerablemente las consecuencias negativas del caos. Puede ser. Pero también podemos pensar que es preferible no otorgar tal poder a una estructura central, que, sin lugar a dudas, acabaría por someternos a sus criterios de registro y clasificación, con lo que la discriminación y la recreación de información visible e invisible, de centro y de periferia, se nos colaría con toda seguridad por la puerta de atrás. Con la estructura actual, al menos podemos seguir esperando esfuerzos encomiables para que el caos, tan bello por otra parte, no se traduzca en estructuras duraderas e impermeables de superficie y profundidad, de centro y de periferia.

–

FUENTE: JAVIER VILLATE, 20 marzo 2001

en.red.antes

–

# CRÉDITOS:
Rescatado del olvido por cybermedios.org, 14 marzo 2020

–
# REDES SOCIALES NO ATLANTISTAS
También publicado en
https://www.minds.com/cybermedios/
https://steemit.com/@cybermedios.org
https://vk.com/cybermediosvk
–