Cómo funciona la web profunda

Dec 23 2013
Alrededor del 40 por ciento de la población mundial usa la Web para noticias, entretenimiento y comunicación, pero en verdad, solo una parte de lo que conocemos como la World Wide Web es fácilmente accesible.
La naturaleza inaccesible de la Web profunda puede evocar imágenes de piratas informáticos haciendo cosas nefastas, pero eso no es realmente exacto.

Qué red tan enredada tejemos, de hecho. Alrededor del 40 por ciento de la población mundial usa la Web para noticias, entretenimiento, comunicación y muchos otros propósitos [fuente: Internet World Stats ]. Sin embargo, incluso a medida que más y más personas inician sesión, en realidad encuentran menos datos almacenados en línea. Esto se debe a que solo se puede acceder fácilmente a una parte de lo que conocemos como la World Wide Web.

La llamada Web de superficie , que todos usamos de manera rutinaria, consta de datos que los motores de búsqueda pueden encontrar y luego ofrecer en respuesta a sus consultas. Pero de la misma manera que los observadores solo ven la punta de un iceberg, un motor de búsqueda tradicional ve solo una pequeña cantidad de la información disponible: un mísero 0,03 por ciento [fuente: OEDB ].

¿En cuanto al resto? Bueno, mucho de eso está enterrado en lo que se llama la Web profunda . La Web profunda (también conocida como la red oculta, la Web invisible y la Web oculta, entre otros apodos) consta de datos que no encontrará con una simple búsqueda en Google.

Nadie sabe realmente qué tan grande es realmente la Web profunda, pero es cientos (o quizás incluso miles) de veces más grande que la Web superficial. Estos datos no están necesariamente ocultos a propósito. Simplemente es difícil para la tecnología actual de los motores de búsqueda encontrarlo y darle sentido.

Hay una otra cara de la web profunda que es mucho más turbia y, a veces, más oscura, razón por la cual también se la conoce como la web oscura . En la web oscura, los usuarios realmente entierran datos intencionalmente. A menudo, solo se puede acceder a estas partes de la Web si utiliza un software de navegador especial que ayuda a despegar las capas similares a cebollas de la Web oscura.

Este software mantiene la privacidad tanto del origen como del destino de los datos y de las personas que acceden a ellos. Tanto para los disidentes políticos como para los delincuentes, este tipo de anonimato muestra el inmenso poder de la web oscura, que permite la transferencia de información, bienes y servicios, legal o ilegalmente, para disgusto de los poderes fácticos de todo el mundo.

Así como un motor de búsqueda simplemente araña la superficie de la Web, solo estamos comenzando. Sigue leyendo para descubrir cuán enredada se vuelve realmente nuestra Web.

Contenido
  1. Oculto en el sitio llano
  2. Justo debajo de la superficie
  3. Potencial Profundo
  4. La oscuridad cae
  5. Tor excitante
  6. El lado más brillante de la oscuridad
  7. aún más profundo

Oculto en el sitio llano

La Web profunda es enorme en comparación con la Web superficial. La Web actual tiene más de 555 millones de dominios registrados. Cada uno de esos dominios puede tener docenas, cientos o incluso miles de subpáginas, muchas de las cuales no están catalogadas y, por lo tanto, entran en la categoría de la Web profunda.

Aunque nadie lo sabe con certeza, la Web profunda puede ser de 400 a 500 veces más grande que la Web superficial [fuente: BrightPlanet ]. Y tanto la Web superficial como la profunda crecen cada día más y más.

Para entender por qué tanta información está fuera de la vista de los motores de búsqueda, es útil tener un poco de experiencia en tecnologías de búsqueda. Puede leerlo todo en Cómo funcionan los motores de búsqueda de Internet, pero le daremos un resumen rápido aquí.

Los motores de búsqueda generalmente crean un índice de datos al encontrar información almacenada en sitios web y otros recursos en línea. Este proceso implica el uso de arañas o rastreadores automatizados , que localizan dominios y luego siguen hipervínculos a otros dominios, como un arácnido que sigue los tentáculos sedosos de una web, en cierto modo creando un mapa extenso de la web.

Este índice o mapa es su clave para encontrar datos específicos que sean relevantes para sus necesidades. Cada vez que ingresa una búsqueda por palabra clave, los resultados aparecen casi instantáneamente gracias a ese índice. Sin él, el motor de búsqueda literalmente tendría que comenzar a buscar miles de millones de páginas desde cero cada vez que alguien quisiera información, un proceso que sería difícil de manejar y exasperante.

Pero los motores de búsqueda no pueden ver los datos almacenados en la web profunda. Hay incompatibilidades de datos y obstáculos técnicos que complican los esfuerzos de indexación. Hay sitios web privados que requieren contraseñas de inicio de sesión antes de poder acceder a los contenidos. Los rastreadores no pueden penetrar los datos que requieren búsquedas de palabras clave en un solo sitio web específico. Hay sitios de acceso cronometrado que ya no permiten vistas públicas una vez que ha pasado un cierto límite de tiempo.

Todos esos desafíos, y muchos otros, hacen que los datos sean mucho más difíciles de encontrar e indexar para los motores de búsqueda. Siga leyendo para ver más sobre lo que separa la Web superficial y la Web profunda.

Justo debajo de la superficie

Si piensas en la Web como un iceberg, la gran sección debajo del agua es la Web profunda, y la sección más pequeña que puedes ver sobre el agua es la Web superficial.

Como ya hemos señalado, hay millones y millones de subpáginas esparcidas por millones de dominios. Hay páginas internas sin enlaces externos, como internal.howstuffworks.com, que se utilizan para fines de mantenimiento del sitio. Hay entradas de blog no publicadas o no listadas, galerías de imágenes, directorios de archivos y cantidades incalculables de contenido que los motores de búsqueda simplemente no pueden ver.

Este es solo un ejemplo. Hay muchos sitios web de periódicos independientes en línea y, a veces, los motores de búsqueda indexan algunos de los artículos de esos sitios. Eso es particularmente cierto para las principales noticias que reciben mucha atención de los medios. Una búsqueda rápida en Google sin duda revelará muchas docenas de artículos sobre, por ejemplo, equipos de fútbol de la Copa Mundial.

Pero si está buscando una historia más oscura, es posible que deba ir directamente al sitio de un periódico específico y luego navegar o buscar contenido para encontrar lo que está buscando. Esto es especialmente cierto a medida que envejece una noticia. Cuanto más antigua es la historia, más probable es que se almacene solo en el archivo del periódico, que no es visible en la Web superficial. Posteriormente, es posible que esa historia no aparezca fácilmente en los motores de búsqueda, por lo que cuenta como parte de la Web profunda.

Potencial Profundo

Si podemos desbloquear la web profunda para buscar bases de datos profesionales e información profunda de difícil acceso, campos como la medicina se beneficiarían de inmediato.

Los datos en la Deep Web son difíciles de ver para los motores de búsqueda, pero no ser vistos no significa que no sean importantes. Como puede ver en el ejemplo de nuestro periódico, hay un valor inmenso en la información escondida en la web profunda.

La Web profunda es un repositorio interminable de una cantidad asombrosa de información. Hay bases de datos de ingeniería, información financiera de todo tipo, documentos médicos, imágenes, ilustraciones... la lista continúa, básicamente, para siempre.

Y la web profunda solo se está volviendo más profunda y complicada. Para que los motores de búsqueda aumenten su utilidad, sus programadores deben descubrir cómo sumergirse en la web profunda y traer datos a la superficie. De alguna manera, no solo deben encontrar información válida, sino que deben encontrar una manera de presentarla sin abrumar a los usuarios finales.

As with all things business, the search engines are dealing with weightier concerns than whether you and I are able to find the best apple crisp recipe in the world. They want to help corporate powers find and use the deep Web in novel and valuable ways.

For example, construction engineers could potentially search research papers at multiple universities in order to find the latest and greatest in bridge-building materials. Doctors could swiftly locate the latest research on a specific disease.

The potential is unlimited. The technical challenges are daunting. That's the draw of the deep Web. Yet there's a murkier side to the deep Web, too -- one that's troubling to a lot of people for a lot reasons.

Darkness Falls

The deep Web may be a shadow land of untapped potential, but with a bit of skill and some luck, you can illuminate a lot of valuable information that many people worked to archive. On the dark Web, where people purposely hide information, they'd prefer it if you left the lights off.

The dark Web is a bit like the Web's id. It's private. It's anonymous . It's powerful. It unleashes human nature in all its forms, both good and bad.

The bad stuff, as always, gets most of the headlines. You can find illegal goods and activities of all kinds through the dark Web. That includes illicit drugs, child pornography, stolen credit card numbers, human trafficking , weapons, exotic animals, copyrighted media and anything else you can think of. Theoretically, you could even, say, hire a hit man to kill someone you don't like.

But you won't find this information with a Google search. These kinds of Web sites require you to use special software, such as The Onion Router, more commonly known as Tor.

Tor is software that installs into your browser and sets up the specific connections you need to access dark Web sites. Critically, Tor is an encrypted technology that helps people maintain anonymity online. It does this in part by routing connections through servers around the world, making them much harder to track.

Tor also lets people access so-called hidden services -- underground Web sites for which the dark Web is notorious. Instead of seeing domains that end in .com or .org, these hidden sites end in .onion. On the next page we'll peel back the layers of some of those onions.

Titillating Tor

In October 2013, U.S. authorities shut down Silk after the alleged owner of the site Ross William Ulbricht was arrested.

The most infamous of these onion sites was the now-defunct Silk Road, an online marketplace where users could buy drugs, guns and all sorts of other illegal items. The FBI eventually captured Ross Ulbricht, who operated Silk Road, but copycat sites like Black Market Reloaded are still readily available.

Oddly enough, Tor is the result of research done by the U.S. Naval Research Laboratory, which created Tor for political dissidents and whistleblowers, allowing them to communicate without fear of reprisal.

Tor was so effective in providing anonymity for these groups that it didn't take long for the criminally-minded to start using it as well.

That leaves U.S. law enforcement in the ironic position of attempting to track criminals who are using government-sponsored software to hide their trails. Tor, it would seem, is a double-edged sword.

Anonymity is part and parcel on the dark Web, but you may wonder how any money-related transactions can happen when sellers and buyers can't identify each other. That's where Bitcoin comes in.

If you haven't heard of Bitcoin, it's basically an encrypted digital currency. You can read all about it on How Bitcoin Works . Like regular cash, Bitcoin is good for transactions of all kinds, and notably, it also allows for anonymity; no one can trace a purchase, illegal or otherwise.

Bitcoin may be the currency of the future -- a decentralized and unregulated type of money free of the reins of any one government. But because Bitcoin isn't backed by any government, its value fluctuates, often wildly. It's anything but a safe place to store your life savings. But when paired properly with Tor, it's perhaps the closest thing to a foolproof way to buy and sell on the Web.

The Brighter Side of Darkness

A significant aspect of Bitcoin's appeal is the anonymity of transactions.

The dark Web has its ominous overtones. But not everything on the dark side is bad. There are all sorts of services that don't necessarily run afoul of the law.

The dark Web is home to alternate search engines, e-mail services, file storage, file sharing, social media, chat sites, news outlets and whistleblowing sites, as well as sites that provide a safer meeting ground for political dissidents and anyone else who may find themselves on the fringes of society.

In an age where NSA-type surveillance is omnipresent and privacy seems like a thing of the past, the dark Web offers some relief to people who prize their anonymity . Dark Web search engines may not offer up personalized search results, but they don't track your online behavior or offer up an endless stream of advertisements, either. Bitcoin may not be entirely stable, but it offers privacy, which is something your credit card company most certainly does not.

For citizens living in countries with violent or oppressive leaders, the dark Web offers a more secure way to communicate with like-minded individuals. Unlike Facebook or Twitter, which are easy for determined authorities to monitor, the dark Web provides deeper cover and a degree of safety for those who would badmouth or plot to undermine politicians or corporate overlords.

A paper written by researchers at the University of Luxembourg attempted to rank the most commonly accessed materials on the dark Web. What they found was that although sites trading in illegal activities and adult content are very popular, so too are those concerned with human rights and freedom of information [Source: ArXiv].

So although the dark Web definitely has its ugly side, it has great potential, too.

Even Deeper

La web profunda solo se está volviendo más profunda. Su reserva de conocimiento humano y trivialidades crece cada día más, lo que complica nuestros esfuerzos para darle sentido a todo. Al final, ese es quizás el mayor desafío detrás de Internet que hemos creado.

Los programadores continuarán mejorando los algoritmos de los motores de búsqueda , haciéndolos mejores para profundizar en las capas más profundas de la Web. Al hacerlo, ayudarán a los investigadores y las empresas a conectarse y hacer referencias cruzadas de información de formas que nunca antes fueron posibles.

Al mismo tiempo, el trabajo principal de un motor de búsqueda inteligente no es simplemente encontrar información. Lo que realmente quieres que haga es encontrar la información más relevante. De lo contrario, quedará inundado en un mar de datos desordenados que lo dejará deseando no haber hecho clic en ese botón de búsqueda.

Ese es el problema de los llamados big data . Big data es el nombre para conjuntos de datos que son tan grandes que se vuelven inmanejables e incoherentes. Debido a que Internet está creciendo tan rápido, todo nuestro mundo está repleto de datos, y es difícil para cualquiera entenderlo todo, incluso todas esas computadoras poderosas y omniscientes en las oficinas centrales de Bing y Google.

A medida que Internet crece, todas las grandes empresas gastan cada vez más dinero en gestión y análisis de datos, tanto para mantener sus propias organizaciones en funcionamiento como para obtener ventajas competitivas sobre otras. La minería y la organización de la Deep Web es una parte vital de esas estrategias. Aquellas empresas que aprendan a aprovechar estos datos para sus propios usos sobrevivirán y tal vez cambien el mundo con nuevas tecnologías. Aquellos que dependan únicamente de la Web superficial no podrán competir.

Mientras tanto, la Web profunda continuará desconcertando y fascinando a todos los que usan Internet. Contiene una cantidad fascinante de conocimiento que podría ayudarnos a evolucionar tecnológicamente y como especie cuando se conecta a otros fragmentos de información. Y, por supuesto, su lado más oscuro siempre estará al acecho, como siempre sucede en la naturaleza humana. La web profunda habla del potencial insondable y disperso no solo de Internet, sino también de la raza humana.

Mucha más información

Nota del autor: Cómo funciona la Deep Web

La Deep Web es un lugar vago y ambiguo. Pero mientras investigaba esta historia, fue fácil concluir al menos una cosa con certeza: la mayoría de los titulares de noticias tienden a sensacionalizar la web oscura y su lado más sórdido, y rara vez mencionan el potencial sin explotar de la web profunda. Los artículos sobre drogas y armas ilegales obviamente atraen a más lectores que aquellos que detallan los desafíos técnicos de recolectar datos de la Web profunda. Lea los artículos negativos y sin aliento con un grano de sal. Vale la pena recordar que hay mucho más en la Web profunda que el elemento criminal obvio. A medida que los ingenieros encuentren formas mejores y más rápidas de catalogar los almacenes de datos de la Web, Internet en su conjunto podría transformar nuestra sociedad de maneras asombrosas.

Artículos relacionados

  • Cómo funciona Google
  • ¿Por qué la gente piratea el software?
  • Cómo funciona la MPAA
  • Cómo funciona BitTorrent

Fuentes

  • Bagot, Martín. "El mercado criminal de la Deep Web desaparece completamente después de '58 Million Heist'". El espejo. 3 de diciembre de 2013. (6 de diciembre de 2013) http://www.mirror.co.uk/news/technology-science/technology/sheep-marketplace-deep-web-criminal-2879995
  • Bergman, Michael K. "Libro blanco: La web profunda: emergiendo el valor oculto". Journal of Electronic Publishing". Agosto de 2001. (6 de diciembre de 2013) http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main ;idno=3336451.0007.104
  • Bermann, Fran. "La película de la Deep Web irá al interior del mundo de Bitcoin, Silk Road y más allá". Mashable. 20 de noviembre de 2013. (6 de diciembre de 2013) http://mashable.com/2013/11/20/alex-winter-deep-web-documentary/
  • Biggs, John. "Los usuarios de la Deep Web están listos para lanzar Silk Road 2.0". Techcrunch. 4 de octubre de 2013. (6 de diciembre de 2013) http://techcrunch.com/2013/10/04/deep-web-users-are-ready-to-launch-silk-road-2-0/
  • Bingham, John y Kirkup, James. "David Cameron gana el apoyo del FBI para la guerra de la 'Dark Web' contra los pedófilos". Telégrafo. 18 de noviembre de 2013. (6 de diciembre de 2013) http://www.telegraph.co.uk/news/uknews/crime/10456108/David-Cameron-wins-FBI-support-for-dark-web-war -en-pedófilos.html
  • PlanetaBrillante. "Comprender la Deep Web en 10 minutos". 12 de marzo de 2013. (6 de diciembre de 2013) http://www.brightplanet.com/2013/03/whitepaper-understanding-the-deep-web-in-10-minutes/
  • PlanetaBrillante. "¿Cómo pasan los datos de la Deep Web de los resultados a la inteligencia procesable?" 31 de enero de 2013. (6 de diciembre de 2013) http://www.brightplanet.com/2013/01/how-does-data-from-the-deep-web-go-from-results-to-actionable -inteligencia/
  • PlanetaBrillante. "El futuro de la búsqueda en línea". 27 de agosto de 2013. (6 de diciembre de 2013) http://www.brightplanet.com/2013/08/the-future-of-online-search/
  • Couts, Andrés. "TorSearch hace que encontrar la próxima Ruta de la Seda sea mucho más fácil". Tendencias digitales. 11 de octubre de 2013. (6 de diciembre de 2013) http://www.digitaltrends.com/web/torsearch-tor-network-hidden-services/
  • Couts, Andrés. "Eso fue rápido: 2 sitios compiten por los clientes criminales de Silk Road". Tendencias digitales. 3 de octubre de 2013. (6 de diciembre de 2013) http://www.digitaltrends.com/web/silk-road-fbi-ulbricht-sheep-marketplace-bmr/
  • Gallagher, Diana. "Retirando las capas de la WCNC de la 'Web oscura'". 19 de noviembre de 2013. (6 de diciembre de 2013) http://www.wcnc.com/news/local/The-Dark-Web-232606871.html
  • Aquí y ahora. "La web profunda: donde Google no te llevará". WBUR.org. 8 de noviembre de 2013. (6 de diciembre de 2013) http://hereandnow.wbur.org/2013/11/08/the-deep-web
  • Hockerson, Lauren. "TorSearch ofrece búsqueda privada en la Deep Web". Gigaom. 11 de octubre de 2013. (6 de diciembre de 2013) http://gigaom.com/2013/10/11/torsearch-offers-private-search-of-the-deep-web/
  • Lederman, Abe y Lederman, Sol. "Comprensión de las tecnologías de la web profunda". Ingeniería de nuevas ideas. junio de 2004. (6 de diciembre de 2013) http://deepwebtech.com/PDFs/Understanding%20Deep%20Web%20Technologies.pdf
  • Amor, Dylan. "Hay una Internet secreta para traficantes de drogas, asesinos y pedófilos". Business Insider. 6 de marzo de 2013. (6 de diciembre de 2013) http://www.businessinsider.com/tor-silk-road-deep-web-2013-3?op=1
  • Seymour, Andrés. "La 'Web profunda' anónima es la nueva frontera de la explotación infantil, dijo una conferencia". Ciudadano de Ottawa. 16 de noviembre de 2013. (6 de diciembre de 2013) http://www.ottawacitizen.com/business/Anonymous+deep+frontier+child+exploitation+conference+told/9175718/story.html
  • Swift, Tim. "¿Qué es la 'Web profunda'? Y otras preguntas sobre el sombrío mundo virtual de Silk Road". Sol de Baltimore. 3 de octubre de 2013. (6 de diciembre de 2013) http://articles.baltimoresun.com/2013-10-03/business/bal-silk-road-deep-web-explainer-20131003_1_satoshi-nakamoto-bitcoin-silk -la carretera
  • Universidad de California, Berkeley. "Web invisible o profunda: qué es, cómo encontrarla y su ambigüedad inherente". (6 de diciembre de 2013) http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html