
En asociación con
La próxima frontera de la IA puede depender de una nueva capa de infraestructura de datos web que permita a los modelos descubrir y mapear este ámbito digital en constante expansión. Esta capa debe poder navegar por cientos de millones de dominios web existentes y miles de millones de nuevas URL creadas cada semana, entregando información en tiempo real y superando barreras técnicas.
“Los datos sugieren que hay muchos más datos disponibles”, dice Or Lenchner, director ejecutivo de Bright Data, una plataforma web de recopilación de datos. “Piensa en el universo: está ahí fuera, pero no sabes lo que no sabes”.
Permitir el acceso a datos nuevos, relevantes y confiables
Si bien los primeros avances en IA fueron impulsados por la ampliación de los datos de entrenamiento y el tamaño del modelo, las organizaciones ahora se encuentran con un cuello de botella fundamental: necesitan seguir el ritmo de la naturaleza dinámica, no estructurada y en constante evolución de los datos web para poder basar los resultados en información actual y verificable. El rendimiento de la IA depende cada vez más no solo de la arquitectura del modelo, sino también de las capacidades de computación, redes, recuperación e ingeniería de datos de un sistema, es decir, la capacidad del sistema para recuperar de manera rápida y confiable datos actualizados, relevantes y confiables.
La formación de modelos tradicionales se basa en instantáneas de la información recopilada en un momento determinado. Entrenar la IA con datos tan estáticos ya no es suficiente. Para rastrear fluctuaciones como los precios de la competencia, el sentimiento del consumidor y las tendencias del mercado, las empresas necesitan una fuente constante de nueva información, extrayendo datos en tiempo real junto con el contexto relevante. Por lo tanto, su infraestructura debe ser capaz de manejar millones de interacciones simultáneas entre sitios web que varían según la geografía, el idioma, el formato y las reglas de acceso.
“Si no puede recuperar información en tiempo real, carece de contexto”, afirma Lenchner. “En un entorno empresarial, eso ya no es aceptable. Las respuestas obsoletas conducen a malas decisiones y a consumidores decepcionados”.
La velocidad no es simplemente una cuestión de conveniencia; es una cuestión de necesidad. Las organizaciones actuales operan en entornos donde los precios, el inventario, los mercados, las amenazas a la seguridad y el comportamiento de los clientes cambian continuamente. La recuperación tardía de datos puede reducir la utilidad de un modelo que de otro modo sería sofisticado.
El uso de datos web en vivo y de alta calidad también puede reducir las alucinaciones de la IA porque el modelo tiene una base de conocimientos más relevante. Esto genera confianza en el usuario. De hecho, una encuesta encontró que 56% de los practicantes de IA dijo que las empresas necesitan acceso a datos web en tiempo real para mejorar la confianza en los resultados de la IA. Para garantizar que el modelo funcione de manera eficiente y eficaz, la información también debe reducirse a los elementos esenciales adecuados.
A pesar de la introducción de la generación de recuperación aumentada (RAG), donde los modelos obtienen datos externos en el momento de una consulta, muchos sistemas de IA todavía tienen dificultades para ofrecer resultados que sean actuales, contextualmente relevantes y confiables en entornos operativos. Según Gartner, 60% de los proyectos de IA que no estén respaldados por datos preparados para la IA (precisos, estructurados, organizados y contextualizados) serán abandonados a finales de año.
Esto se debe a que la recuperación a gran escala por sí sola no resuelve el problema. Como dice Lenchner: “Es necesario recuperar datos a escala, pero también en tiempo real. La latencia se convierte en un problema debido a que el usuario final está esperando el resultado”.
Acceder a datos nuevos y listos para la IA a escala presenta desafíos técnicos y estructurales. En la práctica, muchos sistemas empresariales combinan la recuperación web pública con API, conjuntos de datos con licencia y datos internos propietarios en sus aplicaciones de IA. Integrar estas fuentes fragmentadas en una capa de conocimiento oportuna y utilizable requiere capacidades especializadas. Algunas investigaciones han encontrado que 97% de las organizaciones de IA Dependen de una infraestructura de datos web en tiempo real, pero el 90% se sienten encerrados por diversas restricciones. Las empresas están desarrollando cada vez más enfoques técnicos para sortear estas limitaciones.
Lenchner dibuja esta metáfora: “Piense en el modelo entrenado como inteligencia y los datos relevantes como conocimiento. Una poderosa capa de inteligencia situada encima de una capa de conocimiento hueca es como un genio que no sabe nada: inútil en la práctica. La inteligencia y el conocimiento tienen que unirse”.
La promesa de una nueva infraestructura
Una nueva capa de infraestructura de datos web puede abordar esta necesidad creciente de aportes de IA más sólidos al permitir el descubrimiento de datos, el acceso en tiempo real y la adaptación a un contexto específico. Como lo describe Lechner: “Se trata de recopilar datos a escala, con latencia súper baja, sin ser bloqueados”.
En lugar de depender de una mayor potencia informática, este tipo de plataforma emula el comportamiento de navegación humana para acceder al contenido disponible y transformar el código sin formato en fuentes de datos estructurados. Puede funcionar con sitios web que quizás no interactúen con herramientas de raspado tradicionales, como las que contienen mucho JavaScript, o con software antibot agresivo.
Como explica Lenchner, “se trata básicamente de tener una infraestructura que pueda imitar a un usuario web con información de identificación: dirección IP, ubicación y 1.000 parámetros más. Y a escala. Piense en hacer eso 80 mil millones de veces al día para millones de sitios web. Y cada vez, se verá exactamente como el sitio web espera que se vea”.
Por supuesto, la recuperación continua introduce nuevos desafíos en la gestión de datos. Para abordarlos, las plataformas pueden aplicar estrictos protocolos de cumplimiento alineados con los marcos de privacidad globales, como el Reglamento General de Protección de Datos (GDPR) de la UE y la Ley de Privacidad del Consumidor de California (CCPA). También pueden limitarse a información pública de acceso abierto, evitando muros de pago o inicios de sesión privados. Cualquier red utilizada puede ser examinada y basada en el consentimiento, y se pueden ofrecer incentivos a los propietarios de direcciones IP. De esta manera, los sistemas pueden diseñarse para cumplir con la regulación de ajuste.
Capacidades tan complejas no resultan fáciles. “Cuando se trata de una infraestructura crítica para una empresa”, dice Lenchner, “hacerlo internamente se convierte en un problema de ingeniería de tiempo completo que compite con el trabajo real de la IA”. Abordar esta complejidad requiere que las organizaciones comprometan importantes recursos, lo que lleva a muchas a buscar plataformas especializadas diseñadas específicamente para la recuperación, orquestación y observabilidad de datos.
Infraestructura para el mundo real
La recuperación de datos en tiempo real está cambiando lo que los sistemas de IA pueden hacer dentro de las organizaciones. Por ejemplo, una empresa minorista puede utilizar información pública para habilitar un motor de precios dinámico y las marcas globales pueden rastrear las infracciones de marcas.
A medida que el ecosistema madure, las organizaciones que inviertan en esta capa de infraestructura de datos emergente estarán mejor posicionadas para construir sistemas de IA que sean más receptivos, confiables y alineados con las condiciones del mundo real: sistemas de IA que puedan adaptarse continuamente utilizando los datos web actuales. Con el tiempo, la distinción entre los modelos de IA y la infraestructura que los alimenta puede incluso comenzar a desaparecer.
Como dice Lenchner: “El mundo está cambiando. Y todo lo que está sucediendo en el mundo se carga en la web pública. La cantidad de nuevos datos que se generan está creciendo y acelerándose”.
Para obtener más información sobre Bright Data, lea el Datos para el informe AI 2026.
Este contenido fue producido por Insights, la rama de contenido personalizado de MIT Technology Review. No fue escrito por el personal editorial de MIT Technology Review. Fue investigado, diseñado y escrito por escritores, editores, analistas e ilustradores humanos. Esto incluye la redacción de encuestas y la recopilación de datos para encuestas. Las herramientas de IA que pudieron haberse utilizado se limitaron a procesos de producción secundarios que pasaron una revisión humana exhaustiva.
Publicado originalmente en technologyreview.com el 24 de junio de 2026.
Ver fuente original
