Becas y Universidades

Ciencia y Tecno

Diffbot, la inteligencia artificial que se está leyendo todo Internet para construir la mayor base de conocimientos del mundo

4 minutos de lectura

6 años atrás

GPT-2 y GPT-3, dos inteligencias artificiales desarrolladas por OpenAI, llevan desde el año pasado sorprendiendo al mundo con su capacidad para responder y completar textos de la misma forma en que podría hacerlo un ser humano.

Un ejemplo paradigmático de sus capacidades pueden observarse en el siguiente tuit, en el que se ve a GPT-3 rellenando datos históricos y demográficos sobre EE.UU en un documento Excel: que Alaska se convirtió en un estado en 1906 y que Michigan cuenta con una población de 10,3 millones de personas.

=GPT3()… the spreadsheet function to rule them all.

Impressed with how well it pattern matches from a few examples.

The same function looked up state populations, peoples’ twitter usernames and employers, and did some math. pic.twitter.com/W8FgVAov2f
— Paul Katsen (@pavtalk) July 21, 2020

Datos ambos muy factibles, en apariencia, pero… totalmente falsos. El problema de las IA como GPT-3, conocidas como ‘modelos de lenguaje’ es que son buenas imitadoras (es decir, capaces de reproducir patrones de escritura humanos), pero no están capacitadas para escribir datos ajustados a la realidad porque, sencillamente, no entiendem lo que leen.

Necesitamos IAs que entiendan lo que leen

Y eso reduce terriblemente la utilidad de las inteligencias artificiales. De modo que existen ya intentos de resolver este problema. La startup Diffbot, por ejemplo, ha desarrollado una IA dedicada a la tarea de aprender (o, como mínimo, extraer aquellos datos que sea capaz de reconocer) mediante el revolucionario método de leer. Leer mucho.

En Xataka

La paradoja de Moravec: por qué la inteligencia artificial hace fácil lo difícil (y viceversa)

De leerse, de hecho, toda la WWW pública, en múltiples idiomas: su forma de entender el lenguaje humano pasa por intentar encajar todo lo que lee en un molde de sujeto + verbo + predicado, lo que le permite establecer relaciones entre conceptos, como por ejemplo:

«Bill Gates + es + el fundador de Microsoft. // Microsoft + es + una empresa».

Tomando estos datos simples, el papel de la IA de Diffbot es crear lo que se llama un gráfico de conocimiento: una red de relaciones dotado de un sistema de ‘razonamiento’ que le permite llegar a nuevas conclusiones a partir de los datos extraídos. Diffbot escanea la WWW y actualiza su gráfico de conocimiento cada 4-5 días, añadiendo hasta 150 millones de entradas en cada ocasión.

Y además, aplica a sus conocimientos algoritmos más antiguos de machine learning, que le permiten identificar información obsoleta y sustituirla por otra más novedosa.

Es tan exhaustivo que no se conforma con leer el texto del HTML, sino que aplica algoritmos de visión por computadora para extraer información también de imágenes y vídeos. Y además, navega como nosotros: revisando las webs de arriba a abajo, cambiando entre pestañas y clicando en ventanas emergentes.

Y en un futuro cercano, sus creadores planean dotarlo de un modelo de lenguaje (similar a GPT-3) para que, ahora que la IA ha sido capaz de entender lo que lee, pueda generar textos a partir de ello y crear un «sistema universal de respuesta a preguntas sobre hechos».

En Xataka

El papel de la intuición en el desarrollo de la conducción autónoma (y cómo podemos simularla)

Mucho más que una simple ‘curiosidad’

Pero, ¿qué utilidad puede tener esto, al margen del mero interés científico? Bueno, pues Diffbot ya cuenta con 400 clientes que pagan por extraer información de su gráfico de conocimiento, grandes empresas que lo usan para tareas bastante diversas:

Snapchat: Recurre a Diffbot para extraer la información más relevante de las páginas de noticias.
DuckDuckGo: Lo usa para crear cuadros de respuesta similares a los que lleva tiempo ofreciendo Gooogle.
Nike y Adidas: Estas grandes marcas deportivas utilizan el conocimiento extraído por Diffbot para localizar falsificaciones.
NASDAQ: Extrae información útil para investigaciones financieras.
Zola: La popular app de planificación de bodas recurre a esta tecnología para extraer imágenes y precios para la elaboración de listas de boda.

Vía | Technology Review

imagen | Pixabay

–
La noticia Diffbot, la inteligencia artificial que se está leyendo todo Internet para construir la mayor base de conocimientos del mundo fue publicada originalmente en Genbeta por Marcos Merino .

Relacionado

Descubre más desde Espacioteca

Suscríbete y recibe las últimas entradas en tu correo electrónico.

6 minutos de lectura

Becas doctorales CONICET 2026: requisitos, duración y cuánto pagan 🔬🇦🇷

2 semanas atrás espacioteca

3 minutos de lectura

🌊 Triunfo en las profundidades: el CONICET cierra con éxito la expedición submarina en Mar del Plata

8 meses atrás espacioteca

3 minutos de lectura

GPT-5: EL SALTO MÁS GRANDE EN INTELIGENCIA ARTIFICIAL HASTA AHORA 🚀🤖

8 meses atrás espacioteca

3 minutos de lectura

🌎 ARGENTINXS EN MARTE / Cómo una misión espacial pone en órbita nuestra ciencia y educación

8 meses atrás espacioteca

Deja un comentarioCancelar respuesta

2 minutos de lectura

GPT-5: EL SALTO MÁS GRANDE EN INTELIGENCIA ARTIFICIAL HASTA AHORA 🚀🤖

8 meses atrás espacioteca

Un lanzamiento históricoOpenAI presentó oficialmente GPT-5 a principios de agosto de 2025 y ya está disponible para todos los usuarios de ChatGPT, gratis o con...

1 minuto de lectura

Santiago Bilinkis con Iván Schargrodsky, una entrevista imperdible en CENITAL

8 meses atrás espacioteca

En una nueva edición de #OnTheRecord, Santiago Bilinkis habló sobre inteligencia artificial, su impacto a nivel global, las regulaciones sobre ella y cómo cambia las...

5 minutos de lectura

«Descubre Dónde Estudiar Inteligencia Artificial en Colombia: Las Mejores Universidades, Costos y Fortalezas»

1 año atrás espacioteca

La inteligencia artificial (IA) se ha consolidado como una de las disciplinas más dinámicas y prometedoras del siglo XXI. En Colombia, diversas instituciones educativas, tanto...

4 minutos de lectura

Carreras del Futuro que Nadie Está Viendo: Las 10 Profesiones Ocultas que Dominarán el Siglo XXI

1 año atrás espacioteca

En un mundo donde la tecnología avanza a pasos agigantados, el mercado laboral se transforma de maneras insospechadas. Mientras todos hablan de desarrolladores de software...