Vcbench: Benchmarking LLMS en capital de riesgo

Resumen: Los puntos de referencia como SWE Bench y Arc-AGI demuestran cómo los conjuntos de datos compartidos aceleran el progreso hacia la inteligencia general artificial (AGI). Presentamos VCBench, el primer punto de referencia para predecir el éxito del fundador en Venture Capital (VC), un dominio donde las señales son escasas, los resultados son inciertos e incluso los principales inversores funcionan modestamente. Al inicio, el índice de mercado logra una precisión del 1.9%. Y Combinator supera el índice en un factor de 1.7x, mientras que las empresas de nivel 1 son 2.9x mejores. VCBench proporciona 9,000 perfiles de fundadores anonimizados, estandarizados para preservar las características predictivas mientras se resisten a la fuga de identidad, con pruebas de adversario que muestran más del 90% de reducción en el riesgo de reidentificación. Evaluamos nueve modelos de idiomas grandes (LLM) de última generación. Deepseek-v3 ofrece más de seis veces la precisión de línea de base, GPT-4O logra el F0.5 más alto, y la mayoría de los modelos superan los puntos de referencia humanos. Diseñado como un recurso público y en evolución disponible en esta url http, VCBench establece un estándar impulsado por la comunidad para la evaluación reproducible y preservadora de la privacidad de AGI en el pronóstico de emprendimiento de la etapa temprana.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Aviso de privacidad

Súbete a la ola del IoT

Contacto

Please Share This Compartir este contenido

admin

También podría gustarte

Cuando es una negociación, un agente menos avanzado podría costarle

Enterprise de agente: usuario centrado en la IA a la IA centrada en el usuario

Un llamado a la inteligencia colaborativa: por qué los sistemas de agentes humanos deberían preceder a la autonomía de AI

Aviso de privacidad

test

Súbete a la ola del IoT

Contacto

Compartir este contenido