En este momento estás viendo 
<span class="bsf-rt-reading-time"><span class="bsf-rt-display-label" prefix="Tiempo de lectura"></span> <span class="bsf-rt-display-time" reading_time="1"></span> <span class="bsf-rt-display-postfix" postfix="mins"></span></span><!-- .bsf-rt-reading-time -->Vcbench: Benchmarking LLMS en capital de riesgo

Vcbench: Benchmarking LLMS en capital de riesgo

  • Autor de la entrada:
  • Categoría de la entrada:Noticias externas

Resumen: Los puntos de referencia como SWE Bench y Arc-AGI demuestran cómo los conjuntos de datos compartidos aceleran el progreso hacia la inteligencia general artificial (AGI). Presentamos VCBench, el primer punto de referencia para predecir el éxito del fundador en Venture Capital (VC), un dominio donde las señales son escasas, los resultados son inciertos e incluso los principales inversores funcionan modestamente. Al inicio, el índice de mercado logra una precisión del 1.9%. Y Combinator supera el índice en un factor de 1.7x, mientras que las empresas de nivel 1 son 2.9x mejores. VCBench proporciona 9,000 perfiles de fundadores anonimizados, estandarizados para preservar las características predictivas mientras se resisten a la fuga de identidad, con pruebas de adversario que muestran más del 90% de reducción en el riesgo de reidentificación. Evaluamos nueve modelos de idiomas grandes (LLM) de última generación. Deepseek-v3 ofrece más de seis veces la precisión de línea de base, GPT-4O logra el F0.5 más alto, y la mayoría de los modelos superan los puntos de referencia humanos. Diseñado como un recurso público y en evolución disponible en esta url http, VCBench establece un estándar impulsado por la comunidad para la evaluación reproducible y preservadora de la privacidad de AGI en el pronóstico de emprendimiento de la etapa temprana.

Publicado Originalme en export.arxiv.org El 18 de septiembre de 2025.
Ver Fuente Original

admin

Usuario de administración del sitio web