Métricas en IA geoespacial: del F1 al impacto en España
Evaluar IA geoespacial va más allá de la exactitud de un modelo aislado. En España, donde el lenguaje y la cooficialidad influyen en la interpretación de lugares, y donde los resultados impactan servicios públicos y negocios, las métricas deben abarcar comprensión lingüística, precisión espacial, rendimiento, explicabilidad y valor operativo. Este artículo propone un marco práctico en español para medir sistemas de extremo a extremo.
Empecemos por la exactitud espacial. Para tareas de geocodificación, la métrica básica es la distancia entre el punto predicho y el de referencia (error en metros). Se complementa con umbrales (“% de direcciones resueltas a <50 m”), y con tasas por tipología (vías, barrios, municipios). En mapas de clasificación raster (p. ej., usos del suelo), se usan IoU y F1 por clase, pero también se valora la coherencia topológica: evitar lagunas imposibles o fronteras zigzagueantes. En rutas, comparamos tiempos y longitudes frente a valores observados, penalizando desvíos por ZBEs u obras.
La capa lingüística requiere métricas propias. Para NER geográfico, medimos F1 por entidad y por comunidad autónoma, y robustez a alternancias bilingües. En preguntas-respuestas espaciales en español (“barrios con más crecimiento joven cerca de tranvía”), evaluamos descomposición correcta en operaciones GIS y calidad de la explicación generada. Un panel muestra cobertura dialectal: castellano, catalán, euskera y gallego, con ejemplos reales.
La latencia y la estabilidad son cruciales en producción. Medimos p95 y p99 de respuesta, y variación bajo carga. En asistentes conversacionales, la latencia percibida incluye tiempo del LLM y de las consultas GIS. Cachear geocodificaciones frecuentes y limitar contexto mejora p95 sin sacrificar precisión. También controlamos consumo y coste por consulta, relevantes para escalado en administraciones y pymes españolas.
La explicabilidad en español es medible. Definimos una rúbrica con criterios: claridad, completitud, uso de unidades y fuentes, y honestidad sobre incertidumbre. Usuarios evaluadores puntúan respuestas; un promedio por caso indica si la narrativa acompaña a la decisión. Las explicaciones deberán referenciar capas y pasos (“unión espacial”, “buffer de 500 m”), evitando jerga excesiva.
El cumplimiento y la privacidad también se evalúan. Registramos si se aplican límites de resolución (no reportar métricas por debajo de umbral poblacional), si hay minimización de datos, y si los logs están pseudonimizados. Métricas de riesgo de reidentificación para trayectorias agregadas ayudan a aprobar auditorías y a dormir tranquilos.
Más allá del modelo, medimos impacto operativo. En movilidad urbana, reducción de retrasos y kilómetros en vacío; en residuos, kms ahorrados y emisiones; en turismo, dispersión de flujos y satisfacción. Cada indicador se acompaña de una contrafactual en español: qué habría pasado sin el sistema. Las pruebas A/B o periodos antes-después ofrecen evidencia; la clave es comunicarla en términos comprensibles para dirección y ciudadanía.
La calidad de datos merece capítulo propio. Mantenemos métricas de frescura, cobertura y completitud de metadatos de catálogos españoles. Alertas se disparan cuando un dataset clave envejece o pierde campos críticos. Un score de confianza por fuente guía la orquestación: si una capa baja su calidad, el sistema reduce su peso y alerta a responsables.
Por último, la gobernanza de métricas. Un repositorio en español, versionado, con definiciones y paneles públicos, evita “métricas al gusto”. Establecer umbrales por caso de uso y revisarlos trimestralmente institucionaliza la mejora continua. La participación de equipos multidisciplinares garantiza que medimos lo que importa y no solo lo fácil.
Datos curiosos
5 cosas que no sabías sobre este tema:
- Un % pequeño de consultas concentradas dispara el p99, clave para percepción de calidad.
- La cooficialidad añade hasta 10 puntos de F1 cuando se incluye en datasets de evaluación.
- Las explicaciones claras reducen tickets de soporte y mejoran NPS de productos geográficos.
- Un score de confianza por fuente evita decisiones basadas en capas desactualizadas.
- Medir impacto con contrafactuales convence más que cualquier métrica de laboratorio.