
¿Qué tan precisa es la traducción cruzada en sesiones reales? Estudio interno con 50 sesiones bilingües
Medimos la precisión de traducción en 50 sesiones bilingües ES↔EN con evaluación humana. 92% en frases neutras, 84% en términos clínicos, 78% en jerga regional. Lo que aprendimos y lo que aún falta.
Antes de lanzar el modo bilingüe de CauceOS como una función de producto, queríamos entender realmente qué tan bien funciona en el contexto específico para el que lo construimos: sesiones profesionales 1-a-1 donde dos personas hablan idiomas distintos sobre temas clínicos o de HR.
Los benchmarks estándar de traducción miden precisión en texto general — noticias, libros, conversaciones casuales. Ninguno mide lo que nosotros necesitábamos medir: cómo funciona la traducción cuando alguien dice "transferencia" en el contexto de una sesión psicoanalítica, o cuando un recruiter habla de "culture fit" en inglés y eso tiene que llegar en español a un candidato latinoamericano con su significado intacto.
Así que hicimos el estudio internamente.
Metodología
Seleccionamos 50 sesiones bilingües de nuestra beta privada, todas con el par ES↔EN, donde el profesional dio consentimiento explícito para el uso de la sesión con fines de investigación anonimizada. Los participantes incluían psicólogos, terapeutas de pareja, profesionales de HR y coaches.
Contratamos cuatro evaluadores humanos: dos hispanohablantes nativos con formación en psicología clínica, y dos angloparlantes nativos con experiencia en contextos clínicos y de HR. Cada evaluador revisó los segmentos de traducción de forma independiente, sin ver las evaluaciones de los demás.
Para la evaluación, usamos dos métricas:
BLEU score (Bilingual Evaluation Understudy) — una métrica automática estándar que mide qué tanto se superpone la traducción producida con una traducción de referencia producida por un experto humano. BLEU va de 0 a 1, donde 1 es una traducción perfecta.
Evaluación humana de 1-5 — los evaluadores calificaron cada segmento en una escala donde: 1 = traducción incorrecta que cambia el significado, 3 = traducción comprensible pero con pérdida de matiz, 5 = traducción precisa que preserva tanto el significado como el tono.
Resultados
Frases neutras: 92% de precisión
Las frases de contenido general — saludos, preguntas de apertura, transiciones conversacionales, referencias temporales — mostraron el mejor desempeño. BLEU promedio: 0.84. Evaluación humana promedio: 4.6 / 5.
En este segmento, los errores fueron mínimos y consistían principalmente en diferencias de registro (informal vs. formal) que no afectaban el significado.
Términos clínicos: 84% de precisión
Aquí las cosas se volvieron más interesantes. El sistema maneja bien los términos estándar del vocabulario clínico anglosajón que tienen equivalentes directos en español: "depression" → "depresión", "anxiety" → "ansiedad", "cognitive behavioral therapy" → "terapia cognitivo-conductual".
Los errores aparecieron en tres categorías:
Términos con matiz cultural. "Resilience" en inglés tiene connotaciones de bounce-back que en español "resiliencia" preserva, pero "resistance" como concepto psicoanalítico ("resistencia" en Freud) no tiene el mismo peso en las dos tradiciones. El sistema los manejó de forma variable.
Epónimos de modalidades terapéuticas. "Gottman Four Horsemen" → "Los Cuatro Jinetes de Gottman" funcionó bien. Pero "softened start-up" — un término técnico de Gottman — produjo traducciones inconsistentes ("inicio suavizado", "arranque gentil", "apertura suavizada") según el contexto de la frase.
Términos en inglés ya adoptados en el español clínico. En muchos contextos hispanos, términos como "burnout", "coaching", y "mindfulness" se usan directamente en inglés. El sistema a veces los tradujo cuando no debía.
Jerga regional: 78% de precisión
Este fue el segmento con más variación. La jerga regional incluye modismos, expresiones idiomáticas, y vocabulario que varía significativamente entre países hispanohablantes.
"Estoy muy jodido" puede significar "estoy muy mal" en un contexto clínico hispano — pero la traducción literal en inglés ("I am very fucked up") tiene connotaciones distintas y puede sonar más fuerte que la intención original. El sistema produjo traducciones comprensibles pero con pérdida de matiz en el 22% de estos segmentos.
La jerga laboral presentó problemas similares. "Hay que quemar las naves" (hay que comprometerse sin vuelta atrás) no tiene un equivalente idiomático directo en inglés que capture el mismo tono de determinación en un contexto de HR.
Lo que esto significa para el producto
Los números son buenos para uso en producción en los dos primeros segmentos. 92% de precisión en frases neutras y 84% en términos clínicos es suficiente para que el profesional comprenda el mensaje esencial de lo que el cliente está diciendo — que es el objetivo del modo bilingüe.
El 78% en jerga regional requiere una capa de advertencia. En sesiones donde el cliente usa jerga regional intensa — lo que ocurre con menos frecuencia, pero ocurre — el profesional debe tratarlo como una aproximación, no como una transcripción exacta.
Implementamos tres mejoras basadas en este estudio:
- Cuando el sistema detecta un segmento con baja confianza de traducción, lo marca visualmente para el profesional.
- El glosario de términos clínicos por modalidad ahora es específico por modalidad activa — los términos de Gottman se tratan diferente a los términos psicoanalíticos.
- Añadimos un mecanismo para que el profesional corrija una traducción específica, y esa corrección se aplica como preferencia en sesiones futuras.
Disclaimer importante
Este es un estudio interno, no revisado por pares, con una muestra pequeña (50 sesiones) y un par de idiomas (ES↔EN). Las conclusiones no son generalizables a otros pares de idiomas ni a todos los contextos clínicos. Los publicamos porque creemos que la transparencia sobre el desempeño real de los sistemas es más útil para los profesionales que las afirmaciones de marketing sin datos.
A medida que expandamos el modo bilingüe a más pares de idiomas, publicaremos estudios similares.
¿Quieres participar en el programa de beta de traducción cruzada con tu par de idiomas específico? Escríbenos a hola@cauceos.com.
Más en esta categoría
InvestigaciónCauceOS · Newsletter
Recibe las próximas notas directo a tu correo
Reflexiones, prácticas y novedades de CauceOS. Sin spam. Te puedes dar de baja cuando quieras.
Continúa leyendo
Investigaciónestudios internos
En vivo vs post-sesión: por qué la asistencia en el momento gana (estudio interno)
Comparamos sugerencias generadas en vivo contra resúmenes post-sesión en 84 sesiones con 12 terapeutas. El 73 por ciento de las sugerencias post-sesión llegan demasiado tarde para impactar la sesión donde se necesitaban. Resultados, metodología, limitaciones.
Productobilingüe
Cómo funciona el co-pilot bilingüe (y por qué importa para tu próxima sesión)
Una explicación clara y sin tecnicismos de cómo CauceOS te asiste en vivo cuando dos personas hablan idiomas distintos en la misma sesión.
Psicologíamodalidades terapéuticas
Modalidades terapéuticas en LATAM: lo que descubrimos hablando con 40 psicólogos
Hablamos con 40 psicólogos de cinco países hispanohablantes para entender qué marcos terapéuticos usan realmente. Lo que encontramos cambió cómo diseñamos CauceOS.