ElevenLabs presenta Scribe: La revolución de la transcripción de audio a texto

ElevenLabs presenta Scribe: La revolución de la transcripción de audio a texto

La inteligencia artificial no deja de sorprendernos, especialmente en el ámbito del reconocimiento de voz. ElevenLabs, una compañía que ya había captado la atención con su tecnología de texto a voz y creación de voces sintéticas, da un paso más allá con el lanzamiento de Scribe. Este nuevo modelo de transcripción promete redefinir la manera en que convertimos el audio en texto, ofreciendo una exactitud que la empresa asegura supera a competidores ya establecidos como Otter, TurboScribe, Google, Fireflies y Deepgram.

Un enfoque innovador en transcripción

Hasta ahora, ElevenLabs se había centrado en transformar texto en voces sintéticas. Con Scribe, han decidido ofrecer lo contrario: una herramienta precisa para convertir el habla en texto. Este cambio de dirección no solo amplía el espectro de servicios de la compañía, sino que también introduce una solución que destaca por su precisión y funcionalidad avanzada.

Características destacadas de Scribe

Scribe no se limita solamente a la conversión de audio a texto. Ofrece una serie de funcionalidades avanzadas que lo posicionan como una opción líder en el mercado. Algunas de sus características más notables son:

  • Compatibilidad con 99 idiomas: Incluyendo lenguas menos comunes como el serbio, el cantonés y el malayalam, lo que lo hace extremadamente versátil y accesible a una audiencia global.
  • Timestamps a nivel de palabra: Esto permite una sincronización precisa con el audio, facilitando la edición y revisión de las transcripciones.
  • Diarización de hablantes: Capacidad de identificar quién dice qué en una conversación, una función esencial para reuniones o entrevistas con múltiples participantes.
  • Etiquetado de eventos de audio: Marca pausas, ruidos de fondo y otros elementos relevantes de una grabación, lo que enriquece el contexto de la transcripción.

Estas funcionalidades hacen que Scribe sea ideal para una amplia variedad de usos, desde la generación de subtítulos para películas hasta la transcripción de reuniones empresariales y entrevistas.

Precisión sin precedentes

Uno de los aspectos que más enorgullece a ElevenLabs es la precisión de su modelo. Scribe ha sido evaluado usando pruebas de referencia como FLEURS y Common Voice, donde superó a modelos reconocidos como Whisper Large V3, Gemini 2.0 Flash y Deepgram Nova-3. Esta evaluación reveló índices de error excepcionalmente bajos en la transcripción de varios idiomas:

  • Italiano: 98.7% de exactitud
  • Inglés: 96.7% de exactitud
  • Otros 97 idiomas: Con resultados igualmente impresionantes

Esto significa que, independientemente del idioma, Scribe ofrece una transcripción más precisa que muchas soluciones actuales del mercado.

Facilidad de integración y costos

Para desarrolladores y empresas, ElevenLabs ofrece Scribe a través de una API de reconocimiento de voz, permitiendo recibir transcripciones estructuradas en formato JSON, incluyendo eventos de no habla, información de hablantes y marcas de tiempo. El modelo tiene un precio competitivo de 0.40 dólares por hora de audio, con un descuento especial de lanzamiento disponible por seis semanas.

Para quienes no necesiten una API, Scribe también está accesible mediante el dashboard de ElevenLabs, donde los usuarios pueden subir archivos de audio o video y obtener transcripciones automáticas en minutos.

Mirando al futuro: Transcripción en tiempo real

Actualmente, Scribe se centra en la precisión, pero ElevenLabs ya ha anunciado planes para lanzar una versión de baja latencia que permita aplicaciones en tiempo real. Esto podría revolucionar industrias como el soporte al cliente, la traducción simultánea y los asistentes de voz, donde la velocidad de respuesta es crucial.

El lanzamiento de Scribe por parte de ElevenLabs marca un antes y un después en el ámbito de la transcripción automática. Con una precisión inigualable, compatibilidad con un amplio espectro de idiomas y facilidad de integración, esta tecnología emerge como una opción altamente atractiva tanto para usuarios individuales como para empresas. En un campo que sigue evolucionando rápidamente, queda por ver cómo reaccionarán los competidores ante este avance.