Saltar al contenido
Te encuentras en Mejores comparativas > Electrónica > Componentes Pc > Cómo funciona el software de generador de voces con inteligencia artificial

Cómo funciona el software de generador de voces con inteligencia artificial

A finales de 2022, Voicebot.ai publicó la lista del “mejor software generador de voz del año”. Esta lista incluye empresas de una increíble variedad de industrias (salud y belleza, servicios financieros, medios, entretenimiento, comida rápida, alimentos y bebidas envasados, salud, educación, automoción e incluso bienes de consumo envasados). Estas empresas han producido cualquier tipo de aplicación de voz, principalmente para altavoces inteligentes, pero también para algunos asistentes de voz exclusivos y también para al menos un sistema de control de voz de vehículos.

Cómo funciona el software de generador de voces con inteligencia artificial

Todas las marcas en esta lista son líderes en sus campos. ¿Qué podemos sacar de esa lista?

La tecnología de voz no es solo para la industria tecnológica.

Las marcas más importantes del mañana, incluidas las de su industria, están trabajando hoy en estrategias de voz. Para hacer lo mismo, necesita saber un poco más sobre la tecnología detrás de los sistemas de voz digitales de hoy: software de generador de voces con inteligencia artificial.

Software de generador de voces con inteligencia artificial: ¿qué es?

El software de generador de voces con inteligencia artificial es una tecnología emergente e incluso los expertos de la industria aún tienen que ponerse de acuerdo sobre una definición clara del término. Los bloggers de tecnología lo usan para referirse a cualquier intersección entre la inteligencia artificial y el reconocimiento de voz automatizado (cómo las computadoras entienden el lenguaje hablado) y/o la generación de texto a voz (cómo hablan las computadoras).

Algunos escritores llaman a los perfiles de altavoces inteligentes como Alexa “inteligencias artificiales de voz”. Otros usan este término para describir la producción de voz sintética que utiliza el aprendizaje automático. Estas diferencias en el uso sugieren dos definiciones. Sabiendo esto, aquí hay una entrada sugerida para un futuro diccionario:

  • Software de generador de voces con inteligencia artificial
  • Abreviatura: Voz AI

Definición de software de generador de voces con inteligencia artificial

1. Software capaz de aprendizaje automático utilizando una interfaz de usuario de voz (VUI) para aceptar comandos y devolver resultados, como en asistentes de voz como Alexa, Siri, texto a voz azure de Microsoft y Google Assistant

Por ejemplo, “Establecer citas, reorganizar cosas y más… su IA de voz conectará todos los datos de sus dispositivos y realizará estas tareas por usted…”

2. Proceso y resultado de generación de voz sintética utilizando potentes redes neuronales, incluida la clonación de voz con IA y el software Deep Voice.

Por ejemplo, ” La tecnología Voice AI se trata de comprender qué constituye una voz humana y luego reproducirla después de grabar esas cosas”.

La primera definición se refiere a un perfil basado en inteligencia artificial que interactúa con los usuarios a través de la voz. El segundo se refiere al uso de IA para generar una voz sintética, como un clon de voz basado en IA. Las marcas con visión de futuro están utilizando IA de voz bidireccional para generar reconocimiento, fidelizar a los clientes y diferenciarse de la competencia en un entorno de medios cada vez más ausente visualmente.

Cómo las empresas utilizan asistentes basados ​​en IA de voz

La mayoría de las marcas utilizan software de generador de voces con inteligencia artificial según la segunda definición mencionada anteriormente. Esto significa que desarrollarán una voz dedicada literal utilizando la poderosa red neuronal de un.

Pero como ilustra la lista de Voicebot, es posible que las marcas más grandes terminen produciendo sus propios asistentes virtuales y/o productos conectados que alojan estos perfiles. Estos son algunos ejemplos de asistentes de marca, basados ​​en IA de voz:

  • En 2018, Bank of America lanzó un asistente financiero virtual basado en IA llamado Erica. Este perfil activado por voz vive en la aplicación móvil de Bank of America. Erica manejó más de 35 millones de “solicitudes de clientes” de 6 millones de usuarios a partir de marzo de 2019. Estas solicitudes podrían estar relacionadas con la lectura en voz alta del código de seguimiento del cliente o el seguimiento de transacciones específicas pasando por una advertencia que informa del cambio en la cantidad de cargos recurrentes. , todo a través de una interfaz de usuario de voz.
  • El año anterior, Capital One lanzó un asistente de inteligencia artificial llamado Eno. Eno fue uno de los primeros bots de voz dedicados fuera de los principales perfiles de altavoces inteligentes. Este asistente virtual está disponible a través de la aplicación móvil de Capital One y en su sitio web.
  • Los conductores de los nuevos modelos de Mercedes pueden despertar al asistente virtual MBUX nativo diciendo “Hola, Mercedes”. Este sistema utiliza la comprensión del lenguaje natural, una forma de inteligencia artificial, para reconocer diferentes comandos. Hablando de forma natural, los conductores pueden pedir direcciones, bajar el aire acondicionado, cambiar las estaciones de radio y más con este asistente de voz en el vehículo.

Pocas marcas tienen los recursos para desarrollar productos de voz personalizados impulsados ​​por IA como estos. La forma más común de aprovechar la identidad de la marca en entornos de solo voz es producir una voz dedicada personalizada, un proceso que, en su nivel más alto, también utiliza inteligencia artificial.

Inteligencia artificial en la generación de voces sintéticas

La inteligencia artificial ayuda a crear voces sintéticas realistas, incluidos clones de voz impulsados ​​por IA, que imitan fielmente el sonido de un altavoz específico. Para crear un clon de voz basado en IA, los ingenieros utilizan poderosas redes neuronales (DNN), una forma compleja de arquitectura informática que imita las conexiones sinápticas en el cerebro humano. Estos sistemas reconocen patrones en conjuntos de datos. Esto significa que puedes entrenarlos: ellos “aprenden”. El entrenamiento de un modelo en una DNN se denomina aprendizaje profundo.

Para clonar una voz, los técnicos ingresan grabaciones de audio del hablante de origen en el software Deep Voice, un tipo de red neuronal especializada. DNN identifica las modulaciones más pequeñas de esa voz (tono, pronunciación, velocidad, énfasis, ritmo) y crea un modelo que puede imitar esas complejidades mientras ejecuta guiones completamente nuevos. Esta tecnología de voz basada en IA crea tremendas oportunidades nuevas para la identificación de marca. Por ejemplo:

Clones de voz de IA para voces de renombre

A principios y mediados de la década de 2000, el actor James Earl Jones era “la voz de Verizon”. Apareció en los anuncios de la empresa. Participó en eventos de promoción de marca. Pero en ese momento, había relativamente pocos puntos de contacto vocales entre las marcas y sus clientes: el cronograma de grabación de James Earl Jones era manejable.

Si Verizon y James Earl Jones tuvieran la misma relación hoy en día, la empresa se arruinaría si el actor grabara guiones para todos los nuevos canales de voz: comerciales, aplicaciones de altavoces inteligentes, servidores de voz interactivos (IVR), etc. Un clon de voz con licencia de James Earl Jones permitiría a Verizon mantener su identidad de marca en todos los canales de voz sin los gastos y desafíos de programar innumerables sesiones de grabación.

Voces consistentes de la mascota de la marca

Las celebridades de la vida real no son las únicas cuyas voces se pueden clonar. Personajes como Ronald McDonald, Mickey Mouse o Chester Cheetah también crean una experiencia de marca uniforme en todos los canales de audio. La clonación de voz permite que un personaje conserve la misma voz de generación en generación, sin las sutiles variaciones que conllevan los cambios de profesionales de la voz.

Voces personalizadas dedicadas completamente nuevas

Cuando las marcas desarrollan voces personalizadas, pueden implementar este identificador único en la creciente gama de dispositivos y medios que priorizan la voz: asistentes de voz basados ​​en IA, sistemas IVR, infoentretenimiento en el automóvil, pantallas interactivas en la tienda, materiales de aprendizaje electrónico, televisión, radio, publicidad en línea, videos instructivos, herramientas de accesibilidad, chatbots y más. Esto crea una experiencia consistente que sigue al cliente durante todo el día, generando reconocimiento, confianza y lealtad, sin los costos repetitivos asociados con el talento de voz.

Es el tipo de inteligencia artificial habilitada por voz que impulsará la innovación de marca en el futuro. Lo que no incluye la lista de Voicebot.ai de los mejores esfuerzos de identidad de voz para 2019 es la gran cantidad de voces dedicadas generadas por inteligencia artificial. Ese año, fue suficiente para desarrollar una aplicación para altavoces inteligentes. Esto cambiará en listados futuros.

En 2020, por ejemplo, Amazon anunció que las voces dedicadas podrían integrarse en Alexa Skills. Seguramente le seguirán otros fabricantes de dispositivos conectados. El próximo año, los innovadores de la marca de voz serán los que puedan integrar de manera más efectiva el software de generador de voces con inteligencia artificial en sus estrategias digitales.