Que es el asr

Que es el asr

Qué es el asr en los negocios

El reconocimiento del habla es un subcampo interdisciplinar de la informática y la lingüística computacional que desarrolla metodologías y tecnologías que permiten el reconocimiento y la traducción del lenguaje hablado a texto por parte de los ordenadores. También se conoce como reconocimiento automático del habla (ASR), reconocimiento del habla por ordenador o conversión del habla en texto (STT). Incorpora conocimientos e investigaciones en los campos de la informática, la lingüística y la ingeniería informática.

Algunos sistemas de reconocimiento del habla requieren un «entrenamiento» (también llamado «inscripción») en el que un hablante individual lee un texto o un vocabulario aislado en el sistema. El sistema analiza la voz específica de la persona y la utiliza para afinar el reconocimiento del habla de esa persona, lo que resulta en una mayor precisión. Los sistemas que no utilizan el entrenamiento se denominan sistemas «independientes del hablante»[1]. Los sistemas que utilizan el entrenamiento se denominan «dependientes del hablante».

Las aplicaciones de reconocimiento de voz incluyen interfaces de usuario de voz como la marcación por voz (por ejemplo, «llamar a casa»), el enrutamiento de llamadas (por ejemplo, «me gustaría hacer una llamada a cobro revertido»), el control de electrodomésticos, la búsqueda de palabras clave (por ejemplo, encontrar un podcast en el que se hayan pronunciado determinadas palabras), la introducción de datos simples (por ejemplo, introducción de un número de tarjeta de crédito), preparación de documentos estructurados (por ejemplo, un informe de radiología), determinación de las características del hablante,[2] procesamiento de voz a texto (por ejemplo, procesadores de texto o correos electrónicos) y aviones (lo que suele denominarse entrada directa de voz).

Qué es asr en volkswagen

A continuación, hay que identificar a los distintos hablantes de cada grabación y agruparlos en segmentos según su identidad, resolviendo el problema de «¿quién habla cuándo?». Para ello, la máquina utiliza diferentes modelos con datos específicos (idiomas, voz). De este modo, puede diferenciar las sutilezas de un idioma (como los acentos, por ejemplo). Hay que tener en cuenta que en este punto todavía estamos procesando los datos de forma «matemática».

Ahora es cuando comienza la transcripción propiamente dicha. Se establece una lista de posibles sílabas (fonemas) para cada segmento de audio. Por el momento, no se han generado frases completas, sino una larga lista de posibilidades, cada una con una puntuación.

De todos los fonemas y palabras aprendidos durante la fase inicial, el ordenador elige los que probablemente formen la frase más precisa (es un poco como la forma en que un GPS identifica la mejor ruta). Esta frase es la que se transcribe en el documento.

El nivel de calidad estándar de una transcripción automática sigue siendo tan alto como el de una transcripción «tradicional». Y en cualquier caso, una vez realizada la transcripción automática, un traductor humano revisa la transcripción… ¡igual que lo haría con una transcripción tradicional!

Qué es la oración asr

ASR, o Reconocimiento Automático del Habla, se refiere al problema de conseguir que un programa transcriba automáticamente el lenguaje hablado (voz a texto). Nuestro objetivo suele ser tener un modelo que minimice la métrica de la Tasa de Error de Palabras (WER) al transcribir la entrada del habla. En otras palabras, dado un archivo de audio (por ejemplo, un archivo WAV) que contiene habla, ¿cómo lo transformamos en el texto correspondiente con el menor número de errores posible?

El reconocimiento del habla tradicional adopta un enfoque generativo, modelando todo el proceso de producción de los sonidos del habla para evaluar una muestra de habla. Partimos de un modelo lingüístico que recoge las ordenaciones más probables de las palabras que se generan (por ejemplo, un modelo de n-gramas), de un modelo de pronunciación para cada palabra en esa ordenación (por ejemplo, una tabla de pronunciación), y de un modelo acústico que traduce esas pronunciaciones a formas de onda de audio (por ejemplo, un modelo de mezcla gaussiana).

A continuación, si recibimos una entrada hablada, nuestro objetivo sería encontrar la secuencia de texto más probable que daría como resultado el audio dado de acuerdo con nuestra canalización generativa de modelos. En general, con el reconocimiento del habla tradicional, tratamos de modelar Pr(audio|transcripción)*Pr(transcripción), y tomamos el argmax de esto sobre las posibles transcripciones.

Qué es el asr en la construcción

El ASR, o Reconocimiento Automático del Habla, se refiere al problema de conseguir que un programa transcriba automáticamente el lenguaje hablado (voz a texto). Nuestro objetivo suele ser tener un modelo que minimice la métrica de la Tasa de Error de Palabras (WER) al transcribir la entrada del habla. En otras palabras, dado un archivo de audio (por ejemplo, un archivo WAV) que contiene habla, ¿cómo lo transformamos en el texto correspondiente con el menor número de errores posible?

El reconocimiento del habla tradicional adopta un enfoque generativo, modelando toda la cadena de producción de los sonidos del habla para evaluar una muestra de habla. Partimos de un modelo lingüístico que recoge las ordenaciones más probables de las palabras que se generan (por ejemplo, un modelo de n-gramas), de un modelo de pronunciación para cada palabra en esa ordenación (por ejemplo, una tabla de pronunciación), y de un modelo acústico que traduce esas pronunciaciones a formas de onda de audio (por ejemplo, un modelo de mezcla gaussiana).

A continuación, si recibimos una entrada hablada, nuestro objetivo sería encontrar la secuencia de texto más probable que daría como resultado el audio dado de acuerdo con nuestra canalización generativa de modelos. En general, con el reconocimiento del habla tradicional, tratamos de modelar Pr(audio|transcripción)*Pr(transcripción), y tomamos el argmax de esto sobre las posibles transcripciones.

Que es el asr
Scroll hacia arriba
Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad