Reconocimiento de voz en Google


Image result for hal
He leido un artículo donde un ingeniero de Google que trabaja en deep learning (redes neuronales) dice que han pasado de una tasa de error del 23% en reconocimiento de voz en 2013 (casi una de cada cuatro palabras) a una tasa de error del 8% este año (menos de una de cada diez). 

Si siguen progresando a este ritmo, reduciendo la tasa de error en dos tercios cada dos años, podrían llegar a tasas de error por debajo del 1% a finales de la década.

Evidentemente los casos que les quedan son los más difíciles. La mayor parte de las palabras que oimos no las entenderíamos si vienieran sueltas, con lo que el contexto da mucha información. El contexto puede ser sintáctico o semántico. Por supuesto la parte difícil es la semántica, así que he hecho una prueba con mi teléfono. Le he picado al microfonito de Google search y he dicho:

ay, ay, que daño! y luego: ahí hay un caballo.

Evidentemente, para decidir entre "ay", "ahí" y "hay" tienes que utilizar tanto el contexto sintáctico como el semántico.

El resultado? reconocimiento perfecto. De hecho ví cambiar en los resultados el hay por un ay en el primer ejemplo cuando dije "que daño". Claramente el sistema reconoce la frase completa. No va palabra por palabra. Impresionante. Haced la prueba.

Y esto teniendo en cuenta que funciona en tiempo real y que el número de usuarios puede ser brutal porque a medida que va siendo más fiable, se utiliza más. O es extremadamente eficiente en cuanto a recursos o da miedo pensar la cantidad de ciclos que están utilizando para este servicio.

Para poder reducir aún más la tasa de error el sistema debe empezar a mirar contextos más amplios, usos del lenguage, jergas especializadas, recordar lo que has dicho en frases anteriores, de qué tema estás hablando, etc... Esto lleva el problema bastante lejos de lo que es el puro "dictado", porque para tomar ese tipo de decisiones hay que utilizar contextos más complejos y más abstractos, reglas y usos del lenguage no habituales, y supongo que un montón de cosas más. Cada punto de reducción de la tasa de errores a partir de ahora significará que el sistema "entiende" más cosas en el sentido de "sentido común".

Por supuesto en el momento en que empiezas a entender de lo que se está hablando se abren un montón de posibilidades. El día que a Google se le ocurra utilizar esto para desarrollar un sistema de atención al cliente por voz la lían. Integrando todos los datos que se tienen sobre tí, una base de conocimento sobre el negocio y un contexto bien delimitado. Un sistema así tiene que ser superior al típico currito de centro de atención al cliente, que tienen una rotación enorme, no saben quién eres, de qué hablan, y muchas veces son extranjeros, con lo que su "tasa de error" en reconocimiento de voz puede ser mayor que la del sistema de google. El tema no es que sea mucho más barato, que lo sería. El tema es que funcinaría mejor.

Así que ojito, que la inteligencia artificial está avanzando a toda pipa últimamente y vamos a empezar a ver gente quedarse sin trabajo en cantidades ingentes.

Visto aquí:


Comentarios

Antonio ha dicho que…
En Minority Report las tiendas te reconocían, un dependiente virtual te ofrecía mercancía basándose en tus gustos, tus anteriores compras, te preguntaba por los ya comprado, etc... Supongo que llegaremos a hablar con una máquina que lo sepa todo sobre nosotros y nos parecerá genial (no tendremos que explicarle lo mismo a 5 operadores distintos, nos entenderá a la primera, etc), pero es cada día más acojonante.

Entradas populares