Reconocimiento de voz en Google
Si siguen progresando a este ritmo, reduciendo la tasa de error en dos tercios cada dos años, podrían llegar a tasas de error por debajo del 1% a finales de la década.
Evidentemente los casos que les quedan son los más difíciles. La mayor parte de las palabras que oimos no las entenderíamos si vienieran sueltas, con lo que el contexto da mucha información. El contexto puede ser sintáctico o semántico. Por supuesto la parte difícil es la semántica, así que he hecho una prueba con mi teléfono. Le he picado al microfonito de Google search y he dicho:
ay, ay, que daño! y luego: ahí hay un caballo.
Evidentemente, para decidir entre "ay", "ahí" y "hay" tienes que utilizar tanto el contexto sintáctico como el semántico.
El resultado? reconocimiento perfecto. De hecho ví cambiar en los resultados el hay por un ay en el primer ejemplo cuando dije "que daño". Claramente el sistema reconoce la frase completa. No va palabra por palabra. Impresionante. Haced la prueba.
Y esto teniendo en cuenta que funciona en tiempo real y que el número de usuarios puede ser brutal porque a medida que va siendo más fiable, se utiliza más. O es extremadamente eficiente en cuanto a recursos o da miedo pensar la cantidad de ciclos que están utilizando para este servicio.
Para poder reducir aún más la tasa de error el sistema debe empezar a mirar contextos más amplios, usos del lenguage, jergas especializadas, recordar lo que has dicho en frases anteriores, de qué tema estás hablando, etc... Esto lleva el problema bastante lejos de lo que es el puro "dictado", porque para tomar ese tipo de decisiones hay que utilizar contextos más complejos y más abstractos, reglas y usos del lenguage no habituales, y supongo que un montón de cosas más. Cada punto de reducción de la tasa de errores a partir de ahora significará que el sistema "entiende" más cosas en el sentido de "sentido común".
Por supuesto en el momento en que empiezas a entender de lo que se está hablando se abren un montón de posibilidades. El día que a Google se le ocurra utilizar esto para desarrollar un sistema de atención al cliente por voz la lían. Integrando todos los datos que se tienen sobre tí, una base de conocimento sobre el negocio y un contexto bien delimitado. Un sistema así tiene que ser superior al típico currito de centro de atención al cliente, que tienen una rotación enorme, no saben quién eres, de qué hablan, y muchas veces son extranjeros, con lo que su "tasa de error" en reconocimiento de voz puede ser mayor que la del sistema de google. El tema no es que sea mucho más barato, que lo sería. El tema es que funcinaría mejor.
Así que ojito, que la inteligencia artificial está avanzando a toda pipa últimamente y vamos a empezar a ver gente quedarse sin trabajo en cantidades ingentes.
Visto aquí:
Comentarios