NUEVA DELHI: Ingenieros en el Google están tratando de hacer que el asistente basado en el reconocimiento de voz de Android, Google Now, funcione sin conexión a Internet. Según un artículo de investigación reciente, los ingenieros idearon una solución para aprovechar la tecnología de aprendizaje automático profundo para ejecutar una versión más ligera de un asistente similar a Google Now sin conexión.
Dado que las velocidades de Internet decentes son un gran problema en la India, esta solución sin duda puede mejorar la experiencia general. Además, con Google Now que tiene la opción de trabajar sin conexión, los usuarios de teléfonos inteligentes Android pueden esperar una mayor duración de la batería y resultados más rápidos.
Lea también: Android N vs Android Marshmallow: 10 nuevas características
Google Now se basa principalmente en la nube y requiere mucha habilidad de hardware, mucho más de lo que pueden ofrecer los teléfonos inteligentes, para desconectar a todo el asistente. Así que los ingenieros trabajaron en una versión ligera. Afirmaron haber logrado una tasa de error de voz del 13,5% sin conexión en comparación con el 8% mientras estaban conectados. Además, la versión sin conexión más liviana es sorprendentemente más rápida.
«Describimos un sistema de reconocimiento de voz de gran vocabulario que es preciso, tiene baja latencia y, sin embargo, tiene una memoria y un espacio computacional lo suficientemente pequeños para funcionar más rápido que en tiempo real en un teléfono inteligente Android Nexus 5», dijo el documento.
Lee también
Al explicar la tecnología, el documento declaró: “Empleamos un modelo acústico cuantificado de memoria a corto plazo (LSTM) entrenado con clasificación temporal conexionista (CTC) para predecir directamente los objetivos de fonemas y reducir aún más su huella de memoria utilizando un esquema de compresión basado en SVD. Además, minimizamos nuestra huella de memoria mediante el uso de un modelo de un solo idioma para los dominios de dictado y comando de voz, creado mediante la interpolación bayesiana. Finalmente, para manejar correctamente la información específica del dispositivo, como nombres propios y otra información dependiente del contexto, inyectamos elementos de vocabulario en el gráfico del decodificador e impulsamos el modelo de lenguaje en tiempo real”.