Android aprenderá a reconocer al propietario por voz

Ahora el servicio podrá seleccionar música para los gustos personales de cada uno.

  • Alice recuerda hasta cinco miembros de la familia junto con el propietario del dispositivo. Para que ella pueda hacer esto, todos deben instalar la aplicación “House with Alice”; a través de ella, el propietario de la columna invitará a sus familiares a administrar una casa “inteligente” común.
  • Después de eso, los usuarios tendrán que recurrir al asistente para que el servicio “recuerde” su voz. También podrán controlar la casa “inteligente” cada uno desde su propio dispositivo.
  • Se le puede pedir al asistente que “active un favorito” o que agregue el “favorito” de otra persona a su lista de reproducción. Y también pide no jugar lo que no te gusta.

Antes de esto, “Alisa” solo podía memorizar una voz a pedido, por lo que todas las solicitudes, me gusta y preferencias se asignaban solo al propietario de la estación.

Convenientemente, puede comprender de inmediato al camarada mayor que critica a las autoridades hasta qué punto

Para que el compañero mayor entienda quién critica a las autoridades cómo, su teléfono en la mesa es suficiente para el camarada mayor, no se haga ilusiones.

Comentario eliminado por el moderador

y recoge al diablito D

jodido johnny sins sacudió

Sería mejor si yandex enseñara a su columna a no hacer bromas ingeniosas y no darme consejos no solicitados.
El régimen del “esclavo silencioso” es mucho más necesario que toda esta basura.
Y luego pones un recordatorio o algo, y esta maldita cosa lo está intentando durante otros dos minutos.

Esta función ha existido durante mucho tiempo, simplemente enciéndala.

modo esclavo silencioso))) bueno, de hecho, esta es una característica de este asistente: comentarios cáusticos

Se ha hecho durante mucho tiempo, solo cambie la configuración.

Para ser honesto, solía tratar a Alice como otra sustitución de importaciones producida en masa. Pero con el tiempo, cambió de opinión. Por supuesto, este es un juguete, pero de bastante alta calidad y agradable.
PD Estoy esperando la función de notas de voz.

¡Reglas de Yandex! Y estas no son solo palabras, cada semana se anuncia algo, y no importa cuán genial sea, es importante que todo esto siga adelante. Todo esto también se refleja en la dinámica de los valores de la empresa, que, a diferencia de muchos otros, no solo sobreviven, sino que en realidad son acciones de crecimiento, lo que se demuestra y se puede ver en el gráfico de precios en la Bolsa de Moscú.

READ
Android es para jóvenes genios, iPhone es para principiantes

Las acciones de crecimiento se ven así

Comentario eliminado por el moderador

Comentario eliminado por el moderador

Comentario eliminado por el moderador

Comentario eliminado por el moderador

La columna Alice de Yandex ayuda en algunos momentos, esta es una ayuda muy buena para una persona ciega. Ahora, si desarrollaron en esta dirección, digamos, un refrigerador con un escáner para la fecha de vencimiento y el tipo de producto, etiquetas de geolocalización que se pueden colocar alrededor del perímetro para un punto de referencia, completo con sensores portátiles que vibran en presencia de obstáculos. Mientras tanto, en su mayor parte, la columna es un juguete, cuyo soporte durante 3 años no puede responder claramente por qué, en lugar de mi ciudad, la ciudad de Plast se rinde persistentemente.

¿Alguien más instala voluntariamente este dispositivo en casa?

He comprado además del grande y la versión max. El audio de tres vías y el ecosistema. Listo para ser un “idiota” si la gente como yo te parece así

hay suficientes idiotas, como dijo un especialista en TI familiar, al niño le gusta)

¡Camarada mayor, tiene excelentes tareas para los desarrolladores de Yandex!

El camarada mayor no tiene nada más que hacer para seguir la aburrida vida de los rusos. No pueden rastrear a los personajes que buscan en Internet para recolectar bombas o comprar armas ilegalmente, donde pueden seguir al resto. Sí, y para qué. Muchas personas piensan que necesitan a alguien. Sí, incluso si fueran necesarios, si vives una vida normal y no haces nada ilegal, entonces qué desastre.

Mi esposa, como no instaló una aplicación para controlar dispositivos desde su teléfono, es poco probable que la instale. Y ella no escucha música en casa.

Manténgase al día con lo que pasa con la esposa

Me da vergüenza preguntar, ¿no son datos biométricos de voz?

En relación con el resto de los datos, lo más probable es que sí, pero en las categorías de “ronco, ronco y chirriante”, difícilmente. Yasha dirá (está mintiendo, por supuesto) que no almacena otros datos, y que no podrá llegar al fondo.

READ
Android Go Pixel Launcher disponible para descargar en dispositivos con RAM limitada

Todo esto es genial, pero ¿cuándo le enseñarás a Alice a distinguirla de otras similares?
Tengo una hija, Marisa, y Alice está harta de contestar cada vez que llamo a Marisa, ¡no a Alice! Y por mucho que traté de llamarla, al menos en sílabas, al menos lentamente MA-RI-SA, ¡todo en vano! Creo que con la misma Larisa habrá basura similar.
En general, es mejor hacerlo para que pueda cambiar el nombre de la estación por el suyo propio, porque Alice también es mucho, por qué otros deberían sufrir)
@Cuenta congelada favor de dar mas opciones a la estacion!

puede cambiar la frase de activación a “Yandex”, esto está en la configuración de la columna

:)

Discriminación de todos Alice sobre una base nominal

Finalmente. Yo estaba esperando a este. Toda la familia ajusta mis consultas de búsqueda de videos, música, etc. El caso cuando Yandex es genial.

La semana pasada, el “fake” de la voz todavía funcionaba bastante bien por sí mismo, aceptó sin problemas. Pero en general, para algunas situaciones, debería ser bastante conveniente.

Es posible que ya te hayas encontrado con la identificación por voz. Se utiliza en los bancos para la identificación por teléfono, para la verificación de identidad en los puntos de control y en los asistentes de voz domésticos que pueden reconocer al propietario. ¿Sabes cómo funciona? Decidí mirar los detalles y hacer mi propia implementación.

Características de la voz

En primer lugar, la voz está determinada por su altura. El tono es la frecuencia fundamental del sonido alrededor de la cual se construyen todos los movimientos de las cuerdas vocales. Esta frecuencia es fácil de sentir con el oído: alguien tiene una voz más alta, más fuerte, y alguien más bajo, bajo.

Otro parámetro importante de la voz es su fuerza, la cantidad de energía que una persona pone en la pronunciación. La fuerza de la voz depende de su volumen, saturación.

READ
Samsung presentó One UI 2.0 shell en Android 10

Otra característica es cómo la voz se mueve de un sonido a otro. Este parámetro es el más difícil de entender y escuchar, aunque es el más preciso, como una huella dactilar.

Preprocesamiento de sonido

La voz humana no es una sola onda, es la suma de las muchas frecuencias individuales producidas por las cuerdas vocales, así como sus armónicos. Debido a esto, es difícil encontrar patrones de voz en el procesamiento de datos de ondas sin procesar.

La transformada de Fourier vendrá en nuestra ayuda, una forma matemática de describir una onda de sonido compleja con un espectrograma, es decir, un conjunto de muchas frecuencias y amplitudes. Este espectrograma contiene toda la información clave sobre el sonido: así es como averiguamos qué frecuencias contiene la voz original.

Pero la transformada de Fourier es una función matemática que apunta a una señal de audio ideal e invariable, por lo que requiere una adaptación práctica. Entonces, en lugar de extraer frecuencias de toda la grabación a la vez, dividiremos esta grabación en pequeños segmentos, durante los cuales el sonido no cambiará. Y aplica la transformación a cada una de las piezas.

Espectrograma de canto de pájaro

No es difícil elegir la duración de un bloque: en promedio, una persona pronuncia una sílaba en 70-80 ms, y una entonación enfatizada es el doble de larga: 100-150 ms. Puedes leer más sobre esto en el estudio.

El siguiente paso es calcular el espectrograma de segundo orden, es decir, el espectrograma a partir del espectrograma. Esto debe hacerse, ya que el espectrograma, además de las frecuencias fundamentales, también contiene armónicos que no son muy convenientes para el análisis: duplican información. Estos armónicos están ubicados a la misma distancia entre sí, su única diferencia es una disminución en la amplitud.

Veamos cómo se ve el espectro de sonido monótono. Comencemos con una onda: una onda sinusoidal que, por ejemplo, emite un teléfono alámbrico al marcar un número.

READ
Fin de la espera: Android Lollipop para Nexus 4, 5, 7 y 10 rebota por todo el planeta

Se puede ver que, además del pico principal, que en realidad representa la señal, hay picos más pequeños, armónicos, que no llevan información útil. Por eso, antes de obtener un espectrograma de segundo orden, se logaritmiza el primer espectrograma, lo que da como resultado picos de tamaño similar.

Logaritmo del espectrograma de seno

Logaritmo del espectrograma de seno

Ahora, si buscamos un espectrograma de segundo orden o, como se le llamó, “cepstrum” (un anagrama de la palabra “espectro”), obtendremos una imagen mucho más decente, que refleja completamente, en un pico nuestra onda monótona original.

cepstrum

Una de las características más útiles de nuestra audición es su naturaleza no lineal con respecto a la percepción de frecuencias. A través de largos experimentos, los científicos han descubierto que este patrón no solo se puede derivar fácilmente, sino que también es fácil de usar.

La dependencia de la tiza de los hercios.

La dependencia de la tiza de los hercios.

Este nuevo valor se llama tiza y refleja perfectamente la capacidad de una persona para reconocer diferentes frecuencias: cuanto mayor es la frecuencia del sonido, más difícil es distinguirlo.

tabla de conversion de hercios a mel

tabla de conversion de hercios a mel

Ahora vamos a intentar poner todo esto en práctica.

Identificación mediante MFCC

Podemos tomar una grabación larga de la voz de una persona, contar el cepstrum para cada área pequeña y obtener una huella de voz única en cada momento. Pero esta huella dactilar es demasiado grande para el almacenamiento y el análisis; depende de la longitud del bloque seleccionado y puede alcanzar hasta dos mil números cada 100 ms. Por lo tanto, de tal variedad es necesario extraer un cierto número de características. La escala de tiza nos ayudará con esto.

Podemos elegir ciertas “áreas de audición” en las que sumamos todas las señales, y el número de estas secciones es igual al número de características requeridas, y la longitud y los límites de las secciones dependen de la escala de tiza.

READ
Google quiere enseñar a los smartphones Android a digitalizar documentos, mapas y llaves de coche

Cálculo de los coeficientes cepstrales de frecuencia calcárea

Cálculo de los coeficientes cepstrales de frecuencia calcárea

Entonces nos familiarizamos con los coeficientes cepstrales de frecuencia mel (MFCC). El número de funciones puede ser arbitrario, pero la mayoría de las veces varía de 20 a 40.

Estos coeficientes reflejan perfectamente cada “bloque de frecuencia” de la voz en cada momento del tiempo, lo que significa que si generalizamos el tiempo sumando los coeficientes de todos los bloques, podemos obtener la impronta de voz de una persona.

Prueba de métodos

Descarguemos algunas grabaciones de video de YouTube, de las cuales extraeremos la voz para nuestros experimentos. Necesitamos un sonido claro sin ruido. Elegí el canal TED Talks.

Descarguemos varios videos de cualquier manera conveniente, por ejemplo, usando la utilidad youtube-dl. Está disponible a través de pip o a través del repositorio oficial de Ubuntu o Debian. Descargué tres videos de discursos: dos mujeres y un hombre.

Luego convertimos el video a audio, creamos varias piezas de diferente duración sin música ni aplausos.

Ahora tratemos con el programa Python 3. Necesitaremos las bibliotecas numpy para cálculos y librosa para procesamiento de sonido, que se pueden instalar usando pip. Para su comodidad, todos los cálculos de coeficientes complejos se empaquetan en una función librosa.feature.mfcc. Cargue la pista de audio y extraiga las características de la voz.

Continúa disponible solo para miembros

Opción 1. Únase a la comunidad Xakep.ru para leer todos los materiales en el sitio

¡La membresía en la comunidad durante el período especificado le dará acceso a TODOS los materiales de Hacker, le permitirá descargar números en PDF, desactivar la publicidad en el sitio y aumentar su descuento acumulativo personal! Más

Opción 2: Abrir un material

¿Está interesado en el artículo, pero no hay forma de convertirse en miembro del club Xakep.ru? ¡Entonces esta opción es para ti! Tenga en cuenta: este método solo es adecuado para artículos publicados hace más de dos meses.

Rating
( No ratings yet )
Like this post? Please share to your friends:
Leave a Reply

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: