Google ha anunciado un nuevo modelo generativo de inteligencia artificial llamado MusicLM, que puede crear audios musicales a partir de un texto descriptivo, o basándose en otro audio tan simple como una melodía silbada o tarareada por una persona.
Hay numerosos ejemplos de las posibilidades del modelo en la página de demo de MusicLM, que ofrecen una idea de su potencia y posibilidades:
1.- Audio a partir de "textos detallados" que pueden describir las sensaciones que debe proporcionar la música generada y/o los instrumentos y coros a utilizar. Ejemplos:
Pieza funky con un ritmo fuerte y bailable con una línea de bajo prominente y una melodía pegadiza de teclados
Pieza musical hip-hop. Incluir una voz masculina que rapee y una voz femenina que cante a modo de rap. La atmósfera de la pieza debe ser lúdica y enérgica con un piano que marque el ritmo con soporte de batería electrónica
Banda sonora épica con instrumentos orquestales. La pieza debe generar un clima de tensión e incertidumbre. Incluir un coro a capella cantando para crear una sensación de poder y fuerza.
2.- Proporcionando un audio humano de una canción tarareada o silbada y especificando el estilo del audio a generar. Por ejemplo: Solo de guitarra, cantante de ópera, coro a capella, …
3.- Clips de música de 5 minutos a partir de mensajes tan breves y simples como jazz relajante, o guitarra española por ejemplo
4.- Indicando texto y tiempos para que se genere una serie cambiante de melodías musicales. Por ejemplo, una melodía de 1 minuto con este esquema: hora de meditar (0:00-0:15), hora de despertar (0:15-0:30), hora de correr (0:30-0:45), hora de rendir al 100% (0:45-0:60 )
5.- Generando música que coincida con el estado de ánimo de los subtítulos de las imágenes proporcionadas: Por ejemplo este cuadro de Dalí con este texto:
"Las imágenes de reloj derritiéndose se burlan de la rigidez del tiempo cronométrico. Los relojes en sí mismos parecen queso blando; de hecho, según el propio relato de Dalí, se inspiraron en alucinaciones después de comer queso Camembert. En el centro de la imagen, debajo de uno de los relojes , aparece un rostro humano distorsionado de perfil. Las hormigas en el plato representan la descomposición"
Google también demuestra otras posibilidades de MusicLM para:
Recrear instrumentos particulares (por ejemplo, flauta, violonchelo, guitarra),
Música de diferentes géneros musicales (ambiental, bailable, …)
Con diferentes niveles de experiencia (pianista principiante, guitarrista experto,
Acorde a lugares específicos (gimnasio, playa en una isla, …)
Para períodos de tiempo (club de jazz en la década de los 50, fiesta hippy años 60, , .. )
LANZAMIENTO E IMPACTO
Antes de lanzar el modelo al mercado, Google está analizando y profundizando en los riesgos potenciales e impacto que puede llegar a crear como:
Apropiación indebida de contenido original creativo, es decir, problemas de derechos de autor
Posibles sesgos basados en los datos de entrenamiento del modelo
コメント