מהו MusicLM של גוגל ואיך ניתן ליצור מוזיקה מתיאורי טקסט

MusicLM משמשת לביצוע אוטומציה של משימות שונות כמו כתיבת קטע מוזיקלי על ידי ניתוח המוזיקה. מהו MusicLM של גוגל מחולל מוזיקה מתיאורי טקסט:

מבוא

מודלים של שפה או מודלים גדולים של שפה (LLM) הפכו פופולריים בכל העולם, במיוחד עם תוכנת בינה מלאכותית ה-GPT של OpenAI הכוללים ChatGPT ו-Codex. שני הדגמים הללו מסוגלים ליצור טקסט וקוד ביעילות באמצעות הנחיה נתונה. מודלים אלה שהוכשרו על מערכי נתונים גדולים יכולים לשמש עבור מגוון משימות NLP , כולל ניתוח סנטימנטים, מערכות צ'טבוט, סיכום, תרגום מכונה, סיווג מסמכים וכו'. למרות שלמודלים אלה יש מגבלות, הם מציגים לנו חזון לכיוון ה-LLMs, כלומר להבין שפות ולבנות יישומים שיכולים לשפר חיי אדם. למרות שרבים מודאגים מכך שהוא עשוי להחליף בני אדם בתחומים רבים, הרעיון מאחורי המודלים הללו הוא להגביר את הפרודוקטיביות ולספק דרך חדשה לחקור ולהבין את השפה כולה.

מכיוון ששפה תופסת מקום יסודי בציוויליזציה האנושית, לכן, חיוני לבנות מודלים של שפה המפענחים את תיאור הטקסט הנתון ומבצעים את המשימות הנדרשות כמו הפקת טקסט, תמונות, אודיו, מוזיקה וכו'. מאמר זה מתמקד בעיקר במודל שפת המוזיקה אשר דומה למודלים כמו ChatGPT ו-Dalle אך במקום ליצור טקסטים או תמונות בהתאמה, הוא יוצר מוזיקה.

מוזיקה היא מסובכת והיא מאוד דינמית. זה בדרך כלל תזמור של כלי נגינה רבים המשתלבים יחד כדי להשתלב בהקשר. הוא כולל תווים בודדים, לשילוב של תווים (אקורדים), דיבור כגון פונמות או הברות, למילים ומשפטים. יצירת מודל מתמטי שיכול לחלץ מידע ממערך נתונים עמוס כל כך היא משימה מרתיעה. אבל ברגע שמתבסס מודל נוכל ליצור אודיו ריאליסטי הדומה לזה שבני אדם יכולים ליצור.

נבין את הרעיון המרכזי של מודל שפת המוזיקה וכיצד ניתן ליצור מוזיקה. אז בואו נתחיל.

מהו מודל שפה מוזיקלית?

MusicLM, כמו מודלים שפות אחרים, משתמשת בטכניקות שונות של למידת מכונה, כגון למידה עמוקה ועיבוד שפה טבעית, כדי לנתח ולמצוא ייצוגים נסתרים כדי ליצור מוזיקה. מודלים אלה משתמשים במערכי נתונים הנוגעים לדגימות מוזיקה כדי לחלץ מידע ולמצוא דפוסים המאפשרים להם ללמוד מגוון רחב של סגנונות מוזיקה וז'אנרים.

MusicLM יכולה להשתמש כדי לבצע אוטומציה של משימות שונות כמו כתיבת קטע מוזיקלי על ידי ניתוח המוזיקה, המלצה על התקדמות אקורד חדשה במוזיקה הקיימת או אפילו יצירת צליל חדש וכו', בעצם זה יכול לעזור להציג צורות חדשות של ביטוי מוזיקלי ויצירתיות. כלים כאלה יכולים לשפר את כישורי המוזיקאים ולעזור למוזיקאים ללמוד את אותו הדבר.

מה זה Google MusicLM?

Google MusicLM הוא מודל שפה המסוגל ליצור מוזיקה כאשר אנו ניתן תיאור טקסט. לדוגמה, "מנגינה של גיטרה מרגיעה בריף חתימת שעון 6/8".

MusicLM דומה לדגמי שפות אחרים, אך היא מוקדשת לחלוטין למוזיקה. המערכת נוצרה על ידי אנשי גוגל. הוא בנוי על גבי AudioLM. ללא שימוש בתמלילים או ייצוגי מוזיקה סמליים, AudioLM פותחה כדי לספק המשך מוזיקה באיכות גבוהה ומובן לפסנתר. הוא הסתמך על המרת אודיו הקלט על ידי לימוד דפוסים ומבנים לסדרה של אסימונים נפרדים והפקת רצפי אודיו בעקביות ארוכת טווח.

סרטון הדגמה:

ל-AudioLM יש שני אסימונים:

SoundStream tokenizer המייצר אסימונים אקוסטיים
w2v-BERT tokenizer המייצר אסימונים סמנטיים

אסימון אלה ממלאים תפקיד מכריע בהפקת מידע.

כעת, הבה נסתכל על שלושת השלבים ההיררכיים שיש ל- AudioLM:

מודלים סמנטיים : זה כרוך בקוהרנטיות מבנית ארוכת טווח. הוא מחלץ את המבנה ברמה הגבוהה של אות הקלט.
מידול אקוסטי גס : הוא מייצר אסימונים אקוסטיים אשר לאחר מכן משורשרים או מותנים באסימונים סמנטיים.
דוגמנות אקוסטית עדינה : האודיו הסופי מקבל עוד יותר עומק בשלב השלישי, הכולל עיבוד האסימונים האקוסטיים הגסים עם אסימונים אקוסטיים עדינים. לבסוף, על מנת ליצור מחדש צורת גל, מוזנים אסימונים אקוסטיים למפענח SoundStream.

MusicLM ממנפת את המידול האוטורגרסיבי הרב-שלבי של AudioLM כמרכיב הגנרטיבי תוך הרחבתו לשילוב התניה של טקסט. ראה את התמונה למטה.

קובץ האודיו מועבר לשלושה רכיבים: SoundStream, w2v-BERT ו-Mulan. כבר דנו ב-SoundStream העובד וב-w2v-BERT, שניהם מעבדים ומסמלים את אות השמע המבוא. לעומת זאת, MuLan הוא מודל הטמעה משותף למוזיקה וטקסט. יש לו שני מגדלי הטבעה, אחד לכל אופציה, כלומר טקסט ואודיו.

אז בעצם, האודיו מוזן לכל שלושת הרכיבים אבל תיאור הטקסט מוזן רק ל-Mulan. הטמעות ה-Mulan עוברות כמות כמותית על מנת לספק ייצוג הומוגני המבוסס על אסימונים נפרדים הן לאות ההתניה והן לאודיו. הפלט מה-Mulan נשלח לאחר מכן לשלב המידול הסמנטי שבו המודל לומד את המיפוי מאסימוני השמע לאסימונים הסמנטיים. שאר התהליך דומה ל-AudioLM. להבנה טובה יותר ראה את התמונה למטה.

מכיוון ש-MusicLm בנויה על גבי AudioLM ו-Mulan, היא מספקת שלושה יתרונות:

זה יכול ליצור מוזיקה עם תיאור טקסט.
זה יכול לקחת מנגינת קלט כקלט כדי להרחיב את הפונקציונליות שלו. לדוגמה, אם אתה מספק נעימת זמזום ומבקש מ-MusicLM להמיר אותה כריף גיטרה, היא יכולה לעשות זאת.
זה יוצר רצפים ארוכים של כל כלי נגינה.

מערך נתונים

מערכי הנתונים המשמשים לאימון MusicLM מורכבים למעשה מ-5.5k זוגות מוזיקה-טקסט. זה כולל יותר מ-200,000 שעות של מוזיקה, עם תיאורי טקסט עשירים שסופקו על ידי מומחים אנושיים.

יצירת מוזיקה באמצעות MusicLM

לרוע המזל, בשל הצורך בעבודה נוספת, גוגל מצהירה כי " אין לה תוכניות להפיץ דגמים בשלב זה ". אבל בספר הלבן שפרסמה גוגל, ישנן דוגמאות רבות המדגימות כיצד ניתן ליצור מוזיקה באמצעות תיאור טקסט.

הנה דרכים שבהן תוכל ליצור מוזיקה:

כתוביות עשירות: למשל "פס הקול הראשי של משחק ארקייד. זה קצבי ואופטימי, עם ריף גיטרה חשמלית קליט. המוזיקה חוזרת על עצמה וקלה לזכור, אבל עם צלילים בלתי צפויים, כמו התרסקות מצלתיים או תופים".
דור ארוך : הוא בעצם מייצר 5 דקות של אודיו רציף, עקבי ובנאמנות גבוהה. אתה יכול להשתמש בהודעות טקסט כמו "heavy metal", "רגאי מרגיע" וכו'.
מצב סיפור : זהו אחד המאפיינים הטובים ביותר של MusicLM שבו אתה יכול להורות למודל ליצור רצף מוזיקלי על ידי מתן סדרה של הודעות טקסט. לדוגמה, "זמן לעשות מדיטציה (0:00-0:15), זמן להתעורר (0:15-0:30), זמן לרוץ (0:30-0:45), זמן לתת 100% ( 0:45-0:60)"
התניה של טקסט ומנגינה : אתה יכול גם להפיק מוזיקה שתואמת את המנגינה שסופקה (כגון זמזום או שריקה) תוך כיבוד הנחיית הטקסט. בעצם המרת רצף שמע לרצף השמע הרצוי.
התניה של כיתוב ציור: זה בעצם אומר שאתה יכול ליצור מוזיקה באמצעות תיאור הציור. לדוגמה, " דימוי השעון הנמס שלו לועג לקשיחות הזמן הכרונומטרי. השעונים עצמם נראים כמו גבינה רכה – ואכן, לפי חשבונו של דאלי, הם נוצרו בהשראת הזיות לאחר אכילת גבינת קממבר. במרכז התמונה, מתחת לאחד השעונים, יש פנים אנושיות מעוותות בפרופיל. הנמלים על הצלחת מייצגות ריקבון ." מאת גרומלי, ג'סיקה. "ההתמדה של הזיכרון". אנציקלופדיה בריטניקה, 14 באפריל 2022.
מקומות: ניתן ליצור מוזיקה באמצעות תיאור מקום. למשל, " זמן שטוף שמש ושליו ליד החוף".
דוגמה אחרת כוללת:
1. יצירת שמע מ-10 מטקסט
2. רמת ניסיון מוזיקאי
3. עידנים
4. סולו אקורדיון

קשור: 8 מחוללי המוזיקה הטובים ביותר ב- בינה מלאכותית AI

ביכום

המטרה של מודלים של שפות מוזיקה היא לאפשר למחשבים להבין וליצור מוזיקה באופן הדומה למוזיקה שנוצרה על ידי האדם, ולהשתמש בהבנה זו כדי ליצור יצירות מוזיקליות חדשות וחדשניות. איכשהו MusicLM מסוגלת ליצור מוזיקה בנאמנות גבוהה וזה מדהים. זה מראה את היכולת של המוח האנושי יותר מאשר AI עצמו, כי עכשיו אנחנו יכולים ליצור מוח שיכול לפתור את האינטליגנציה הכללית במידה מסוימת.

למרות שזה מדהים, זה יציב הרבה חששות אתיים ותגובת נגד מהקהילה המוזיקלית. ניתן לראות את אותו הדבר מהשחרור של דגמים יוצרי תמונות כגון Dalle ואמצע המסע, והדבר נכון גם לגבי ChatGPT.

החוקרים של גוגל מודעים לבעיות אתיות רבות שמערכת כמו MusicLM מעלה, כולל נטייה לשילוב תוכן המוגן בזכויות יוצרים מנתוני אימון בשירים המופקים. במהלך ניסוי, הם גילו ש-1% מהמוזיקה שהמערכת הפיקה שיכפלו ישירות את השירים שעליהם הוכשרה. האחוז הזה היה ככל הנראה גבוה מכדי שיוציאו את MusicLM במתכונתה הנוכחית.

לכן פחות סביר שנראה את MusicLM כאפליקציה ציבורית בקרוב. אבל בהחלט, יהיו דגמי מוזיקה אחרים בקוד פתוח שיעברו הנדסה הפוכה על ידי מפתחים נוכלים.

מהו MusicLM של גוגל ואיך ניתן ליצור מוזיקה מתיאורי טקסט

MusicLM משמשת לביצוע אוטומציה של משימות שונות כמו כתיבת קטע מוזיקלי על ידי ניתוח המוזיקה. מהו MusicLM של גוגל מחולל מוזיקה מתיאורי טקסט:

מבוא

מהו מודל שפה מוזיקלית?

מה זה Google MusicLM?