TEKOÄLYSOLISTIT

Tekoäly nostaa Freddie Mercuryn äänen haudasta – mutta kenen luvalla?

Teksti: Joose Ojala

Kielimalleihin perustuvat tekoälyt nousivat vuonna 2022 kaikkien huulille Chat GPT:n lanseeraamisen myötä. Se oli kuitenkin vasta alkua erilaisille tekoälyä käyttäville innovaatioille. Siinä missä kuvaa ja tekstiä on osattu tekoälyn avulla manipuloida jo pitkään, on viime aikoina myös ihmisen puhetta sekä lauluääntä onnistuttu kloonaamaan uskottavasti tekoälyn avulla.

Symbolikuvassa mies pitää avoimen kätensä päällä heijastusta, jossa on ihmisen pää ja monenlaisia tietokonemaailmaan viittaavia viivoja, muun muassa Ai-tunnus mikrosirun sisällä. Ylempänä lukee Chat GPT.

Tieteiskirjallisuudesta tuli totta yhdessä yössä

Olisitko vuoden 2022 alussa uskonut, että reilun vuoden päästä voit kuunnella vuonna 1991 aidsiin kuolleen Queen-solisti Freddie Mercuryn laulavan Europen ”The Final Countdown”-hittiä? Itse olisin pitänyt väitettä lähinnä tieteiskirjallisuudesta alkunsa saaneena spekulaationa. Niin kuitenkin kävi, että tämä ja muita kaltaisiaan cover-versioita rupesi ilmestymään Youtubeen vuoden 2023 puolenvälin jälkeen. Oli pakko perehtyä tarkemmin ilmiöön.

Ääni voidaan kloonata, laulutapaa ei

Tekoälyavusteinen äänen kloonaaminen tapahtuu siten, että ohjelmalle annetaan näyte henkilön puhe- tai lauluäänestä. Tämän jälkeen se analysoi ”kuulemansa” ja kehittää algoritmin, joka osaa tuottaa esimerkin kaltaista puhetta tai laulua. Tällä algoritmilla voidaan laulattaa mitä tahansa kappaleita ja puhuttaa mitä tahansa tekstiä. Kun musiikkikappaleen alkuperäisen solistin lauluosuus halutaan korvata toisen solistin lauluäänellä, tekoälyllä on siis oltava näyte korvaavan solistin laulusta. Myös puhenäyte on mahdollinen, mikäli henkilöltä ei ole laulunäytettä. Tämän jälkeen tekoäly korvaa alkuperäisen lauluäänen korvaavan solistin äänestä tekemänsä algoritmin avulla. Tämä ohjelma kykenee muuttamaan pelkän lauluäänen, mutta melodia, teksti, fraseeraus ja muut laulutekniset yksityiskohdat pysyvät täysin muuttumattomina. Ohjelma osaa myös peukaloida alkuperäisten taustojen päälle laulettua lauluraitaa siten, ettei taustoihin tule minkäänlaista vauriota. Myös perinteisellä studiotekniikalla on jo pitkään osattu erottaa laulu taustoista ilman alkuperäisiä studioraitoja. Tällöin on taustojen sekä laulun äänenlaatu joskus saattanut heikentyä. Toisin on tekoälyä käytettäessä. Kun ohjelma on työnsä tehnyt, valmistuu versio, joka on muuttunutta lauluääntä lukuunottamatta täysin alkuperäistä vastaava.

Mutta tutustutaanpa ilmiöön käytännön tasolla. Kuunnellaan ensin Matti Jurvan ja Ramblers-orkesterin esittämänä kappale ”Ievan polkka”. Kuuntele etenkin kappaleen kolmannen säkeistön laulutapaa ja fraseerausta:
https://www.youtube.com/watch?v=myzO3eZh22E

Seuraavaksi kuuntelemme tekoälyn aikaansaannoksen, jossa Matti Jurvan lauluääni on korvattu Cheekin lauluäänellä. Kaikki muu on täysin ennallaan:
https://www.youtube.com/shorts/f-_fFV58j54

Pelkkä lauluääni ei vielä tee laulutulkintaa

Miellyttäväkään äänenväri ei vielä tee kenestäkään laulajaa. Laulutulkinta koostuu monista komponenteista. Näitä ovat muun muassa rytminkäsittely, dynaamiset vaihtelut, tekstin fraseeraaminen, vibrato sekä erilaiset niekut sekä muut äänenvärin hetkelliset varioinnit. Lisäksi nykypoppareiden autotunen efektinomainen käyttö lisää soppaan vielä yhden hämmentäjän. Lauluinstrumentti on toisin sanoen soitin muiden joukossa. Jos amatööripianisti soittaa pianoa, jolla Chick Corea on aikanaan levyttänyt mestariteoksen, ei hänen esityksensä kuulosta Corean soitolta, vaikka käytössä onkin sama soitin. Samalla tavalla tekoäly antaa käyttöömme mestarilaulajien ääni-instrumentteja, joita meidän on kuitenkin osattava soittaa. Tekoäly kertoo meille konkreettisesti sen, että pelkkä äänenväri on yllättävän pieni osa laulutulkinnan kokonaisuutta. Siispä vaikka voimmekin korvata Matti Jurvan äänen Cheekin äänellä, rohkenen väittää, että oheinen tekoälyn luoma esitys kuulosti enemmän Jurvan kuin Cheekin laulamiselta. Jos taas Matti olisi laitettu räppäämään, on selvää, että esitys kuulostaisi tällöin enemmän Cheekin tulkinnalta.

Onnistuneen tekoälycoverin salaisuutena on löytää hyvä match

Koska tekoäly osaa korvata ainoastaan äänenvärin, ei mikä tahansa Freddie Mercuryn äänellä kuorrutettu jollotus muutu automaattisesti kullaksi. Artistin esitystavalle ja lauluäänelle sopivan kappaleen löytäminen on avainasemassa. Kyseessä on hieman yksinkertaistaen samanlainen prosessi, kuin mitä levy-yhtiöissä tehdään, kun etsitään artistille sopivaa laulumateriaalia levytystä varten. Jos siis haluan tehdä tekoälyllä kappaleen joka kuulostaa täysin Freddie Mercuryn esittämältä, minun on löydettävä laulu, jossa asiat ovat äänialaa, vibratoa, fraseerausta ja rytminkäsittelyä myöten yksi yhteen Mercuryn maneerien kanssa. Tällöin pelkkä lauluäänen korvaaminen riittää tekemään esityksestä autenttisen. Tästä hyvä esimerkki on Celine Dionin ”My Heart Will Go On”, jossa varsin uskottavaa jälkeä on saatu korvaamalla Celine Dionin lauluääni Freddie Mercuryn äänellä:
https://www.youtube.com/watch?v=3_GpGbwxuoc

Toinen hyvä esimerkki on Nirvana-klassikko ”Smells Like Teen Spirit”. Kun Paul Ankan kappaleesta levyttämän swing-version lauluäääni korvataan Frank Sinatran ikonisella äänellä, on lopputulos näinkin häkellyttävä:
https://www.youtube.com/watch?v=Num0q-l-ldc

Eettiset linjanvedot määrittävät tekoälycovereiden tulevaisuuden

TÄtä kirjoittaessani ovat AI-coverit olleet kuultavissamme vasta alle vuoden. On selvää, että tekoälyn mahdollisuudet tulevat entisestään vain kehittymään. Olen yllättynyt, jos ensi vuonna tähän aikaan kuultavissamme ei ole jo covereita, joissa myös esitysteknisiä asioita on jäljitelty tekoälyn avulla.

Chat CPT:tä symboloidaan tässäkin kuvassa ihmisen päällä, jossa on monenlaisia tekoälyn lähteiksi ajateltuja tietokonekuvioita, Ai muun muassa mikrosirun sisällä.

Jo pelkkä lauluäänen kloonaaminen tarjoaa lukemattomia innovaatioita, jotka ovat eettisesti varsin kimurantteja pohdittavia. Esimerkiksi voitaisiin teknisesti toteuttaa tribuuttialbumi Tapio Rautavaaralle. Tarvitsisi ainoastaan tehdä Vain Elämää-hengessä Rautavaaran tyylisiä sovituksia halutuista kappaleista, laulattaa ne Tapsan maneerit opiskelleella ammattilaisella ja korvata lauluääni. Nämä ovat kysymyksiä, joita erilaiset maailmanlaajuiset tekijänoikeusjärjestöt pohtivat varmasti päät punaisina tälläkin hetkellä.

Rengistä ei saa tulla isäntää

Kun musiikkisisällöt waretuskulttuurin siivittäminä levisivät laajemmin verkkoon 2000-luvun alkuvuosina, suhtauduttiin ilmiöön julkisuudessa yksiselitteisen kielteisesti. Tiedostojen jakaminen haluttiin kieltää kokonaan. Kävi kuitenkin niin, että lopulta paineen alla periksi antoivatkin levy-yhtiöt. Nykyaikainen musiikin suoratoistokulttuuri on musiikintekijöille maksettavien korvausten näkökulmasta käytännössä laillista warettamista. Olisikin toivottavaa, että nyt tekoälyn mukanaan tuomista uusista suojattavista artikkeleista neuvoteltaessa musiikintekijät saisivat aikaan suotuisamman neuvottelutuloksen.

On selvää, että myös musiikkiin liittyvät tekoälysovellukset kaipaavat kipeästi sääntelyä. Tällä hetkellä tekoälycovereita ovat julkaisseet lähinnä yksityishenkilöt, mutta teknologialla olisi potentiaalia myös virallisesti lisensoidussa levymusiikissa. Osaamme jo määritellä teoksen sekä maksaa esittäjille sekä säveltäjille tariffien mukaiset korvaukset. Seuraavaksi tulisi päättää, mikä on hinta ihmisen äänen käyttämisestä. On myös erittäin ymmärrettävää, että elossa olevat laulajat ja kuolleiden perikunnat ovat hyvin kiinnostuneita siitä, millaisissa yhteyksissä ääniä käytetään. Äänten oikeuksienhaltioilla tulisi olla oikeus saada itse määritellä niiden käyttökohteet. Kloonatuilla lauluäänillä tulisi olla samat oikeudet kuin sävelteoksilla ja tallennetuilla soitin – ja lauluosuuksilla. Samplauskulttuuri on toki ollut olemassa jo vuosikymmeniä. Vaikka tekoälyavusteinen äänen kloonaaminen ei samplaamista teknisesti ottaen olekaan, voitaneen siitä saatua oikeudellista oppia soveltaa myös näihin tapauksiin.

Oli miten tahansa, neuvotteluiden käyminen on nyt tärkeää. Tekoälysovellukset ovat tulleet jäädäkseen. Jos niiden käyttämiselle ei laadita selkeitä pelisääntöjä, voidaan markkinoille vyöryttää lähivuosina massoittain tekoälyllä tuotettuja bulkkicovereita. Tällainen kilpailuasetelma on kestämätön, jos vastapuolella ovat perinteisin menetelmin musiikkia tekevät ihmiset.

Sisällön jakaminen: