Julkaistu 15.5.2026

Maajäkälien automatisoitu tunnistus tekoälyllä: Kokemuksia Google Satellite Embedding V1 -aineistosta

Tämän päivän tekoälybuumissa saattaa toisinaan unohtua, että tekoälyä on käytetty eri aloilla jo vuosikymmenten ajan. Yhtenä esimerkkinä tällaisesta sovelluksesta on ilmakuvien tulkinta, esimerkiksi maapeitealueiden tunnistaminen koneoppimista hyödyntäen. Silti viime vuosina myös tällaiset vakiintuneemmat käyttökohteet ovat ottaneet uusia kehitysaskeleita.

Googlen tekoälyä ja syväoppimista tutkiva DeepMind-yhtiö julkaisi vuonna 2025 uudentyyppisen aineiston, Google Satellite Embedding V1:n. Kyseessä on Googlen AlphaEarth Foundations -tekoälymallin tuottama aineisto, jossa on yhdistetty informaatiota “analyysivalmiiksi” aineistoksi valtavasta määrästä satelliitti-, tutkasatelliitti- ja Lidar-dataa sekä mittaus- ja mallidataa (esim. ilmasto-, painovoima- sekä korkeusmalleja).

Kun Metsähallituksen Metsätalous Oy:llä oli tarve löytää keinoja maajäkälien automatisoituun tunnistamiseen Pohjois-Suomen poronhoitoalueella, tiesimme, että tämä pilottiprojekti voisi olla erittäin mielenkiintoinen tilaisuus tutkia kyseisen aineiston mahdollisuuksia ongelman ratkaisuun.

Perinteisesti jäkäläalueita on tunnistettu vääräväri-ilmakuvia manuaalisesti tulkiten, mikä on työlästä ja vaatii harjaantuneisuutta ja asiantuntijuutta aiheesta. Toisaalta koska poronhoitoalue on hyvin laaja, saattaisi perinteisten ilmakuvien käytöstä koneoppimiseen tulla ongelmia. Miksi? No muun muassa siksi, että eri alueita on kuvattu eri aikoina ja erilaisilla kalustoilla, joten aineisto olisi ensin prosessoitava jollakin tavalla yhtenäiseksi. Googlen Satellite Embedding -aineisto puolestaan muodostaa maailmanlaajuisestikin yhtenäisen datasetin, jolloin käyttö on tässäkin suhteessa suoraviivaisempaa. Esittelemme tässä ensin lyhyesti sen, mistä kyseisessä aineistossa on kyse ja kuvaamme sitten maajäkälä-projektista saatuja kokemuksia ja oppeja sen käytöstä.

Google Satellite Embedding V1: Uusi analyysivalmis satelliittiaineisto

Kuten sanottu Satellite Embedding -aineisto on koostettu valtavasta määrästä olemassa olevaa mm. mittaus-, malli- ja kuvadataa, jota on käytetty AlphaEarth-tekoälymallin opettamisessa.

Aineisto kattaa koko maapallon, sen spatiaalinen resoluutio on 10 metriä, ja ajallisesti se on yhteenveto kustakin pikselistä koko vuoden ajalta. Tällä hetkellä aineisto on julkaistu vuosilta 2017–2024. Aineisto itsessään koostuu 64-dimensioisista upotusavaruuden vektoreista (“nuolista”, eli suureista, joilla on pituus ja suunta), josta nimikin siis tulee. Tämä tarkoittaa yksinkertaisesti sitä, että kuhunkin 10 m * 10 m pikseliin liittyy 64-komponenttinen vektori. Jonkinlaisena analogiana voi pitää “virtuaalista” satelliittikuvaa, jossa on 64 kaistaa, mutta liian pitkälle tätä analogiaa ei kannata viedä, sillä esimerkiksi vektorin yksittäisten komponenttien tulkinta ei tällä tavoin ole mahdollista.

Kuhunkin pikseliin liittyvä vektori on lisäksi normoitu siten, että sen pituus on tasan yksi. Tämä on hyödyllinen ominaisuus analyysejä silmälläpitäen, ja tarkoittaa sitä, että vektorit muodostavat 64-dimensioisen avaruuden yksikköpallon, aivan samoin kuin ykkösen pituiset vektorit (“eri suuntiin osoittavat nuolet”) koottuna yhteen muodostaisivat pallon kolmessa ulottuvuudessa. Jos kahteen eri maanpinnan pisteen pikseliin liittyvät vektorit ovat lähekkäin tämän pallon pinnalla, merkitsee se sitä, että itse maanpinnan pisteet ovat jollain tavalla hyvin samankaltaisia, similaareja. Lisäksi kuhunkin vektoriin on sisällytetty tietoa pikselin laajemmasta ympäristöstä (“kontekstista”) n. 1,28 km * 1,28 km alalta. Tämä kaikki kuulostaa kenties hieman abstraktilta ja 64-komponenttinen upotusvektori tarpeettoman monimutkaiselta, mutta määrä ei ehkä sittenkään ole niin suuri, kun pitää mielessä kuinka valtavan määrän lähtöinformaatiota se koodaa sisälleen.

Kaiken kaikkiaan, koko lähestymistavan ideana on tuottaa yhdenmukainen ja analyysivalmis aineisto, jolla olisi mahdollista havaita lokaaleja ja globaaleja ilmiöitä, mikä perinteisillä satelliittikuvilla tai yksittäisillä aineistoilla ei olisi useinkaan mahdollista. Google Satellite Embedding V1 -aineisto on lisensoitu CC-BY 4.0 -lisenssillä, joten sitä voi muokata ja jakaa kunhan viittaa aineiston julkaisijaan. Aineisto on helpoiten saatavissa ja käytettävissä Google Earth Engine -analyysialustan kautta, mutta periaatteessa aineiston voi ladata ja sitä voi käyttää myös muita työkaluja hyödyntäen.

Maajäkälien luokittelu: Similariteettianalyysi ja koneoppiminen käytännössä

Pilottialueena Metsähallituksen projektissa oli reilun 40000 hehtaarin alue Pohjois-Suomessa. Tältä alueelta oli tuotettu valmiita ilmakuvilta tehtyjä tulkintoja, eli ruutuja joihin oli merkitty oliko alue todennäköisesti, mahdollisesti vai epätodennäköisesti jäkäläkangasta. Tätä aineistoa käytettiin analyyseissä opetusaineistona. Google Earth Enginelle tuotettiin koodia erilaisten analyysien ajoon, tärkeimpinä similariteettianalyysi sekä ohjattu koneoppimisalgoritmi.

Google Satellite Embedding V1 — Esimerkki opetusaineistosta Google Earth Enginessä.

Kuten aiemmin totesimme kuvatessamme aineistoa upotusvektoreina, tämä rakenne mahdollistaa eri pikseleihin liittyvien vektoreiden vertaamisen keskenään. Perusidea on, että mikäli kaksi vektoria “osoittaa samaan suuntaan”, ovat pikselien kuvaamat alueet samankaltaisia. Matemaattisesti tämä kuvataan lineaarialgebrasta tuttuna pistetulona. Otimme siis opetusaineistosta jäkäläkankaita todennäköisesti sisältävät ruudut ja niiden upotusvektorit ja vertasimme sitten alueen kaikkien muiden pikselien vektoreita näihin. Mikäli pistetulo oli suurempi kuin sopivasti valittu kynnysarvo lähellä ykköstä, pikseli oli tulkittava jäkäläkankaaksi. Tällainen oli yksinkertaisuudessaan similariteettianalyysi. On huomattava, ettei algoritmi vaatinut erillistä opettamisvaihetta vaan koostui pelkästään pistetulon laskemisesta, ja oli siten laskennallisesti nopeaa.

Myöskään ohjatun oppimisen analyysissä Satellite Embedding -aineisto ei vaatinut suurempia esiprosessointeja vaan käyttö oli suoraviivaista ja luokittelussa käytettiin KNN-luokittelijaa (K Nearest Neighbours) K:n eri arvoilla. Käytännössä kaikki pienet K:n arvot toimivat hyvin, ja kaikilla K:n arvoilla päädyttiin yli 90 % tarkkuuksiin, usein reilustikin yli.

Lopputulos ja saadut opit: Kuinka tarkasti jäkälät löytyivät?

Analyysejä varten tuotettiin koodia Google Earth Enginen koodieditoria ja ohjelmointirajapintaa käyttäen. Earth Engine -ympäristö on tarkoitettu globaalin mittakaavan analyyseihin, ja suuren laskentatehon ansiosta tulosten saaminen isommallekin alalle oli nopeaa. Tuloksien tarkkuutta tarkasteltiin sekä numeerisesti jakamalla osa opetusaineistosta validointiin että asiantuntijan ilmakuvilta jälkikäteen tarkastamana. Maastoon tuloksia ei päästy tarkastelemaan lumisena aikana, ja suuren alueen vuoksi se olisi ollut varsin työlästä. Sekä similariteettianalyysin että valvotun koneoppimisen tapauksessa tulokset olivat kuitenkin oikeansuuntaisia, joskin asiantuntijan harjaantunut silmä löysi alueita, jotka vaatisivat lisätarkasteluja. Satellite Embedding -aineistolle on ominaista, että opetusaineistoon on kiinnitettävä erityistä huomiota, määrä korvaa laadun. Lumettomana aikana tehdyt maastokäynnit ovatkin varmasti hyödyllisiä ja mahdollistavat analyysien uudelleen tarkastelun ja kehittämisen.

Kaiken kaikkiaan pilotti oli onnistunut ja havainnollisti kuinka tällaiset uudet aineistot ja ennakkoluulottomat lähestymistavat voivat auttaa perinteisten sovelluskohteiden ja ongelmien ratkaisussa.

Jaakko Lehto

Jaakko Lehto on teoreettisen fysiikan FT, jota kiinnostaa erityisesti paikkatieto, siihen liittyvä avoin lähdekoodi sekä reaalimaailman systeemien matemaattinen mallintaminen ja datan analysointi. Harrastuksina mm. musiikki ja kestävyysurheilu.