Publicerad den 15.5.2026

Identifiering av renlavar med AI: erfarenheter från Google Satellite Embedding V1 data

 

Mitt i dagens AI-hype är det lätt glömma att maskininlärning har använts inom många branscher i årtionden. Ett typiskt exempel är tolkning av satellitbilder. Marktäckedata har under lång tid producerats med metoder motsvarande maskininlärning med satellitbilder som underlag. Tack vare AI får detta klassiska användningsområde hjälp på traven i fortsättningen..

Företaget DeepMind, som ägs av Google och  arbetar med AI och djupinlärning, publicerade ett nytt dataset, Google Satellite Embedding Version 1 i slutet av juli 2025. Data har producerats av Googles AI-modell AlphaEarth Foundation och innehåller information som förädlats utifrån en enorm mängd data från optiska satelliter (Landsat, Sentinel), radarsatelliter och lidarmätningar och kombinerats med data från klimat-, gravitations- och höjdmodeller.

När den finska myndigheten Forststyrelsen (Metsähallitus), med kombinerad roll som både ett statligt affärsverk och myndighet, berättade via sitt dotterbolag  Skogsbruk AB om behoven att automatiskt identifiera renlavar i Norra Finlands renskötselområden, visste vi genast att detta pilotprojekt skulle kunna ge en mycket intressant möjlighet att studera Googles data och dess tillämpningsområden.

Traditionellt har man identifierat områden med lavar genom manuell tolkning från s.k. felfärgsbilder, (false color image) som visar framför allt kortvågig infraröd elektromagnetisk strålning reflekterad av vegetationen. Processen är arbetsintensiv och kräver specialistkunskaper. Eftersom renskötselområdena är stora, kan befintliga klassiska ortofoton som underlag vara problematiska vid maskininlärning. Varför? Jo, därför att olika områden har fotograferats vid olika tidpunkter och med olika typer av instrument. Innan data kan användas som underlag vid träning av AI, behöver man processa data för att nå tillräckligt jämn kvalitet. Fördelen med data från Google Satellite Embedding är just dess globala enhetlighet och då kan man direkt utnyttja data som underlag vid träning av AI:t.

Google Satellite Embedding V1: ett nytt datasätt, färdigt underlag för analyser

Som vi konstaterade redan innan, består Google Satellite Embedding version 1  av en enorm mängd av befintliga mät-, modell- och bilddata som använts vid träning av AI-modellen AlphaEarth.

Data täcker hela jordklotet och dess spatiala resolution är 10 m. Värdet av varje pixel är ett komprimerat värde av alla indata inklusive tidsaspekten. Data har samlats in 2017-2024. Varje 10 m * 10 m pixel är kopplad till en vektor med 64-komponenter i inbäddningsrymd (embedding space). Man kan till viss mån få nytta av en förenklad analogi genom att föreställa sig en “virtuell” satellitbild som har 64 kanaler. Men analogin räcker inte hela vägen för att förklara hur vektorer och deras enskilda komponenter ska tolkas. Mer matematiskt uttryckt pratar vi alltså om att varje pixel är kopplad till en vektor som har längd och riktning i en rymd med 64 dimensioner.

För att underlätta bearbetning av data, har varje vektor fått en normaliserad längd på exakt en  (1) enhet. Detta är nyttigt med tanke på kommande beräkningar för det innebär att vektorer bildar en enhetssfär (unit sphere) i en rymd med 64 dimensioner med radie av en (1) enhet. På motsvarande sätt skulle vektorer med längd av en (1) mätenhet som pekar i olika riktningar bilda en sfär i en 3-dimensionell verklighet.

Man kan, återigen, använda analogin med tredimensionell jordklot för att förstå begreppet ‘similaritet’. Man kan ta två olika pixlar på jordklotets yta med var sin vektor som beskriver en viss egenskap med sin riktning. Om två vektorer, kopplade till två olika pixlar, är väldigt “lika” dvs att de pekar i nästan samma riktning (=vinkeln mellan vektorerna är liten), betyder det att även själva pixlarna liknar varandra på något sätt, dvs de är lika eller  “similar”. Utöver detta innehåller varje vektor också information om pixelns omgivning i en större kontext, i detta fall inom ett område på ca 1,28 km * 1,28 km.

Allt detta med en vektor med 64 dimensioner kan låta ganska abstrakt och komplicerat i början. Men om man reflekterar över den enorma mängden indata som nu finns samlats, kodats och sparats i detta dataset så börjar man så småningom förstå och uppskatta systematiken bakom arbetet. There is method in this madness, skulle gamle gode Polonius i Hamlet säkert säga.

Den bärande idén bakom Google Satellite Embedding V1 har varit att sammanställa komplexa globala indata så att resultatet blir ett enhetligt och färdigt paket som kan användas i olika typer av analyser. Då blir det möjligt att upptäcka både lokala och globala sammanhang och fenomen på ett sätt  som inte tidigare skulle varit möjligt utifrån enstaka dataset och satellitbilder.

Google Satellite Embedding V1 är licensierat med CC-BY 4.0-licens och därför får man bearbeta det och distribuera resultaten om man anger källan. Man kommer åt data enkelt t ex via  Google Earth Engine men man kan också ladda ned data och bearbeta det med hjälp av andra verktyg, t ex med OpenGeoAI-bibliotek.

Klassificering av renlavar: similaritetsanalys och maskininlärning i praktiken

Ett område i norra Finland, ca 40 000 ha, valdes som testområde i detta pilotprojekt åt Forststyrelsen. Det fanns tillgängliga ett antal ortofoton med färdigt tolkade områden som hade klassificeras i tre olika klasser: områden med stor sannolikhet för förekomst av renlavar, områden men viss sannolikhet för förekomst av renlavar och sist områden där förekomsten av renlavar bedömdes vara mycket osannolik. Dessa data användes sedan som träningsdata i analyserna. Programkoden skrevs för Google Earth Engine för att kunna köra olika typer av analyser, framför allt similaritetsanalyser och övervakade maskininlärningsalgoritmer (supervised machine learning algoritm). 

Google Satellite Embedding V1
Ett exempel på data som används vid träning av modellen i Google Earth Engine.

Som vi konstaterade redan tidigare, är data lagrade och strukturerade så att  varje pixel är kopplad till en vektor med 64 dimensioner. Genom att jämföra två olika vektorer med varandra, dvs hur stor vinkeln mellan vektorerna är, kan man sedan bedöma hur lika eller olika pixlarna är i ett visst avseende. Ju mindre vinkeln mellan vektorerna, desto mer lika är områden i pixlarna. Matematiskt pratar vi då om skalärprodukt (ibland även prickprodukt) i linjär algebra.  Skalärprodukten är produkten av vektorernas längder multiplicerat med cosinus för vinkeln mellan dem. Beräkningen underlättades av faktumet att vektorerna längd har skalats till en (1) enhet.

Processen vad stegvis. Först valde valde ut bara de pixlar ut träningsdata som bedömdes med stor sannolikhet innehålla områden med renlavar. Med pixlarna kom också de vektorer som var kopplade till dessa pixlar. Vid nästa steg jämförde vi alla pixlar inom testområdet och deras vektorer till de utvalda pixlar och deras vektorer. Om skalärprodukten av två vektorer var över ett visst valt tröskelvärde nära siffran ett (Cosinus för 0 = 1 dvs om vektorer är likriktade), tolkade vi att pixeln innehöll renlav. Detta är similaritetsanalys i nötskal. Det är värt att notera att algoritmen inte behövde tränas utan analysdelen bestod av själva beräkningen av skalärprodukten.

Google Satellite Embedding V1
Resultaten från similaritetsanalysen visualiserade med hjälp av en glidande färgskala. Ljusa pixlar är ner lika (similar) och mörka pixlar med olika (icke-similar). Man kan även se både bakgrundsbilden och några rutor ur träningsdata (gult, rött, grått).

Under övervakad maskininlärning behövde man knappt på förhand förbereda Satellite Embedding data. Själva bearbetningen var rätt så okomplicerat och vid klassificering använde vi KNN-klassificerare (K Nearest Neighbour) med olika K-värden. I praktiken små K-värden fungerade utmärkt och även med alla K-värden kunde vi oftast uppnå minst 90% noggrannhet.

Slutresultat och vad lärde vi oss: hur säkert hittade vi renlavområden?

För att kunna köra analyserna skrevs kod med hjälp av en kodeditor och programmeringsgränssnitt som finns i Google Earth Engine. Miljön är avsedd för analyser i en global skala och tack vare hög beräkningsprestanda kunde vi snabbt få resultat inom stora områden.

Vi bedömde resultaten och deras noggrannhet på två olika sätt: först numeriskt genom att använda en del av träningsdata i validering och sedan med hjälp av en sakkunnig specialist som granskade satellitbilderna efteråt och gjorde sin egen oberoende tolkning. Projektarbetet genomfördes under vintern och det var inte möjligt att kalibrera resultaten med hjälp av fältobservationer pga snötäcket. Detta skulle också varit mycket arbetsintensivt med tanke på att analysområdet var stort. Vi kunde ändå konstatera att resultaten från både  similaritetsanalysen och övervakad maskininlärning pekade åt samma håll även om den mänskliga specialisten med sitt tränade öga hittade områden som ytterligare behöver analyseras. För att kunna få bra resultat ur Satellite Embedding-data behöver man välja noga sina träningsdata. Fältbesöken under den snöfria perioden kommer att vara till stor hjälp när beräkningsmodellen kalibreras och vidare förbättras i fortsättningen.

Allt som allt tycker vi att pilotprojektet var mycket lyckat. Vi fick en bra uppfattning om hur nya dataset som Google Satellite Embedding-data och ett öppet sinne kan bidra till nya lösningar inom klassiska forskningsområden.

Profiilikuva

Jaakko Lehto