Radial basisfunktion netværk

Troels Kampmann August 8, 2016 R 3 0
FONT SIZE:
fontsize_dec
fontsize_inc

Inden for matematisk modellering, en radial basis funktion netværk er et kunstigt neuralt netværk, der bruger radiale basis funktioner som aktivering funktioner. Udgangen af ​​netværket er en lineær kombination af radial basis funktioner af input og neuron parametre. Radial basisfunktion netværk har mange anvendelsesmuligheder, herunder funktion tilnærmelse, tidsserier forudsigelse, klassificering og kontrolsystem. De blev først formuleret i en 1988 papir ved Broomhead og Lowe, både forskere på Royal Signaler og Radar Establishment.

Netværksarkitektur

Radiale basisfunktion net har typisk tre lag: et input lag, et skjult lag med en ikke-lineær RBF aktiveringsfunktion og en lineær output lag. Indgangen kan modelleres som en vektor af reelle tal. Udgangen af ​​netværket er derefter en skalar funktion af indgangsvektoren ,, og er givet ved

hvor er antallet af neuroner i det skjulte lag, er centrum vektor til neuron, og er vægten af ​​neuron i den lineære output neuron. Funktioner, der er afhængige kun på afstand fra et center vektor er radialt symmetrisk om den vektor, deraf navnet radiale basis funktion. I grundform alle indgange er forbundet til hver skjult neuron. Normen er typisk antages at være den euklidiske afstand og radial basisfunktion er almindeligt for at være Gaussisk

Den gaussiske basisfunktioner er lokale til centrum vektor i den forstand, at

dvs skiftende parametre for en neuron har kun en lille effekt for input værdier, der er langt væk fra centrum af denne neuron.

Visse milde betingelser på formen af ​​aktiveringsfunktionen, RBF netværk er universelle approximators på en kompakt delmængde af. Dette betyder, at et RBF netværk med nok skjulte neuroner kan tilnærme enhver kontinuert funktion med vilkårlig præcision.

Parametrene ,, og fastsættes på en måde, der optimerer tilpasning mellem og data.

Normaliseret

Normaliseret arkitektur

Ud over den ovenfor unnormalized arkitektur, kan RBF netværk normaliseres. I dette tilfælde er kortlægningen

hvor

er kendt som en "normaliseret radial basisfunktion".

Teoretisk motivation for normalisering

Der er teoretisk begrundelse for denne arkitektur i tilfælde af stokastisk dataflow. Antag en stokastisk kerne tilnærmelse til fælles sandsynlighedstætheden

hvor vægtene og er forbilleder fra de data, og vi kræver kernerne skal normaliseres

og

De sandsynlighed tætheder i input og output rum er

og

Forventningen om y givet et input er

hvor

er den betingede sandsynlighed for y givet. Den betingede sandsynlighed er relateret til den fælles sandsynlighed gennem Bayes teorem

hvilket giver

Dette bliver

når integrationer udføres.

Lokale lineære modeller

Det er undertiden bekvemt at udvide arkitekturen til at omfatte lokale lineære modeller. I så fald arkitekturer bliver til første orden,

og

i unormaliserede og normaliserede tilfælde, henholdsvis. Her er vægte, der skal fastlægges. Højere ordens lineære udtryk er også mulige.

Dette resultat kan skrives

hvor

og

i unnormalized sag og

i normaliseret sag.

Her er en Kronecker delta-funktion defineres som

Træning

RBF netværk er typisk uddannet af en to-trins algoritme. I det første trin, er i centrum vektorer af de RBF funktioner i det skjulte lag valgt. Dette trin kan udføres på flere måder; centre kan stikprøver fra nogle sæt eksempler, eller de kan bestemmes ved hjælp af k-midler klyngedannelse. Bemærk, at dette skridt er uden opsyn. En tredje backpropagation trin kan udføres for at finjustere alle de RBF netto parametre.

Det andet trin blot passer til en lineær model med koefficienter, det skjulte lag udgange med hensyn til nogle objektive funktion. En fælles objektive funktion, i det mindste for regression / funktion estimering, er den mindste kvadraters funktion:

hvor

Vi har udtrykkeligt medtaget afhængigheden af ​​vægtene. Minimering af mindste kvadraters objektive funktion ved optimale valg af vægte optimerer nøjagtigheden af ​​pasform.

Der er tilfælde, hvor flere mål såsom glathed samt nøjagtighed, skal optimeres. I dette tilfælde er det nyttigt at optimere en legaliseret objektiv funktion såsom

hvor

og

hvor optimering af S maksimerer glathed og er kendt som en regulariseringsparameteren.

Interpolation

RBF netværk kan anvendes til at interpolere en funktion, når værdierne af denne funktion er kendt på endeligt antal punkter :. Under de kendte punkter at være centre for de radiale basisfunktioner og evaluering værdierne af basisfunktionerne på de samme punkter vægtene kan løses ud fra ligningen


Det kan vises, at interpolation matrix i ovenstående ligning er ikke-singulær, hvis punkter er forskellige, og således vægtene kan løses ved simpel lineær algebra:

Funktion tilnærmelse

Hvis formålet er ikke at udføre streng interpolation, men i stedet mere generelle funktion tilnærmelse eller klassificering optimeringen er noget mere kompleks, fordi der ikke er nogen oplagt valg for centrene. Træningen sker typisk i to faser først fastsættelse bredden og centre og derefter vægtene. Dette kan begrundes ved at betragte de forskellige karakter af de ikke-lineære skjulte neuroner versus den lineære output neuron.

Uddannelse af basisfunktion centre

Basisfunktion centre kan stikprøver blandt input forekomster eller fås ved Orthogonal Mindst Square Learning algoritme eller findes ved klyngedannelse prøverne og vælge klyngen betyder som centrene.

RBF bredder er normalt alle fastgjort til samme værdi, som er proportional med den maksimale afstand mellem de valgte centre.

Pseudoinverse løsning for de lineære vægte

Efter centrene er blevet fastsat, er vægtene, som minimerer fejlen på outputtet beregnet med en lineær pseudoinverse løsning:

hvor registreringer G er værdierne af de radiale basisfunktioner evalueret på de punkter:.

Eksistensen af ​​denne lineære løsning betyder, at i modsætning til flere lag perceptron netværk, RBF netværk har en unik lokalt minimum.

Gradient afstamning træning af de lineære vægte

En anden mulig uddannelse algoritme er gradient afstamning. I gradient nedstigning uddannelse, er vægtene justeres på hvert tidsskridt ved at flytte dem i en retning modsat fra gradienten af ​​den objektive funktion,

hvor er en "learning parameter."

I tilfælde af at træne de lineære vægte ,, bliver algoritmen

i unnormalized sag og

i normaliseret sag.

For lokale-lineære-arkitekturer gradient-afstamning uddannelse er

Fremskrivning operatør træning af de lineære vægte

I tilfælde af at træne lineære vægte, og bliver algoritmen

i unnormalized sag og

i tilfælde normaliserede og

i lokale-lineære tilfælde.

For én basis funktion, projektion operatør træning reduceres til Newtons metode.

Eksempler

Logistik kort

De grundlæggende egenskaber ved radial basis funktioner kan illustreres med en simpel matematisk kort, den logistiske kort, der kortlægger enhedsintervallet på sig selv. Det kan bruges til at generere en bekvem prototype datastrøm. Kan bruges den logistiske kort for at udforske funktion tilnærmelse, tidsserier forudsigelse og kontrol teori. Kortet stammer fra området for populationsdynamik og blev prototypen for serie kaotisk tid. Kortet, i det fuldt kaotiske regime, er givet ved

hvor t er en tid indeks. Værdien af ​​x på tidspunkt t + 1 er en parabolsk funktion af x på tidspunkt t. Denne ligning repræsenterer den underliggende geometri serie den kaotiske tid genereret af den logistiske kortet.

Generering af tidsserien fra denne ligning er den forreste problem. Eksemplerne her illustrerer inverst problem; identifikation af de underliggende dynamikker, eller fundamentale ligning, af den logistiske kortet fra forbilleder i tidsserien. Målet er at finde et estimat

til f.

Funktion tilnærmelse

Unnormalized radiale basis funktioner

Arkitekturen er

hvor

Da indgangen er en skalar snarere end en vektor, input dimension er en. Vi vælger antallet af basisfunktioner såsom N = 5 og størrelsen af ​​træningssættet være 100 eksemplarer genereret af serien kaotiske tid. Vægten er taget for at være en konstant lig med 5. Vægtene er fem eksemplarer fra tidsserien. Vægtene er uddannet med projektion operatør uddannelse:

hvor læring sats antages at være 0,3. Træningen udføres med en passage gennem de 100 træning point. Rms fejl er 0,15.

Normaliserede radiale basis funktioner

Den normaliserede RBF arkitektur er

hvor

Igen:

Igen, vi vælger antallet af basisfunktioner som fem og størrelsen af ​​træningssættet til at være 100 eksemplarer genereret af serie den kaotiske tid. Vægten er taget for at være en konstant lig med 6. Vægtene er fem eksemplarer fra tidsserien. Vægtene er uddannet med projektion operatør uddannelse:

hvor læring sats igen for at være 0,3. Træningen udføres med en passage gennem de 100 træning point. Rms fejl på en test sæt 100 eksemplarer er 0,084, mindre end den unnormalized fejl. Normalisering giver nøjagtighed forbedring. Typisk nøjagtighed med normaliserede basisfunktioner stiger endnu mere over unormaliserede fungerer som input dimensionalitet stiger.

Tidsserier forudsigelse

Når den underliggende geometri tidsserien estimeres som i de foregående eksempler, kan en forudsigelse for tidsserien ske ved iteration:

En sammenligning af faktisk og forventet tidsserierne vises i figuren. Den anslåede tider serien starter på tidspunkt nul med en eksakt viden om x. Det bruger så estimatet af dynamikken til at opdatere den tid serien skøn for flere tidsskridt.

Bemærk, at estimatet er nøjagtig for kun et par tidsskridt. Dette er en generel karakteristik af serier kaotisk tid. Dette er en egenskab ved den følsomme afhængighed oprindelige betingelser er fælles for serie kaotisk tid. En lille indledende fejl forstærkes med tiden. Et mål for divergensen af ​​tidsserier med næsten identiske begyndelsesbetingelserne er kendt som Lyapunov eksponenten.

Styring af en række kaotisk tid

Vi antager udgangssignalet fra den logistiske kort kan manipuleres ved hjælp af en kontrolparameter, således at

Målet er at vælge kontrolparameteren på en sådan måde, at drive tidsserier til et ønsket output. Dette kan gøres, hvis vi vælger kontrol paramer at være

hvor

er en tilnærmelse til de underliggende fysiske systemets dynamik.

Den læring algoritme er givet ved

hvor

  Like 0   Dislike 0
Kommentarer (0)
Ingen kommentar

Tilføj en kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Tegn tilbage: 3000
captcha