In het schattingsproces wordt het verband bepaald tussen de diverse stromen enerzijds en een aantal mogelijke verklarende variabelen anderzijds. De relaties die zo ontstaan kunnen worden gebruikt om prognoses mee te maken. Voor het schatten gebruiken we in de meeste gevallen gegevens over de laatste vijf jaren stromen. Voor het maken van ramingen wordt verondersteld dat de vastgestelde verbanden (ook wel vergelijkingen genoemd) ook in de toekomst stabiel blijven.
In het algemeen geldt dat een verklarende variabele een rol speelt in een vergelijking indien de statistische schattingsprocedure (OLS indien het gaat om een lineaire vergelijking, logit voor een keuze uit twee alternatieven of ordered logit voor een keuze uit meerdere geordende alternatieven) een coëfficiënt oplevert die statistisch significant van nul afwijkt, dat wil zeggen, indien de betreffende variabelen afzonderlijk of, met name in het geval van de regionale variabelen, gezamenlijk, een statistisch significante bijdrage aan de verklaring van de stroom in kwestie leveren.
Op de volgende, onderliggende pagina’s wordt nog ingegaan op selecties die bij het schatten gepleegd moeten worden, op gebruikte variabelen en op correctiefactoren die nodig zijn om rekening te houden met ontbrekende gegevens in het formatiebestand.
Selecties
Het vaststellen van het verband tussen stroomgrootheid en de verklarende variabelen (het schatten van de vergelijkingen) vindt plaats op een relevante selectie van de waargenomen taken. De uitstroom wordt bijvoorbeeld afzonderlijk geschat voor ouderen (59 en ouder) en de groep jonger dan 59 jaar omdat het uitstroomgedrag van de twee groepen aanzienlijk verschilt. Taakveranderingen kleiner dan 0,0125 fte worden buiten beschouwing gelaten. Daarnaast wordt een stroom tussen jaar t-1 en jaar t alleen meegenomen indien de betreffende instelling in zowel jaar t-1 als jaar t wordt waargenomen. Er wordt met behulp van correctiefactoren gecorrigeerd voor instellingen die in één van deze jaren niet aanwezig zijn in het formatiebestand. Het gaat hier doorgaans om non-respons.
Gebruikte variabelen
In Mirror speelt een groot aantal variabelen een rol. Deze wisselen per vergelijking, afhankelijk van statistische en/of economische relevantie in het verleden. Stromen met weinig waarnemingen worden in het algemeen met minder variabelen voorspeld omdat in de schatting van de betreffende vergelijking minder coëfficiënten significant zijn. Vanwege het grote aantal mogelijke variabelen wordt hier voor het moment slechts een indruk van de gehanteerde variabelen gegeven. We kunnen daarbij een classificatie aanbrengen in:
●
Variabelen op taakniveau: taakomvang, omvang van de deelname in de seniorenregeling, dummy voor een fulltime taak, inschaling (schaal en periodiek, bruto salaris), dummy voor maximum periodiek, gegeven vak.
●
Variabelen op persoonsniveau: leeftijd(scategorie), geslacht, totale omvang van alle taken van de persoon, aantal taken.
●
Variabelen op schoolniveau: aantal leerlingen, groei van het aantal leerlingen, aantal fte in een bepaalde functie, denominatie, schooltype, gemiddelde taakomvang op de school, percentage uitstroom uit een bepaalde functie.
●
Variabelen op regionaal niveau: werkloosheid, regionale onvervulde vraag in het voorafgaande jaar, aandeel leraren werkend aan een school van een specifiek schooltype in het totaal aantal fte leraren in de regio.
Correctiefactoren
Een per jaar verschillend aantal instellingen levert niet tijdig de benodigde informatie voor het formatiebestand op. Als gevolg daarvan wordt een deel van taakveranderingen, taakverlies en functieverandering in het schattingsproces ten onrechte gezien als onderdeel van de instroom dan wel de uitstroom. Hierdoor worden in- en uitstroom overschat, terwijl taakveranderingen, taakverlies en functiewijziging onderschat worden. Om hiervoor te corrigeren, gebruiken we correctiefactoren die bepaald worden aan de hand van de non-respons.