Månedlige arkiver: august 2010

Kuratering av datasett.

Steve Easterbrook har skrevet en lang og interessant blogpost om et initiativ til et massivt nytt arkiv for historiske temperaturdata. Før en har tenkt seg ordentlig om virker det som noe som burde være en overkommelig jobb. Alle observasjoner har en temperatur, geografiske koordinater og et tidspunkt?

Men http://www.surfacetemperatures.org/ satser mer fundamentalt enn som så. De har ambisjon om å arkivere data på flere forskjellige nivåer:

  1. instrumentlesinger, kanskje i form av scan av håndskrevne papir-logger
  2. Data slik de ble skrevet inn i lokalt format
  3. Data konvertert til et felles format
  4. Data konsolidert i «databank».
  5. Kvalitetskontrollert avleda produkt, korrigert for skjevheter ved målestasjonene.
  6. Homogenisert ferdig produkt, interpolert, i et felles koordinatsystem osv..

Og de ønsker å dokumentere hvordan høyere-nivå former av data avhenger av lavere-nivå former.

Dette er selvsagt et enormt arbeid, men også en utfordring fordi svært lite er gjort fra før på nivåer lavere enn 3. Men oversikt over de lavere nivåene er viktige ikke bare for å sikre kvaliteten gjennom hele kjeden, men også fordi det siste årets liksom-avsløringer har vist at dersom en ikke kan gjøre rede for hele kjeden fra rådata til de strømlinjeformede normaliserte databasene, så vil skamløse antivitenskaplige «skeptikere» bruke det til å så tvil om hele feltet.

I samfunnsøkonomi finnes det ikke noe som likner. I den grad forskere tar del i konstruksjon av referansedatakilder er det ofte i produksjon av noe som korresponderer til nivå 4 i klassifiseringa over, og det er stort sett veldig begrensa informasjon (gjerne bare beskrivelse av generelle prinsipper) å finne om hvordan resultatet bygger på de lavere nivåene. (Verdensbank databasene jeg linker til i en annen blogpost her kan kanskje sies å ha nivå 5, men det er ofte dypt mystisk hvordan de bygger på lavere nivåer.)

At denne systematiske tilnærmingen til kuraterte datasett er så lite fremtredende blant samfunnsøkonomer er antakelig et produkt av manglende politisk press og akademi-internt preferanse for smartness heller enn byråkratisk arbeid. Men datakvalitet kan ha politiske konsekvenser, som når Hellas systematisk og i mange år tilslørte underskuddene på statsbudsjettet. Dersom politiske beslutninger skal tas på bakgrunn av økonomiske argumenter burde både data og teori/metode holde høy kvalitet og være etterprøvbare.

Tradisjonelt har det vel i samfunnsøkonomi vært teori og metode som har fått mest oppmerksomhet i etterprøvbarheten, selv om mange virkelige store spørsmål,  som feks. om de siste 30 års globalisering har skapt mer eller mindre ulikhet i verden, per i dag vanskelig kan besvares fordi data har lav kvalitet — og det som finnes ofte voktes over som om det var forretningshemmeligheter.

Marc Hauser tatt for fusk?

Marc Hauser, en av de mest prominente forskerne på hvordan moral kanskje er et naturlig instinkt hos mennesker og aper, og forfatter av Moral Minds: The nature of right and wrong, ser ut til å være tatt i forskningsfusk. Men det er ikke klokkeklart nøyaktig hva Hauser har gjort, i følge Harvard (som har etterforsket i tre år!) dreier det seg om:

data acquisition, data analysis, data retention, and the reporting of research methodologies and results.

Det kan vel beskrive alt fra en kombinasjon av optimisme og slurv til bevisst manipulasjon. Når Harvard har bedt tidsskrifter trekke artikler virker det alvorlig. Dette kommer til å bringe mistanke om slurv og dårlige rutiner over hele feltet.

Ekteskapsmarkeder, sosialhjelp og alenemødre – totalmodellen …

Radarparet Mike Keane og Ken Wolpin har ny artikkel ute om utdanning og karrierevalg over livssyklen, «The Role of Labor and Marriage Markets, Preference Heterogeneity, and the Welfare System in the Life Cycle Decisions of Black, Hispanic, and White women». Mye på en gang. Bakgrunner er den store bekymringen, særlig fra høyresida i USA, for at unge svarte kvinner ender opp som ugifte stønadsavhengige tenåringsmødre fordi sosialhjelpsystemet oppfordrer til det eller pga fattigdoms-kulturer som gjør dem passive.

De estimerer en modell hvor kvinner to ganger i året gjør beslutninger om å gå på skole, oppsøke sosialkontoret, arbeide, giftemål eller skilsmisse, og å få barn. Og kvinnene ser tvers gjennom alle dynamiske insentiver i hvordan arbeidsmarkedet interagerer med trygde- og sosialhjelpsregler, ekteskaps-markedet og behovet for barnepass; neddiskonterer fremtidig nytte og løser det dynamiske programmerings-problemet.

Preferanser og teknologi blir estimert på data fra National Longitudinal Study of Youth. Som mange av de tidligere arbeidene til Keane og Wolpin er dette en av de mest kompliserte økonomiske modellene som noensinne er estimert. Og antakelig er denne kompleksiteten nødvendig for å kunne svare på spørsmålene de er opptatt av: I hvor stor grad er det forskjeller i preferanser gjennom «fattigdomskulturer» som gjør at det er så mange svarte enslige mødre på sosialkontoret? Hvor stor betydning har det så mange unge svarte menn er uegna som ektefeller, ofte fordi de sitter i fengsel?

Med modellen sin kan de svare på spørsmålet om hva som ville skjedd om unge svarte kvinner sto overfor de samme mulighetene i ekteskapsmarkedet som unge hvite kvinner. Da ville unge svarte kvinner også giftet seg, omtrent like mye som unge hvite kvinner, og de ville gå (litt) mindre på sosialkontoret, men fremdeles mer enn unge hvite kvinner, fallet ville være fra 28% til 21%, sammenlikna med 7% hos majoriteten.

Et annet spørsmål er hvor mye sosialhjelpsystemet betyr. Med modellen sin kan Keane og Wolpin simulere hva som skjer om hele dette systemet ble fjerna. Dette ville redusert dropout fra high school og ført til mer lønnsarbeid, men ikke dramatisk. Det ville også ha nesten ingen effekt på andelen tenåringsmødre, alenemødre eller giftemål.

Så hverken et integrert ekteskapsmarked eller en fjerning av sosialhjelpsystemet ville hatt noen radikal virkning. Men det er heller ikke forskjellige preferanser/fattigdomskulturer som ligger bak, den estimerte heterogenitet i preferanser har absolutt minimal betydning for utfallene i modellen. Det er mye viktigere at svarte kvinner jevnt over tjener mye dårligere enn hvite. Og dette er ikke, sier Keane og Wolpin, fordi de dropper ut av high school (som er en beslutning de modellerer). Nei, det er noe som er bestemt allerede fra kvinnene begynner å ta valg i deres modell (som 14-åringer). Det er to tolkninger av hva dette er. Den ene er at de starter med mindre «skills», kanskje pga dårlige skoler eller manglende barnehager. Men dette lar seg ikke skjelne fra ren diskriminering i arbeidsmarkedet.

Det er ikke lett å se hvordan en kan opprettholde en så massiv diskriminering i et så dynamisk arbeidsmarked som det amerikanske. Så Keane og Wolpin ender opp med å etterlyse mer forskning om hva det er som bestemmer forskjeller i utgangspunktet, hva ligger bak humankapitalforskjellene hos barn? Er det barnehager, skoler eller noe som skjer i familiene? Litt kjedelig at de er nødt til å la forklaringen ligge i en svart boks hvor vi i liten grad kan bruke det økonomiske verktøyet vårt. — Nå er det ikke mangel på økonomer som forsker på pre-marked humankapital, men det er et felt hvor det er vanskelig å lage økonomiske modeller av mekanismene.