Varning: denna korrelation kan vara skadlig för din hälsa! Eller leda till felaktig policy…12/3/2015 Big data kommer göra det möjligt att beräkna korrelationer på alla möjliga områden och använda resultaten för prognoser eller policy analys. Utvecklingen är mer eller mindre oundviklig men inte odelat bra. Det finns nya faror som kan leda till allvarliga fel.
En risk som kan uppstå är att förväxla korrelation med kausalitet när man fattar affärsbeslut eller analyserar policy. De enorma mängderna med data om konsumenttrender, livsstilar och nätvanor är värdefulla för företagen och ger tillgång till information som kan användas till att nå specifika grupper med reklam och försäljningsargument. När det gäller policy finns det mängder med värdefulla data om människors beteende som kan ge beslutsfattarna en bild av människors reaktioner på skattereformer eller andra förändringar. En oemotståndlig lockelse kan vara att låta de enorma datamängderna ge upphov till bedömningar som förefaller att vara mycket exakta. Stora datamängder innebär vanligen mindre osäkra mätningar och mätningar på hela populationen eliminerar all stickprovsosäkerhet. Allt fler företag har tillgång till big data eller säljer åtkomst till big data. Men den synbarliga precisionen från sådana analyser kan vara falsk och kanske inte tål en förändring av förutsättningarna. De som utför kvantitativa studier behöver vara försiktiga med att inte tolka korrelationer som kausala samband. Erfarenheterna från Google, som förutsåg en influensaepidemi med hjälp av sökfrekvenser, är ett bra exempel på hur bräckliga korrelationer kan vara.[1] När förhållandena förändras kan konsumenternas beteende också förändras. Riskerna med vantolkning av korrelationer ökar om de är stabila under lång tid och sedan plötsligt förändras på grund av en oförutsedd händelse. Banker som tillhandahöll lån i USA före finanskrisen förutsåg framtida risker med hjälp av enorma mängder data om tidigare tvångsförsäljningar av fastigheter. Men de omfattande problemen med s.k. sub-prime lån, som visserligen var en en liten del av den totala marknaden, skapade sedan en dominoeffekt till resten av marknaden, och de historiska korrelationerna var som bortblåsta. Samma sak kan hända med konsumentundersökningar och andra analyser som baseras på big data. Konsekvenserna av att anta att det finns kausalitet, trots att den inte existerar, är inte bara ett rent akademiskt felsteg, det kan få allvarliga ekonomiska följdverkningar och även leda till felaktiga affärsbeslut. Ett exempel som visar var sådana risker finns är det nya fenomenet "now-casting" (nutidsprognoser), som använder enorma mängder data från webben (bl.a. om människors sökvanor) som indata för makroekonomiska prognoser. Ett exempel: är fler sökningar efter arbetslöshetsunderstöd på nätet ett tecken på att arbetslösheten kommer att öka? En sådan korrelation kan se trovärdig ut, men människors beteenden kan förändras över tid så att korrelationen blir svagare, som i exemplet med Google och influensaepidemin. Slutsatsen är inte att korrelationerna saknar värde men att de bör kombineras med andra typer av data och modeller för att stödja de slutsatser som dras. [1] Se Lazer, David, Ryan Kennedy, Gary King and Alessandro Vespignani (2014). “The Parable of Google Flu: Traps in Big Data Analysis.” Science 343(6176). 1203–1205.
1 Comment
|
Mårten BlixI will write comments on digitalization and other other economic issues here Archives
March 2017
Categories |