Tegen het jaar 2025 streeft de genetica YouTube,Twitter én de astronomie voorbij als grootverbruiker van rekenkracht en data-opslagruimte. Hoog tijd dat de samenleving begint met de technische voorbereidingen, waarschuwen bio-informatici en computerwetenschappers in PLoS Biology.

Waarbij ze clubs als Google, YouTube en de Amerikaanse veiligheidsdienst NSA een pluim geven omdat die tenminste wél tijdig in big data-technologie investeren. Tussen de regels door is de boodschap dan ook een beetje dat de genetica het slachtoffer dreigt te worden van het feit dat ze niet zo’n goed georganiseerde club is

Astronomie, YouTube en Twitter werden gekozen als vergelijkingsmateriaal omdat ze allemaal big-datastromen hebben met een eigen karakter. YouTube verbruikt vooral veel opslagcapaciteit en bandbreedte, astronomie krijgt enorme hoeveelheden data uit antenne-arrays binnen die in realtime moeten worden geanalyseerd en ingedikt, en Twitter trekt vooral veel ‘dataminers’ aan die een commercieel slaatje denken te slaan uit analyse van het overheersende sentiment.

Genomics heeft trekjes van alledrie. De afgelopen jaren verdubbeldeelke 7 maanden het aantal gesequenste menselijke genomen. De auteurs schatten dat het aantal in 2025 zal zijn opgelopen tot ergens tussen de 100 miljoen en 2 miljard, afhankelijk van de mate waarin de kosten per genoom nog zullen dalen. Voor elke 100 miljoen heb je in de praktijk 2 exabyte (=1018 byte) aan geheugen nodig, evenveel als YouTube er nu in een jaar aan filmpjes bij krijgt.

Als biologen en medici al die genomen dan ook nog uitgebreid willen analyseren, vraagt dat een hoeveelheid rekencapaciteit en bandbreedte die moeilijk te voorspellen is maar in elk geval enorm.

De conclusie luidt dan ook dat het hoog tijd wordt om te investeren in infrastructuur, in nieuwe technologie voor de dataverwerking en in de opleiding van meer bioinformatici, kwantitatieve biologen en computerwetenschappers. En om niet te wachten tot een ander het probleem oplost.

bron: Nature, University of Illinois