Als je een beetje handig voorsorteert kun je bacteriële metagenomen analyseren met slechts enkele tientallen gigabytes RAM-geheugen in je pc. Darbij kun je zelfs onderscheid maken tussen verschillende stammen van dezelfde soort, beloven MIT-onderzoekers in Nature Biotechnology.

Zo’n metagenoom bestaat uit álle DNA in bijvoorbeeld een watermonster. Daar kan genetisch materiaal van duizenden soorten tussen zitten, dat ook nog eens de sequencer uit komt in korte stukjes waarvan niet direct duidelijk is wat bij wat hoort.

In principe kun je dat laatste wel achterhalen. Van de meeste soorten zal het monster immers een groot aantal exemplaren bevatten, waarvan het DNA niet telkens op dezelfde plekken is doorgeknipt. Uit fragmenten die elkaar overlappen kun je zo afleiden wat de basenvolgorde van het complete DNA moet zijn geweest.

Maar bij zo’n metagenoom heb je het al snel over datasets van een paar terabytes. Met een gewone pc kun je daar dus niets mee, simpelweg omdat het RAM-werkgeheugen veel te klein is om de hele dataset te laden. En telkens de harde schijf moeten doorzoeken naar passende fragmenten gaat veel en veel te langzaam.

Brian Cleary, Eric Palm en collega’s komen nu met een methode die ze ‘latent strain analysis’ (LSA) noemen, en die het probleem zou moeten oplossen. LSA is gebaseerd op covariantie en werkt met ‘eigengenomen’, eveneens een zelfbedachte term naar analogie met eigenvectoren. Zo’n eigengenoom is geen echt genoom maar een variabele die in feite aangeeft hoe vaak een tamelijk korte basensequentie (een zogeheten ‘k-meer’) terugkomt in de dataset.

Het idee is dat je nu de hele dataset vanaf de harde schijf door het werkgeheugen laat ‘streamen’. Je gebruikt eenvijfde van de gegevens om een set k-meren en eigengenomen op te bouwen. Op basis daarvan sorteer je de resterende fragmenten, zodat de grote dataset wordt opgedeeld in duizenden kleintjes.

Pas daarna ga je proberen de fragmenten in elk klein datasetje aan elkaar te breien, in de hoop dat die gemeenschappelijke stukjes sequentie inderdaad inhouden dat ze allemaal van dezelfde soort afkomstig zijn. Waarbij, als het goed is, elk afzonderlijk setje wél in je werkgeheugen past. De pc zal wel een poosje bezig zijn, maar hij kan het tenminste aan.

De onderzoekers hebben het uitgeprobeerd met datasets die ze zelf hadden samengesteld door een aantal genomen van bekende soorten in verschillende verhoudingen door elkaar te gooien. Ze stellen dat je er genomen mee kunt terugvinden van acteriën die slechts 0,00001% van de totale populatie uitmaken. En een mix van acht stammen van Salmonella enterica leverde vijf datasetjes op waarin telkens een andere variant overheerste.

Voor wie het ook wil proberen: de software is gratis beschikbaar met garantie tot de USB-poort.

bron: Nature Biotechnology