Nick Goldman presenteert de nieuwste editie van Shakespeares sonnetten.

Data-opslag in DNA is weer een stapje verder. Een Brits team heeft een redundante code bedacht die door een sequenser met bijna 100 procent nauwkeurigheid kan worden afgelezen, zo meldt Nature deze week.

Om te beginnen hebben Nick Goldman en collega’s een jpg van hun instituut in Hinxton, een mp3-audiofragment van Martin Luther King, een pdf van Watson en Cricks publicatie over de dubbele helix en een tekstfile met alle 154 sonnetten van Shakespeare versleuteld tot 5,2 miljoen bits DNA-code. Die mailden ze naar Agilent Technologies in Californië, dat de daadwerkelijke ketens synthetiseerde. Het resultaat ging per post terug naar Europa waar het vrijwel foutloos kon worden gedecodeerd, op twe fragmentjes van 25 bits na.

Volgens de auteurs heeft deze vorm van data-opslag verschillende voordelen. Ten eerste neemt ze weinig ruimte in: Goldman heeft berekend dat hij de 90 petabyte van het CERN-lab in Genève, die nu nog op een stuk of 100 tape drives staat opgeslagen, kwijt kan op precies 41 gram DNA.

Ten tweede blijft dat DNA duizenden jaren goed (je kunt een mammoet nu nog aflezen!) wat je van magneetgeheugens of cd’s bepaald niet kunt zeggen. En ten derde blijft DNA altijd DNA en hoef je niet bang te zijn dat de bijbehorende afspeelapparatuur ineens niet meer leverbaar is.

Het nadeel is dat de synthese momenteel nog 12.400 dollar per megabyte kost en het aflezen 220 dollar per MB. Maar vergeleken met een paar jaar geleden zijn die prijzen al spectaculair gedaald, en de auteurs verwachten dat hun opslagmethode binnen 10 jaar economisch haalbaar is.

Het is niet de eerste proef met DNA-dataopslag. Vorig jaar beschreef Harvard-coryfee George Church al in Science hoe hij zijn laatste boek over synthetische biologie had verwerkt tot DNA. Maar Church gebruikte een heel simpele code waarbij adenine en cytosine telden als een 0 en guanine en thymine als een 1. Zo sluipen er gemakkelijk fouten in, temeer daar de huidige sequencers erg veel moeite hebben met fragmenten waarin één base heel vaak wordt herhaald - in natuurlijk DNA zie je dat maar zelden, bij data-opslag is de kans veel groter dat het gebeurt.

Vandaar dat de Engelsen werken met een van ASCII afgeleide code waarbij elk letterteken verandert in een sequentie van 5 basen. Daarbij bestaat keuze uit verschillende mogelijkheden. om te vermijden dat jeooit 2 dezelfde basen achter elkaar krijgt.

De boodschap wordt vervolgens opgesplitst in fragmenten van 100 basen (dus 20 karakters), aangevuld met een uit 17 basen bestaand label. En om de gewenste redundantie te krijgen begint elk volgend fragment 25 basen verderop; de stukken overlappen dus elkaar en elk stukje code komt in vier verschillende DNA-fragmenten terug.

Als je 25 bits kwijt bent, betekent dat dus dat 4 opeenvolgende fragmenten onleesbaar waren. Die kans blijkt inderdaad erg klein.

bron: Nature, EMBL

Onderwerpen