Cinta, HDD, SSD, Nube, ADN… Un adelanto sobre el futuro del almacenamiento digital.

Resumen de la reunión anual Arquitecturas de Almacenamiento Digital 2018 (DSA) organizada por la Biblioteca del Congreso de EE.UU.

Estás sentado en tu escritorio subiendo archivos de un proyecto de digitalización reciente a la nube. Mientras los archivos se suben, sabes que el sistema hace su magia. Sabes bastante sobre lo que pasa detrás de escena, trabajas para un archivo grande o para un departamento que tiene la preservación como una de sus metas, y esto es lo que haces. Sabes que hay servidores internos y dispositivos de almacenamiento (ok, tal vez el departamento de informática sabe más sobre los detalles de la administración de almacenamiento), los contenidos son guardados en cinta (primer respaldo), y son también copiados a la nube (como respaldo adicional; en el mejor de los casos hay algún tipo de dispersión geográfica en el sistema completo). Y mientras esperas sentado mirando la barra de progreso, te preguntas qué le depara el futuro a los contenidos digitales que administras y si estás tomando las decisiones correctas. Si mientras leías te encontraste asintiendo, ¡entonces disfrutarás de este post!

Los expertos en el campo del almacenamiento digital se reúnen anualmente a hablar de estas problemáticas, los avances en la tecnología y su impacto en la preservación digital en la reunión Arquitecturas para Almacenamiento Digital (DSA, por sus siglas en inglés), organizada por la Biblioteca del Congreso de EE.UU. AVP tuvo la oportunidad de asistir a la reunión este año, y aquí mostramos un resumen con algunas de nuestras conclusiones principales.

Para aquellos que no estén familiarizados con este evento, la reunión DSA reúne a expertos técnicos y profesionales con experiencia en el área que están interesados en la preservación digital para discutir infraestructuras de almacenamiento, enfoques prácticos y tecnologías actuales y nuevas para dibujar el paisaje del futuro de la disciplina. Es una oportunidad única para proveedores de servicios, compañías y consultores de aprender sobre las necesidades y requerimientos de organizaciones que trabajan con la preservación de objetos digitales y también la oportunidad para estas instituciones de escuchar los últimos avances en tecnologías de almacenamiento digital y tendencias del mercado. La reunión de este año — que se realizó en septiembre 18-19, 2018 — incluyó estudios de caso de organizaciones, conversaciones sobre tendencias en el mercado de medios de almacenamiento, investigaciones actuales sobre almacenamiento digital y medios de almacenamiento alternativos.

Estudios de caso de la comunidad

La mañana del primer día comenzó con un resumen de las prácticas actuales, proyectos y desafíos de la Biblioteca del Congreso. Actualmente la biblioteca administra más de 9 PB de almacenamiento proveniente tanto de digitalización como de contenido nativo-digital, y recientemente realizó un proceso de migración enorme desde 4 centros de datos a 2, lo que también incluyó migración de lectores de cinta y desarrollo de capas de abstracción para mejorar la rapidez en la movilidad de datos. Si bien han considerado los servicios de la nube para copias de respaldo, esto no ha ocurrido debido a requerimientos internos y costos (incluyendo los costos de recuperación de objetos digitales y la administración continua de éstos.)

Durante estos dos días, otras organizaciones presentaron sus proyectos y/o infraestructuras actuales. A través de la exposición de sus desafíos y éxitos, las presentaciones generaron conversaciones interesantes sobre enfoques prácticos y ofrecieron a sus colegas pensamientos realistas sobre implementaciones en diferentes contextos. De las presentaciones surgieron preguntas interesantes sobre recuperación, búsqueda y acceso. Aquí hay algunas notas que tal vez encuentres interesantes:

Sally Vermaaten (Gates Archive) habló sobre el rediseño de la infraestructura digital que comenzó con una asesoría interna, una comparación de prácticas comunes en otras organizaciones, análisis de servicios en la nube, y una auditoría de su propio almacenamiento temporal. Su experiencia es relevante pues puede resonar con lo que tienen que enfrentar otros archivos de tamaño similar. Esta asesoría cuidadosa puede ser un ejemplo de un buen punto de inicio.

Karen Cariani and Rebecca Fraimow (WGBH) presentaron su enfoque sobre sistemas de almacenamiento desde la perspectiva de un archivo dentro de un entorno de producción. WGBH ha establecido un modelo en donde la descripción de contenidos durante la producción antes de la transferencia de medios al archivo es obligatoria para la facturación de los proyectos, lo que hace más eficiente la recolección de metadatos desde los productores (en otras palabras, ¡verdaderamente ocurre!) Están actualmente abogando por la creación de un entorno más integrado, tanto para el archivo como para la administración de contenidos, lo que también parece ser un problema para Gates, ya que los metadatos automatizados son generados por sistemas distintos.

Desde la perspectiva de un consultor, Ben Fino-Radin (Small Data Industries) presentó los resultados de una encuesta sobre prácticas de almacenamiento digital en organizaciones que poseen colecciones de arte medial. Este estudio reveló grandes vacíos y amplias diferencias en la forma en que se lleva a cabo el almacenamiento y la preservación digital, lo que pone en evidencia la necesidad creciente de apoyo en esta área. Más allá de lo que hacen — o no hacen —  las organizaciones de arte para guardar y proteger sus objetos, el panorama que mostró Small Data Industries puede parecer familiar a muchas organizaciones culturales u organizaciones pequeñas que enfrentan repentinamente la preservación a largo plazo de objetos digitales. Como señaló Fino-Radin: atención compañías de almacenamiento, hay un grupo grande de clientes desatendidos con montones de datos por almacenar.

Fueron muy interesantes otras dos presentaciones pues lidiaban con enfoques grandes y escalables a la recuperación de datos y su almacenamiento. Leslie Johnston (NARA) introdujo el nuevo sistema Electronic Records Archive systems (ERA) desarrollado como un suite de herramientas basadas en la nube que permite a más de 200 organizaciones gubernamentales la realización de procesos y entrega de récords electrónicos. Además Brian Wheeler (Indiana University) habló sobre los flujos actuales de digitalización de película y preservación y la optimización de procesos vía HPSS (High Performance Storage System.)

Fabricantes de Medios de Almacenamiento

También estuvieron presentes en esta reunión representantes de los fabricantes de medios de almacenamiento. Aquí hay un resumen rápido de algunas de sus presentaciones.

Henry Newman (Seagate) habló sobre los beneficios de la computación cuántica para procesos como cálculo de sumas de verificación, optimización y encriptación para lograr mejor seguridad.

Robert Fontana (IBM Research) nos mostró el panorama del mercado de medios de almacenamiento - cinta de datos LTO (Linear Tape-Open) data tape, HDD (Hard Disk Drive) y NAND (i.e., solid state o flash) - un análisis basado en la densidad de superficie, ganancias económicas y costo por GB. Aunque los HDD continúan dominando el mercado en términos de la cantidad te datos almacenados, los NAND siguen creciendo como una fuente importante de ganancia mayormente basado en su uso en la industria del consumidor como en los smartphones. De forma general, el precio/datos almacenados decrece alrededor de 20-25%  cada año y el almacenamiento fabricado tiene un crecimiento lineal para HDD y cinta, mientras que el crecimiento para los NAND es exponencial. Además, la fabricación de cinta tiene una limitación basada en el número de compañías que las producen (sólo 2: Sony y Fuji). El costo por GB continúa disminuyendo para HDD y cinta, casi sin percibir cambios para NAND (el decrecimiento se detuvo por una falta de balance en el mercado). Desde la perspectiva del consumo de energía, de forma general se está optimizando y reduciendo, pero los HDD continúan siendo más caros que NAND.

Jon Trantham (Seagate - Industry Review) habló sobre la introducción de HAMR (Heat Assisted Magnetic Recording) y tecnologías de dual-actuator Como método para mejorar la capacidad de almacenamiento de datos y velocidad de escritura y lectura para HDD, que desde su perspectiva es el mayor mercado dado que estos dispositivos son usados principalmente en soluciones de nube, que es, cómo es de esperar, un mercado creciente. Su visión es que con esta tecnología la capacidad de almacenamiento subirá hasta 30-40 TB por unidad.

Surgió una conversación interesante después de escuchar los avances hechos por la industria NAND —  ¿hay un cambio en el mercado? Los presentes indicaron también la importancia de las interfaces de escritura en el avance y adopción de estas tecnologías, como también comentarios sobre necesidades especiales para los archivos (por ejemplo, costos de mantenimiento a largo plazo, los altos costos de los SSD, confiabilidad y los problemas de retención de los SSD y la estabilidad de los medios magnéticos en relación a los SSD).

Xiaodong Che (Western Digital) presentó sobre las mejoras en el desarrollo de EAMR (Energy-Assisted Magnetic Recording)  para el mejoramiento de la latencia de lectura y escritura.

Como ya debes haber adivinado, la mayor parte de la investigación realizada por fabricantes está enfocada en el desarrollo de hardware más rápido y eficiente para su uso en la nube y específicamente para HDD.

Proveedores de Servicios

También se unieron a la conversación los proveedores de servicios. Kevin Miller (AWS) habló sobre el foco de desarrollo para Glacier, que en este momento tiene relación con el mejoramiento de ecosistemas, no sólo de almacenamiento de bits. Reconoció que la velocidad de recuperación de datos era un problema en el pasado y cómo lo han ido mejorando. Su visión es ahora enfocarse en necesidades de archivo específicas con el propósito de sacarle el peso de encima a los usuarios. han estado abiertos escuchar las peticiones de la audiencia en relación a la durabilidad, transparencia de sumas de verificación y confiabilidad, y quiere mantener los canales de comunicación abiertos para poder entender las necesidades de la comunidad. una preocupación grande manifestada por los presentes fue que las organizaciones pequeñas no tienen necesariamente el expertise correcto para auto-administrar tecnologías de almacenamiento la nube, que las barreras al acceso y el conocimiento técnico son muy altas, un problema que también fue evidente en los resultados de la encuesta mostrados por Fino-Radin.

David Friend (Wasabi) presentó su almacenamiento en la nube barato, integrado, flexible, transparente y fácil de usar. Este servicio ofrece una interfaz de usuario que permite acceso rápido y control de los objetos en la nube. Sin embargo, Wasabi actualmente sólo tiene dos ubicaciones geográficas disponibles para almacenamiento.

Pashupati Kumar (Microsoft - Project Pelican) presentó los avances hechos en sistemas de almacenamiento en rack cold-tier basados en HDD y cinta con el propósito de bajar los costos a través de la reducción del consumo de energía, aumentando los dispositivos por rack, desagregación de almacenamiento, performance flexible y el uso de componentes comunes.

Es interesante notar a partir de los comentarios, preguntas y conversaciones, que Aunque algunas organizaciones han tomado el camino del almacenamiento en la nube para al menos uno de sus respaldos, todavía hay algo de incomodidad en relación a estos servicios. La transparencia en los procesos y administración de los objetos digitales es una gran preocupación para los archivos; no es suficiente tener 99,99% de durabilidad de datos si los proveedores no publican los detalles sobre cómo se administran estos objetos y entregando al menos metadatos de administración básicos (algunos sistemas de nube ya ofrecen este servicio). La seguridad, como es de imaginar,  es también un tema sensible, pues la mayoría de los colegas siente que los sistemas de nube aún no han sido puestos a la prueba de una gran falla.

¿Qué hay en el horizonte?

En DSA podemos ver el presente, el futuro cercano y el lejano. Obviamente, la investigación sobre almacenamiento no se limita al mejoramiento de medios de almacenamiento actuales. la búsqueda de opciones más rápidas, más densas y más confiables es una meta permanente de la Industria y los resultados de su búsqueda pueden llevarnos a lugares, materiales, componentes y sistemas que aún no hemos siquiera imaginado. ¿No es entretenido pensar en los cientos de TB que podrás almacenar? Aquí hay algo de información para tu imaginación.

Rob Hummel (Group 47) habló sobre una tecnología de almacenamiento más estable, de bajo costo, amigable con el medio ambiente y “ de lectura visual”: DOTS. Contrario a lo que podrías pensar, esta tecnología no es nueva — fue desarrollada y probada por Eastman Kodak. DOTS guarda información en una base de poliéster cubierta con una aleación metálica que reacciona al calor de un láser. La información puede ser leída con una cámara y puede contener información digital, como también textos e imágenes si se requiere.

Peter Kazansky (U. of Southampton/Microsoft) introdujo un nuevo método de almacenamiento óptico en plancha de cuarzo que podrá almacenar alrededor de 1TB de datos en un volumen equivalente a un disco DVD. Project Silica ha desarrollado esta tecnología pensando en la nube y las grandes ventajas de este medio son su durabilidad y la velocidad de escritura.

seguro has escuchado sobre almacenamiento en ADN. uno de los principales beneficios de esta técnica es su alta densidad y estabilidad, sin embargo, sus costos y velocidad de escritura aún son problemas a resolver. Devin Leake (Catalog) habló sobre los avances que han hecho en esta área; existe la posibilidad de guardar hasta 10 exabits/cm3 de datos, sin embargo, el costo es de alrededor de USD $1 millón para almacenar 200MB a una velocidad de 3.7 kb/s. Karin Strauss (University of Washington - Microsoft)  mostró los avances en la creación de un prototipo para leer información usando microfluidos con el objetivo de construir “Bibliotecas de ADN”. La búsqueda y recuperación de datos puede tomar cerca de 1.5 horas y aunque actualmente es posible leer y escribir, está aún en desarrollo la automatización de los procesos. ¡Tú también puedes ser parte de este proyecto! El proyecto #MemoriesInDNA busca recolectar 10.000 imágenes para guardar en ADN.

Entonces, ADN, aún no hemos llegado ahí. una pregunta interesante que surgió fue en relación a la interoperabilidad de datos con ADN, si varias organizaciones trabajan en estos prototipos, ¿qué tan viable es la interoperabilidad? De acuerdo a Devin y Karin, este es un problema de codificador/decodificador; siempre que el sistema sepa cómo fueron guardados los datos, le será posible su lectura.Entonces, sólo podemos esperar que los esquemas de codificación se mantengan abiertos por el beneficio de los usuarios.

De vuelta al planeta tierra - un recurso útil

La reunión concluyó con una revisión de Los Criterios de Almacenamiento para Preservación Digital,Una lista de temas y consideraciones importantes que pueden ayudar a cualquier organización en la planificación inicial de almacenamiento para preservación. Se destacó el hecho de que este documento no es de ninguna forma un grupo de requerimientos, sino sólo una lista de referencia para ayudar en el proceso de proyección de almacenamiento digital.

Ahora que ya volviste de este ensueño, puedes volver y continuar subiendo archivos a la nube. espero haber podido responder alguna de tus preguntas y además posar nuevos pensamientos y preguntas en tu cabeza!