Estudios señalan que más del 90% de los datos almacenados por organizaciones comerciales o gubernamentales son esencialmente “basura” – información que nunca debió crearse ni guardarse (Data centers contain 90% crap data | Gerry McGovern).
Esta sobreabundancia incluye desde fotos borrosas y videos irrelevantes hasta correos con adjuntos enormes, informes jamás leídos y copias duplicadas de archivos.
Un ejemplo gráfico:
Se toman 1.9 billones de fotos cada año (más que en todo el siglo XX), acumulando unos 12 billones de fotografías almacenadas en la nube, la gran mayoría nunca vistas nuevamente.
Almacenar y gestionar estos datos inútiles tiene un costo oculto significativo, lo que se traduce en gastos energéticos, infraestructurales y operativos para las empresas.
En este artículo analizamos cómo la acumulación de datos innecesarios afecta a las organizaciones en costos, sostenibilidad y desempeño tecnológico, y qué medidas pueden tomar los ejecutivos para resolver este problema.
También exploramos el caso de México, donde el crecimiento de centros de datos exige mayor atención a la eficiencia en la gestión de la información.
Costos ocultos de almacenar datos innecesarios
El almacenamiento masivo de datos “basura” conlleva costos económicos directos para las empresas.
Aunque el costo por gigabyte ha caído con los años, mantener petabytes de información inútil implica invertir en servidores, cabinas de almacenamiento, licencias de software, servicios de nube y personal de TI para administrarlos.
Un estudio de Veritas ilustró que sólo 15% de los datos empresariales almacenados es información crítica de negocio, el resto son datos oscuros o ROT (redundantes, obsoletos o triviales) (El Informe Global Databerg de Veritas descubre que el 85% de los datos almacenados son oscuros o redundantes, obsoletos o triviales (ROT) – trendTIC).
Para una empresa mediana con 1.000 terabytes (1 petabyte) de datos, el costo de almacenar información no crítica supera los 650.000 dólares anuales.
En otras palabras, las organizaciones gastan cientos de miles (e incluso millones) de dólares al año conservando datos que no les generan ningún beneficio.
Además del gasto en equipos y almacenamiento, el consumo energético derivado de almacenar y procesar datos inútiles es considerable. Los centros de datos a nivel mundial consumen entre el 1% y 3% de la electricidad total, una proporción que sigue en aumento ante el crecimiento exponencial de la información.
Cada archivo que una empresa decide guardar indefinidamente ocupa espacio en discos que deben refrigerarse y respaldarse, incrementando la factura eléctrica. Un análisis estima que más del 80% de los datos empresariales son “oscuros” (es decir, se almacenan pero nunca se utilizan) (Why Dark Data Shouldn't Be Taken Lightly | CIO Insight), y sin embargo siguen consumiendo recursos de energía y mantenimiento.
Este desperdicio repercute en la huella de carbono corporativa: alimentar servidores para datos prescindibles significa emisiones de gases de efecto invernadero y un uso poco sostenible de recursos.
En suma, el exceso de datos no es solo un desorden inofensivo, es un pasivo costoso que impacta las finanzas y el medio ambiente de la empresa.
Impacto en la eficiencia y el desempeño tecnológico
Más allá de los costos directos, la acumulación de datos innecesarios afecta la eficiencia operativa y el rendimiento tecnológico de las organizaciones.
Grandes volúmenes de información sin depurar dificultan la rápida localización de datos valiosos. Los sistemas de backup y recuperación tardan más tiempo cuando deben procesar terabytes de contenidos irrelevantes. Asimismo, los datos obsoletos o duplicados pueden entorpecer los análisis de negocio, sesgando resultados o confundiendo a los equipos con múltiples versiones de la “verdad”.
Como señaló un especialista, una enorme proporción de datos pierde utilidad pocas horas después de generarse, y pasado un mes la mayoría de los datos simplemente “se queda ahí” sin volver a ser consultada.
Esto indica que muchas bases de datos corporativas están infladas con historiales y registros antiguos que rara vez aportan valor a la toma de decisiones actual.
El desempeño de la infraestructura de TI también sufre. Bases de datos y repositorios sobrecargados pueden volverse más lentos en sus consultas y consumen más recursos de cómputo para tareas de indexación, búsqueda y mantenimiento.
Por ejemplo:
Una organización descubrió que de 1.500 TB de datos que almacenaba, menos del 2% había sido accedido luego de su almacenamiento inicial.
Toda esa información “muerta” no solo ocupaba espacio, sino que hacía más engorroso cada proceso de migración, actualización de sistemas o auditoría de información.
Además, datos no gestionados representan riesgos de cumplimiento (p. ej., información sensible que se conserva más tiempo del debido) y aumentan la superficie de ataque para ciberdelincuentes.
En resumen, la sobrecarga de datos reduce la agilidad tecnológica: las empresas que no controlan la proliferación de información inútil terminan con sistemas menos responsivos, procesos más lentos y mayores riesgos operativos.
Recomendaciones para una mejor gestión de la información corporativa
Dada la magnitud del problema, ¿qué pueden hacer las empresas para reducir y gestionar mejor sus datos?
A continuación se presentan algunas acciones recomendadas para frenar la acumulación de “datos basura” y optimizar el valor de la información almacenada:
- Realizar auditorías y limpieza periódica de datos: Es fundamental inventariar los datos almacenados y detectar cuáles ya no tienen utilidad. Iniciativas de data cleanup (limpieza de datos) han mostrado resultados drásticos; por ejemplo, la empresa Kyndryl eliminó el 90% de sus datos tras una consolidación y depuración de sistemas redundantes. Establecer proyectos regulares de depuración ahorra costos a largo plazo.
- Implementar políticas de retención y gobierno de datos: Definir claramente cuánto tiempo se debe conservar cada tipo de información (facturas, correos, documentos de proyecto, registros de clientes, etc.) según su valor legal o de negocio. Cumplido el plazo, los datos deben eliminarse o archivarse fuera de línea. Un buen gobierno de datos incluye clasificar la información por niveles de importancia y asegurarse de que los datos obsoletos no permanezcan indefinidamente en sistemas de producción.
- Reducir la duplicación y mejorar la clasificación: Muchas veces el mismo archivo o dataset existe en múltiples ubicaciones. Herramientas de deduplicación y gestión documental ayudan a evitar copias innecesarias. Asimismo, invertir en metadatos y clasificación permite identificar más fácilmente qué contenido es relevante. Si los empleados pueden saber qué documentos son oficiales o definitivos, estarán menos inclinados a crear duplicados o versiones paralelas.
- Fomentar una cultura de calidad sobre cantidad: El factor humano es clave. Capacite a los equipos para que crean y conserven solo datos que aportan valor. Esto implica promover buenas prácticas como evitar adjuntar archivos pesados cuando un enlace es suficiente, resumir reportes en vez de duplicarlos íntegros, y documentar en repositorios centrales en lugar de drives personales. Una cultura organizacional que desaliente la “acumulación de datos” y premie la eficiencia informativa hará más sostenible la gestión en el largo plazo.
- Monitorear costos y eficiencia en la nube: Si su empresa utiliza servicios en la nube, aproveche las herramientas de monitoreo de almacenamiento y costos. Muchas veces el cloud facilita la proliferación de datos porque aparenta ser “barato” o ilimitado. Sin embargo, la nube puede convertir a las organizaciones en “acumuladores de datos” por la facilidad de guardar todo. Establezca alertas de almacenamiento o revisiones trimestrales para identificar crecimientos anómalos y datos que pueden depurarse. Pague solo por los datos que realmente necesita y usa.
Aplicando estas recomendaciones, las empresas no solo ahorrarán en gastos de TI, sino que también lograrán bases de datos más ágiles, información de mayor calidad para sus analíticas, y una reducción en el impacto ambiental de sus operaciones digitales.
El caso de México: Centros de datos en auge y retos locales
En México, este problema cobra relevancia particular debido al rápido crecimiento de los centros de datos en el país. México se perfila como un hub tecnológico regional; de hecho, en los próximos 5 años se instalarán al menos 73 nuevos centros de datos, sumándose a los 166 ya operativos.
Empresas globales y locales están invirtiendo alrededor de 9.200 millones de dólares para expandir esta infraestructura.
El auge de centros de datos trae beneficios económicos, pero también implica un enorme incremento en demanda de energía:
Se estima que las nuevas instalaciones aumentarán en 400% el consumo energético del sector en México, pasando de ~305 MW a 1.492 MW necesarios para operar estos data centers.
Si una proporción significativa de los datos almacenados en estas facilidades es información inútil o duplicada, las empresas estarían incurriendo en costos eléctricos y de infraestructura muy elevados para conservar datos de poco valor. México no es ajeno al fenómeno del “dark data”:
Ya en 2016 se reportaba que alrededor del 52% de los datos almacenados por organizaciones mexicanas eran datos oscuros (no clasificados ni explotados), porcentaje similar al promedio global.