Un minuto de inactividad en los servidores de tu empresa puede tener un costo de hasta USD $300,000
Por: Editorial Moneta
Seguramente en tu vida profesional has experimentado la caída involuntaria de los servidores de tu empresa, y has enfrentado la dolorosa perdida de información e interrupción en los servicios críticos.
Durante muchos años la tecnología solo permitía establecer estrategias de recuperación ante estas caídas, la prioridad era recuperarse lo antes posible tras la falla de los servidores. En el mundo de la tecnología sabemos que tanto software como hardware son vulnerables y fallarán, es un hecho, va a suceder, la pregunta es cuándo y cómo.
En una reciente encuesta de Enterprise Strategy Group solicitada por Stratus Technologies en la que participaron 250 personas encargadas de tomar decisiones en el área de las TI, se determinó que solo el 13% de las empresas encuestadas pueden tolerar cuatro horas o más de tiempo de inactividad, un lapso típico cuando se cuenta con una solución de copia de seguridad antigua. Con esta premisa en mente, el único objetivo aceptable es recuperarse de una interrupción o “Downtime” en segundo, no en horas.
Pero hablemos del entorno de TI, las empresas han crecido e incorporado nuevas tecnologías, algunas de ellas permanecen activas y otras son remplazadas para dar mayor funcionalidad y tener mejor desempeño para afrontar crisis de downtime.
Por ejemplo, algunas aplicaciones de bases de datos como: Microsoft SQL Server o de Oracle, proporcionan replicación sincrónica o asincrónica entre instancias de servidores de base de datos. De esta manera el usuario obtiene de manera transparente el servicio de la copia alternativa en tiempo casi real.
Aunque las tecnologías tienen el mismo fin, el problema radica en los tiempos de inactividad, la mayoría de las tecnologías de alta disponibilidad son modelos “activo/pasivo” o de “recuperación rápida de fallas”; en estos casos tiene que ocurrir una falla para que inicie el protocolo de recuperación que en algunas ocasiones se da de manera automática, como es el caso de la réplica de base de datos, mientras que otras plataformas como VMware ó Sphere, requieren el “reinicio” de las Maquina Virtuales.
Este reinicio es un proceso que siempre generará incertidumbre con respecto a la recuperación. Entre las 6 consecuencias causadas por los tiempos de inactividad podemos citar los siguientes:
- Pérdidas de hasta USD$300,000 por minutos para industrias como: retail, sector financiero y energético, entre otras.
- Perdida o daño de datos / complejidad en la sincronización y administración de datos.
- Insatisfacción por parte del cliente y daño a la reputación de la empresa.
- Incertidumbre de un completo restablecimiento del sistema.
- Dificultades para cumplir con la normatividad nacional e internacional.
- Costos elevados y personal altamente especializado para la administración de los sistemas.
ftServer de Stratus y la virtualización.
Cuando hablamos de máquinas virtuales (VMWire) debemos entender que existe un rango mayor de incertidumbre frente un problema, ya que los tiempos de arranque se encuentran inactivos hasta que se requieren, por lo que el inicio o arranque sucede como cualquier otra máquina virtual, y si consideramos que las aplicaciones transaccionales que utilizan registros de tiempo real en combinación con registros de bases de datos, entonces volvemos al complicado entorno de recuperación de datos, sincronización de los mismos, incertidumbre y tiempo, mucho tiempo de inactividad.
Los desafíos específicos que las organizaciones actuales tienen al intentar lograr la disponibilidad continua en sus entornos virtualizados son los costos elevados de mantener varios hosts, licencias e interconexiones además de su complejidad. Es notable que en la encuesta realizada por Enterprise Strategy Group solo el 16% de los encuestados declararon estar satisfechos con su sistema actual, lo que hace suponer 84% de las organizaciones buscan algo diferente o un complemento de lo que están haciendo en la actualidad.
Disponibilidad continua de Stratus con VMware
La serie de servidores ftServer están integrados por componentes internos redundantes, con esta arquitectura, la falla del componente ya no requiere de una recuperación o reinicio del sistema. Al ejecutar un hipervisor VMware ESXi en una plataforma de disponibilidad continua (always-on), se minimiza a segundos la interrupción de los sistemas críticos, es decir casi de manera instantánea la operación continúa.
A diferencia de la arquitectura tolerante a fallas con varios hosts y replicación entre ellos, la arquitectura de Stratus proporciona una sola plataforma sin las preocupaciones de pérdida de datos o de tiempo de inactividad que pueden surgir. Administrar VMware en los servidores Stratus ftServer no es diferente de administrar VMware en servidores tradicionales, salvo que las MV en ftServer no dejan de funcionar por vulnerabilidades del host. Dicho de manera sencilla, VMware más Stratus proporcionan a los clientes una verdadera plataforma tolerante a fallas para ejecutar sus MV de misión crítica.
Es claro que el fin es el mismo independientemente de las tecnologías empleadas, son múltiples los factores que pueden causar el Downtime, pero la infraestructura de disponibilidad continua para la protección de datos se centra en componentes duplicados que funcionan siempre en forma paralela, de tal manera que si un componente falla, inmediatamente el otro componente continua con la operación de manera ininterrumpida, evitando el reinicio del sistema o cualquier otra interrupción en la operación.
Muchas industrias mantienen sistemas legados o máquinas virtuales VMWare; y aunque la transformación digital demanda cada vez más recursos tecnológicos eficientes y adaptables a las nuevas necesidades de los usuarios, es recomendable incorporar infraestructura “Always-on” a estos sistemas y evitar la necesidad de reiniciar los sistemas esperando que todo salga bien.
El enfoque de VMware y Stratus ftServer es complementario, no competitivo. Stratus tiene una sociedad de muchos años con VMware, y el software vSphere de VMware contiene código de Stratus, lo que le permite reconocer que se encuentra en un servidor tolerante a fallas.
Algunas reflexiones de cambio no tienen que ver con tecnología, pensar que mi empresa cuenta con los mecanismos de recuperación suficientes para afrontar una crisis de tiempos de inactividad no planeados, es un pensamiento que al igual que los sistemas legados, debe de cambiar. El enfoque reactivo es cosa del pasado, es una visión obsoleta que debe de ser remplazado por el pensamiento analítico/predictivo, ¿por qué esperar fallas si se pueden evitar?, ¿por qué afrontar perdidas si se pueden erradicar desde antes que sucedan?
El verdadero reto es remplazar el pensamiento tradicional y dejar de asumir las fallas como algo administrable, dejar de pensar que recuperarse de una caída en los servidores en horas en lugar de días es un avance positivo, que es aceptable e inclusive razonable.
Si deseas conocer más de estas tecnologías y sus múltiples aplicaciones para el sector retail o financiero, ponte en contacto con nosotros y un experto te ayudará a tomar las mejores decisiones para tu empresa.