La mayoría de los fracasos de la computación en la nube se remontan a errores muy humanos. ¿Qué lecciones hemos aprendido?
A menudo me sorprende la forma en que la prensa enmarca los fracasos de la computación en la nube. Por ejemplo, titulares como ‘La nube no cumple’. Esos pueden obtener clics, pero son engañosos. La tecnología en la nube siempre ha cumplido con lo prometido. El problema es que el error humano es la causa principal de las fallas en la nube, lo que no ha cambiado a lo largo de las generaciones de esta tecnología.
Como he escrito a menudo, la mayoría de los fallos tecnológicos tienen un solo patrón típico: malentendidos, falta de liderazgo y, en muchos casos, falta de conocimiento y experiencia. A medida que nos proponemos impulsar importantes proyectos de IA generativa, es hora de reflexionar y ver cómo podemos hacerlo mejor.
Principales razones del fracaso
Las razones por las que se producen los fallos varían mucho. Los cuatro primeros que veo incluyen:
Arquitectura inadecuada. Con demasiada frecuencia, las empresas migran a la nube sin una planificación adecuada o sin una comprensión de su computación. De esto pueden surgir problemas significativos de rendimiento o confiabilidad. O más probablemente, sistemas muy poco optimizados que consumen de cinco a 10 veces más dinero del que deberían.
Acuerdos de nivel de servicio (SLA) mal definidos. ¿Por qué no se cumplen los estándares de rendimiento esperados? Esto se debe principalmente a acuerdos de nivel de servicio mal definidos entre la organización y el proveedor de servicios en la nube. He visto cómo esto mata proyectos en los que algunas matemáticas podrían haberles ahorrado a todos mucho dolor después de la implementación. Aunque los SLA pueden ser confusos, nunca he visto un caso en el que un proveedor de nube no haya estado a la altura de su final. En cambio, los acuerdos carecían de alineación con lo que los usuarios de la nube esperaban y lo que se entregaba, principalmente porque las personas no prestaron atención al acuerdo antes de ejecutarlo.
Mala gestión de los recursos en la nube y sobrecostes. Los recursos mal administrados pueden provocar excesos presupuestarios o cuellos de botella en el rendimiento, que a menudo se confunden con deficiencias en la nube. Esta es la razón por la que ahora existe FinOps. Una vez más, cuando se rastrean estos costos hasta la causa real del problema, a menudo se trata de una falta de alineación entre lo que los usuarios de la nube pensaban que se estaba entregando por un precio específico y lo que realmente se entregó cuando los recursos no se administraron correctamente.
Procesos de seguridad y cumplimiento inadecuados y tecnología de apoyo. Los desinformados asumen que el proveedor de la nube debe manejar todas las necesidades de seguridad. Ese nunca es el caso, dado el modelo de responsabilidad compartida. Los clientes de la nube son responsables de proteger sus aplicaciones y datos dentro de la nube. Esto implica comprender en profundidad las complejas estrategias de gestión de identidades y accesos (IAM), cifrado y supervisión. En muchos casos, las empresas no tienen el talento para manejar estos problemas y esperar lo mejor. Esto conduce a infracciones que forman parte del ciclo de noticias de 24 horas.
Cómo hacerlo mejor
No estoy a favor de poner la tecnología de computación en la nube en un pedestal donde no puede hacer nada malo. Sin embargo, si nos fijamos en los patrones de fracasos, los humanos son el eslabón débil la mayor parte del tiempo. Las malas decisiones se deben a la incomprensión, la falta de experiencia y, el mayor problema, la falta de personal cualificado.Sospecho que la falta de talento es el resultado de que el mercado de la computación en la nube se dirige ahora en dos direcciones. En primer lugar, la tecnología se está volviendo mucho más compleja; Las soluciones son muy heterogéneas y tienen muchas partes móviles. En segundo lugar, el número de arquitectos cualificados de computación en la nube, ingenieros de seguridad, ingenieros de bases de datos, etc., está creciendo por debajo del ritmo de la demanda.
Cuando las empresas contratan a candidatos poco calificados que cometen errores estúpidos, los problemas se descubren después de meses, a veces años. La mayoría de las cosas funcionan bastante bien durante la implementación, pero las debilidades se descubren más tarde. Esto es cuando recibes una gran factura de computación en la nube o tus datos son comprometidos.
Por lo tanto, dado que se trata de un problema de personas y no de tecnología, la atención debe centrarse en las personas, que es lo que la mayoría de ustedes no quería escuchar. Es hora de la capacitación y la contratación estratégicas y de ser muy exigente con las personas en las que confía para tomar decisiones importantes sobre cómo se debe aprovechar la tecnología, incluida la tecnología en la nube.
Se puede hacer, pero hay que ser proactivo y estar dispuesto a gastar algo de dinero. Aquí es donde la mayoría de las empresas se quedan cortas, especialmente las que consideran que la TI es solo un gasto. Sus intentos de ahorrar dinero terminan costando 10.000 veces el dinero ahorrado. Suma el verdadero costo de los errores, así como la acumulación de deuda técnica.La cuestión más importante es entender la importancia de todo esto. Gran parte de lo que estoy enumerando aquí sucede cuando la empresa no hace del liderazgo de TI una prioridad. Puedes quejarte de los errores tácticos, como no asignar suficiente dinero para contratar y mantener el talento. Sin embargo, eso viene de arriba, al igual que la mayoría de los problemas y soluciones. Tenemos que hacerlo mejor.