Falla en módulo de Red (Resuelto)
  • Prioridad - Crítico
  • Afectando Sistema - Red
  • DETALLE DE FUERA DE SERVICIO - 30 de Julio del 2015 
     
    ACTUALMENTE TODOS LOS SERVICIO FUNCIONANDO AL 100%
     
    6:30 AM- Nuestros equipo de red core Cisco 6509 presenta fallas dejando sin conectividad plataforma 02 de servicio web hosting y reseller. Plataforma 01 de servicio VPS y servidores dedicados NO presenta fallas.
    9:00 AM - Se re-establece el servicio. Y se comienza trabajo en la investigación de falla y preventiva. 
    10:00 AM - Inicialmente se diagnostica una posible falla en el firmware y sistema operativo de Cisco 6509. Se comienza hacer upgrade de firmware y sistema operativo.
    10:30 AM - Durante el proceso de upgrade de firmware y sistema operativo falla nuevamente Cisco 6509 al momento de pasar al módulo Supervisor 720 de Standby(Respaldo) para hacer un upgrade en caliente del Supervisor 720 principal.
    11:00 AM - Se detecta la verdadera falla de hardware en el módulo 6 del Cisco 6509 del Supervisor 720 de standby de respaldo. Modelo parte: WS-SUP720-3BXL. 
    11:48 AM - Se re-establecen todos los servicios. 
     
     
    DETALLE TÉCNICO: 
     
    Resolución:
    El módulo Supervisor 720 es el encargado de administrar el Cisco 6509. Nuestro Cisco 6509 tiene 2 módulo Supervisores 720. Uno en estado activo y uno en estado standby configurado así para prevenir fallas de hardware del módulo activo. Sin embargo, para permitir esta redundancia de fallas, el módulo Supervisor 720 tiene que estar continuamente sincronizando su configuración al módulo Supervisor 720 en standby.  La falla se provoco en el módulo Supervisor 720 en standby provocando que todo el Cisco 6509. 
     
    Historial Técnico:
    A las 6:30 AM Cisco 6509 presentaba error de software del Supervisor 720. Sin embargo, se hicieron pruebas de los módulos de forma separa en otro chassis Cisco 6509 que tenemos en stock como respaldo para verificar que no fuera una falla de hardware. El test de hardware no dieron inconveniente. Por lo tanto se estableció preliminarmente que la caída 6:40 AM fue provocada por software. Se comienza ha realizar un upgrade en caliente del firmware y sistema operativo. Para realizar el upgrade en caliente (Sin downtime), se activa el módulo Supervisor 720 que está en modo Standby, para así realizar el upgrade. Al momento de hacer el switch over a las 11:00 AM al Supervisor 720 que esta en modo standby, nuevamente el Cisco 6509 se cae, detectando así que el problema de falla esta directamente relacionado con el hardware del módulo Supervisor 720 en standby. Inicialmente en las pruebas de hardware no se detecto la falla, debido a que al momento de levantar el servicio de fail-over se presenta la falla, cuyo test no se hizo en la verificación preliminar del hardware. 

  • Fecha - 30/07/2015 06:00 - 30/07/2015 11:48
  • Ultima Actualización - 30/07/2015 12:49