aci

ESXi 6.0.x con NIC Mellanox 10/40 Gb y controlador nmlx4_en no registra las respuestas ARP de Cisco ACI

agosto 8, 2016 - - 0 Comentarios

Actualmente estoy trabajando en un proyecto de diseño y despliegue de una plataforma de nube privada basada en VMware vRealize y Cisco ACI como solución SDN.

Durante casi dos días no fuimos capaces de hacer ping desde el host ESXi (Mellanox) a su puerta de enlace predeterminada proporcionada por una subred dentro de un “Bridge Domain” (BD) en Cisco ACI. Sin embargo, un equipo físico con Windows (Broadcom) en el mismo EPG que los hosts ESXi, era capaz de hacer ping a la misma puerta de enlace predeterminada. Este comportamiento era extraño, ya que el ping entre miembros del mismo EPG funcionaba bien como entre los servidores ESXi, o también con la maquina física Windows.

.

ACI

El primer pensamiento que viene a tu cabeza es que se está pasando algún ajuste en la configuración de ACI. ¿Por qué?, porque estamos hablando de soluciones SDN, la filosofía y la lógica detrás de esta cambia radicalmente. Ahora debes saber acerca de multi-tenancy, bridge domains, endpoint groups, contracts y así sucesivamente, por lo que es muy fácil pasar por alto algo durante la configuración.

Entorno

  • Servidor ESXi.
    • HP DL360 Gen9
    • Mellanox 10/40 Gb – Familia MT27520 (afectada con el bug ARP)
      • Información del controlador NIC:
        • Controlador: nmlx4_en
        • Versión de firmware: 2.35.5100
        • Versión: 3.1.0.0
  • Cisco ACI v ersión 2.0(1n)
  • VMware ESXi 6.0.x
    • Update 1
    • Update 2
    • ISOs de VMware y HPE OEM probadas

Síntoma

  • ESXi no llega a su puerta de enlace predeterminada (IP del ACI BD)
  • Cualquier tráfico encaminado a través de la puerta de enlace no llega a su destino
  • ACI responde la petición ARP de ESXi pero el último no la registra

Tcpdump-uw en ESXi no mostraba las respuestas de ACI. Cuando lanzamos Wireshark en la máquina física, pudimos ver a ACI responder las solicitudes ARP de ESXi.

capture2

Resolución

Después de instalar la última versión del controlador Mellanox disponible en el sitio web de VMware, el servidor ESXi comenzó a ver las respuestas ARP. Estas respuestas fueron registradas y la comunicación desde ESXi a la puerta de enlace predeterminada y otras redes funcionaron correctamente.

Comandos de solución de problemas

Los siguientes comandos se utilizaron para llevar a cabo la solución del problema desde el lado del servidor ESXi.

# Mostrar información del adaptador de red físico (contadores y controlador)
/usr/lib/vmware/vm-support/bin/nicinfo.sh

# Mostrar tabla ARP
esxcli network ip neighbor list

# Mostrar las interfaces de red VMkernel
esxcli network ip interface list

# Mostrar los switches virtuales
esxcli network vswitch standard list

# Verificar la conexión a un puerto
nc -z IP Port

# Capturar tráfico
tcpdump-uw -vv