Résolution des Problèmes d’Installation des Drivers NVIDIA et du Passthrough de Carte Graphique dans une VM Proxmox

Lorsque vous rencontrez des erreurs telles que :

ERROR: Unable to load the kernel module 'nvidia.ko'. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.

ou :

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

Ces problèmes peuvent être liés à la configuration du passthrough de votre carte graphique dans une VM Proxmox. Ce guide vous aidera à diagnostiquer et résoudre ces problèmes, ainsi qu’à effectuer un nettoyage complet des installations de drivers NVIDIA.

Vérification de la Configuration du Passthrough dans Proxmox

Utilité

Vérifier que la carte graphique est correctement configurée dans Proxmox est essentiel pour garantir qu’elle puisse être utilisée par la VM. Si la configuration est incorrecte, la VM ne pourra pas accéder au GPU.

Outils

  • Proxmox Web GUI : Pour naviguer et configurer votre VM.
  • Commandes Shell : Pour vérifier la configuration du système.

Étapes

  1. Accéder à l’interface Web de Proxmox :
    • Connectez-vous à l’interface de gestion de Proxmox.
    • Sélectionnez la VM concernée et allez dans l’onglet « Hardware ».
  2. Vérifier le périphérique PCI/PCIe :
    • Assurez-vous que la carte graphique est listée, par exemple, hostpci0: 00:10.0. L’identifiant doit correspondre à celui de votre carte graphique.
  3. Vérifier que les modules VFIO sont chargés :
    • Exécutez la commande lsmod | grep vfio
    • Les modules vfio, vfio_pci, et vfio_iommu_type1 doivent apparaître. S’ils ne sont pas présents, consultez les logs dmesg | grep -i vfio et journalctl -xe | grep -i vfio.

Configuration du Passthrough PCIe

Utilité

Le passthrough PCIe permet à une VM d’accéder directement à la carte graphique, ce qui est crucial pour des applications nécessitant des performances graphiques élevées. La configuration incorrecte de l’IOMMU ou du passthrough peut entraîner des échecs de communication entre la VM et le GPU.

Outils

  • BIOS/UEFI : Pour activer les options nécessaires.
  • Fichiers de configuration Proxmox : Pour configurer la VM.

Étapes

  1. Vérifier le BIOS/UEFI :
    • Accédez à votre BIOS ou UEFI au démarrage et activez les options IOMMU (Intel VT-d ou AMD-Vi).
  2. Modifier le fichier de configuration de la VM :
    • Accédez au fichier situé dans /etc/pve/qemu-server/<vmid>.conf et assurez-vous que la ligne du passthrough PCI est correcte hostpci0: 00:10.0,pcie=1.
  3. Configurer GRUB pour IOMMU :
    • Modifiez le fichier /etc/default/grub pour activer l’IOMMU : GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt".
    • Mettez à jour GRUB : sudo update-grub && sudo reboot.
  4. Vérifier les logs IOMMU :
    • Après le redémarrage, assurez-vous que les paramètres IOMMU sont appliqués : dmesg | grep -i iommu.

Vérification des Drivers NVIDIA dans la VM Ubuntu

Utilité

L’installation correcte des drivers NVIDIA est cruciale pour que le système d’exploitation de la VM puisse utiliser le GPU. Si les drivers sont mal installés ou en conflit, la communication avec le GPU échouera.

Outils

  • APT : Pour gérer les packages sur Ubuntu.
  • Commandes Shell : Pour vérifier les installations et les modules.

Étapes

  1. Installer les headers du noyau :
    • Assurez-vous que les headers du noyau correspondant à votre version du noyau sont installés : sudo apt-get install linux-headers-$(uname -r).
  2. Vérifier la version de GCC :
    • Exécutez la commande suivante pour vérifier la version de GCC : gcc --version.
  3. Vérifier les modules conflictuels :
    • Vérifiez si des drivers conflictuels sont chargés : lsmod | grep -e rivafb -e nvidiafb -e nouveau.
    • Si des drivers sont présents, supprimez-les : sudo rmmod nouveau.
  4. Installer le driver NVIDIA :
    • Installez le driver approprié à votre carte graphique : sudo apt-get install nvidia-driver-.
  5. Redémarrer la VM :
    • Redémarrez la VM pour que les modifications prennent effet.

Nettoyage de l’Installation des Drivers NVIDIA

Utilité

Un nettoyage complet est souvent nécessaire en cas d’échecs d’installation ou de mise à jour de drivers. Cela permet de s’assurer qu’aucun ancien driver n’interfère avec la nouvelle installation.

Outils

  • APT : Pour désinstaller les packages.
  • Commandes Shell : Pour effectuer le nettoyage.

Étapes

  1. Désinstaller le driver NVIDIA :
    • Exécutez : sudo apt-get remove --purge '^nvidia-.*' pour désinstaller tous les drivers NVIDIA.
  2. Supprimer les fichiers de configuration :
    • Supprimez les fichiers de configuration restants : sudo rm /etc/X11/xorg.conf et sudo rm /var/lib/dkms/nvidia/*.
  3. Vérifier les dépendances :
    • Exécutez : sudo apt-get autoremove pour nettoyer les dépendances inutilisées.
  4. Redémarrer la VM :
    • Redémarrez la VM pour appliquer les changements.

En suivant ces étapes, vous pourrez diagnostiquer et résoudre efficacement les erreurs liées aux drivers NVIDIA dans une VM Proxmox. Assurez-vous de toujours consulter les logs pour des informations détaillées sur les erreurs spécifiques rencontrées.

Romain D.

Passionné d'informatique perdu dans une trame Ethernet. Ce blog est mon bloc-notes public.

Ajouter un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Romain D.

Passionné d'informatique perdu dans une trame Ethernet. Ce blog est mon bloc-notes public.