Comparaison des performances Sentieon DNASeq avec NVIDIA Clara Parabricks
Auteurs : Henry A Gabb, Intel Corporation ; Don Freed et Zhipan Li, Sentieon Inc.
Les technologies de séquençage de nouvelle génération (NGS) ont considérablement réduit le coût et le temps nécessaires pour séquencer des génomes et des exomes entiers. Le NGS et une analyse secondaire efficace ont apporté la médecine de précision au milieu clinique et même au point de service. Sentieon a optimisé son logiciel d'analyse du génome pour les processeurs Intel® Xeon® Scalable de 3e génération et le processeur Intel Xeon Scalable de 4e génération (anciennement nommé Sapphire Rapids). Il est conçu pour évoluer sur des systèmes multicœurs afin d'atteindre les meilleures performances de sa catégorie, que l'exigence clinique soit un délai d'exécution rapide (par exemple, dans le service des urgences pour prédire les réactions indésirables aux médicaments à partir du génome d'un seul patient) ou un débit élevé (par exemple, dans un service d'oncologie laboratoire pour analyser plusieurs échantillons de la même tumeur ou de différents patients).
Le logiciel Sentieon est vectorisé pour les processeurs modernes, en particulier les processeurs Intel Xeon, afin d'obtenir des performances élevées sans langages de programmation propriétaires ni matériel spécialisé, ce qui élimine la dépendance vis-à-vis des fournisseurs et réduit les coûts de développement, de déploiement et de maintenance des logiciels. Nous voulions comparer les performances et la précision de Sentieon à des alternatives, comme NVIDIA Clara Parabricks, pour voir si le matériel spécialisé est rentable ou même nécessaire.
Des données de performances récentes sont disponibles à des fins de comparaison : Analyse comparative du pipeline NVIDIA Clara Parabricks Germline sur AWS. Cet article rapporte les données de performances et de coût pour les tests HG001 suivants :
Nous nous concentrerons sur le test HG001 WGS 30x du PrecisionFDA Truth Challenge. Une comparaison des performances de Parabricks vs Genome Analysis Toolkit (GATK) est fournie pour ce test (Figure 1). GATK est la norme par laquelle la précision des appels de variantes est jugée, mais elle est écrite en Java, ce n'est donc pas la norme de référence en matière de performances. L'Université de l'Illinois et la clinique Mayo ont déjà établi que Sentieon surpasse de manière significative GATK sans perte de précision : Sentieon DNASeq Variant Calling Workflow démontre une performance et une précision de calcul élevées. Par conséquent, nous ne nous embêterons pas avec une comparaison GATK. Notre objectif est de comparer le logiciel Sentieon (écrit en C++ et optimisé pour les CPU vectoriels modernes) à Parabricks (écrit en CUDA et optimisé pour les GPU NVIDIA).
Nous avons utilisé la description du benchmark et les données de performances de la figure 1 pour nous rapprocher le plus possible d'une comparaison des performances entre pommes et pommes de Sentieon et Parabricks. Nous avons cartographié les étapes de l'appelant d'haplotype, du post-traitement et de fq2bam de la figure 1 aux étapes typiques du pipeline d'appel de variante (tableau 1). Notre cartographie est basée sur la description suivante issue des benchmarks Parabricks :
"L'étape fq2bam inclut bwa-mem et des parties de tri des coordonnées, le post-traitement inclut des parties de tri des coordonnées, le marquage des doublons suivi par bqsr. haplotypecaller l'étape applybqsr appliquée sur l'entrée bam, qui est ensuite transmise à l'étape d'appel de la variante. »
Les performances concurrentielles côte à côte de Sentieon par rapport à Parabricks sur une variété de plates-formes informatiques sont présentées dans la figure 2 et le tableau 2. Les plates-formes et les détails de tarification sont présentés dans le tableau 3. Les processeurs Intel Xeon Scalable de 3e génération offrent des performances compétitives performances, avec le processeur Intel Xeon Scalable de 4e génération (anciennement nommé Sapphire Rapids) offrant les meilleures performances globales. Cependant, la performance n'est qu'une partie de l'histoire. Le coût par génome et la consommation d'énergie doivent également être pris en compte.
Le coût par génome est nettement inférieur pour le processeur Intel Xeon (1,54 USD) par rapport à l'A100 (4,59 USD) (tableau 3). Si le processeur Intel Xeon Scalable de 4e génération a une tarification AWS EC2 similaire, le coût par génome tombe à moins d'un dollar (2,1635 $/h * 26,8 minutes = 0,97 $). Il convient également de noter que les processeurs Intel Xeon Scalable de 4e génération utilisés dans ces benchmarks sont du matériel de préversion, de sorte que les performances du produit final pourraient être améliorées.
En termes de consommation d'énergie, les deux processeurs Intel Xeon Platinum 8352M de l'instance c6i.metal nécessitent 370 W, tandis que les huit processeurs NVIDIA A100 Tensor Core de l'instance p4d.24xlarge nécessitent 3 200 W. Les meilleures performances de Parabricks nécessitent 8,6 fois la puissance et 3,0 fois le coût, mais n'offrent que 1,5 fois les performances du processeur Intel Xeon 8352M de génération actuelle.
Les mesures de performances ont été effectuées par Sentieon en mars 2022. Le système basé sur le processeur Intel® Xeon® 8368 est un processeur Intel Xeon Platinum 8368 à 2,4 GHz (152 cœurs, compatible HyperThreading), 256 Go de mémoire DDR4–3200, et SSD Intel 660p 1 To et Intel DC P4510 2 To. Le système basé sur le processeur Intel Xeon Scalable de 4e génération est une plate-forme de pré-production Intel avec deux processeurs Intel Xeon Scalable de 4e génération (anciennement nommés Sapphire Rapids, > 40 cœurs, HyperThreading activé), BIOS de pré-production Intel, 256 Go de mémoire DDR (16(1DPC)/16 Go/4800 MT/s) et SSD Intel D3-S4610 de 1 To. Ubuntu Linux 20.04 a été installé sur les deux systèmes. Les performances varient en fonction de l'utilisation, de la configuration et d'autres facteurs, de sorte que les résultats peuvent varier.
Le blog Parabricks cité ci-dessus rapporte une précision d'appel des variantes (scores F1) comparable à GATK. Sentieon, cependant, est un gagnant constant du PrecisionFDA Truth Challenge administré par la Food and Drug Administration des États-Unis (Figure 3). Le benchmark HG001 est issu de ce challenge. Dans le plus récent PrecisionFDA Truth Challenge V2, Sentieon a affronté 19 autres équipes et a remporté quatre des 12 catégories. Parabricks ne faisait pas partie des entrées.
Sentieon n'utilise pas de langages de programmation propriétaires comme CUDA, évitant ainsi la dépendance vis-à-vis d'un fournisseur. Le logiciel est écrit en C++ standard. Il est également optimisé pour tirer parti de la capacité de traitement vectoriel des processeurs modernes. Sentieon utilise des améliorations algorithmiques plutôt que du matériel coûteux et gourmand en énergie pour atteindre les performances. Il prend en charge et optimise toutes les plates-formes de séquençage à lecture courte et longue, et c'est un gagnant constant dans les défis ouverts de la FDA. Cela démontre que Sentieon sur les processeurs Intel Xeon Scalable est la plate-forme leader pour l'analyse secondaire du génome.