Porovnání výkonu Sentieon DNASeq s NVIDIA Clara Parabricks
Autoři: Henry A Gabb, Intel Corporation; Don Freed a Zhipan Li, Sentieon Inc.
Technologie sekvenování nové generace (NGS) výrazně snížily náklady a čas potřebný k sekvenování celých genomů a exomů. NGS a účinná sekundární analýza přinesly přesnou medicínu do klinického prostředí a dokonce i do bodu péče. Sentieon optimalizoval svůj software pro analýzu genomu pro procesory Intel® Xeon® Scalable 3. generace a procesor Intel Xeon Scalable 4. generace (dříve s kódovým označením Sapphire Rapids). Je navržen tak, aby se škáloval na vícejádrových systémech a dosáhl tak nejlepšího výkonu ve své třídě, ať už je klinickým požadavkem rychlý obrat (např. na pohotovosti k předpovídání nežádoucích reakcí na léky z genomu jednoho pacienta) nebo vysoká propustnost (např. v onkologii). laboratoř pro analýzu více vzorků ze stejného nádoru nebo od různých pacientů).
Software Sentieon je vektorizován pro moderní procesory, zejména procesory Intel Xeon, pro dosažení vysokého výkonu bez proprietárních programovacích jazyků nebo specializovaného hardwaru, což eliminuje uzamčení dodavatele a snižuje náklady na vývoj, nasazení a údržbu softwaru. Chtěli jsme porovnat výkon a přesnost Sentieonu s alternativami, jako je NVIDIA Clara Parabricks, abychom zjistili, zda je specializovaný hardware nákladově efektivní nebo dokonce nezbytný.
Nejnovější údaje o výkonu jsou k dispozici pro srovnání: Srovnání NVIDIA Clara Parabricks Germline Pipeline na AWS. Tento článek uvádí údaje o výkonu a nákladech pro následující testy HG001:
Zaměříme se na test HG001 WGS 30x z PrecisionFDA Truth Challenge. Pro tento test je poskytnuto srovnání výkonu Parabricks vs. Genome Analysis Toolkit (GATK) (obrázek 1). GATK je standard, podle kterého se posuzuje přesnost volání variant, ale je napsán v Javě, takže to není zlatý standard výkonu. University of Illinois a Mayo Clinic již prokázaly, že Sentieon výrazně překonává GATK bez ztráty přesnosti: Sentieon DNASeq Variant Calling Workflow demonstruje vysoký výpočetní výkon a přesnost. Nebudeme se proto obtěžovat srovnáním GATK. Naším cílem je porovnat software Sentieon (napsaný v C++ a optimalizovaný pro moderní vektorová CPU) s Parabricks (napsaný v CUDA a optimalizovaný pro GPU NVIDIA).
Použili jsme popis benchmarku a údaje o výkonu z obrázku 1, abychom se co nejvíce přiblížili srovnání výkonu jablek a jablek u Sentieon a Parabricks. Mapovali jsme kroky haplotypecaller, post-processing a fq2bam z obrázku 1 do typických fází kanálu volání variant (tabulka 1). Naše mapování je založeno na následujícím popisu z benchmarků Parabricks:
„Krok fq2bam zahrnuje bwa-mem a části souřadnicového třídění, následné zpracování zahrnuje části souřadnicového třídění, označování duplikátů, které následují od bqsr. haplotypecaller krok applybqsr aplikovaný na vstupní bam, který je poté přiveden do kroku volání varianty.“
Konkurenční výkon Sentieon vs. Parabricks vedle sebe na různých počítačových platformách je znázorněn na obrázku 2 a tabulce 2. Platformy a podrobnosti o cenách jsou uvedeny v tabulce 3. Procesory Intel Xeon Scalable 3. generace poskytují konkurenceschopné výkon, přičemž procesor Intel Xeon Scalable 4. generace (dříve s kódovým označením Sapphire Rapids) poskytuje nejlepší celkový výkon. Výkon je však jen částí příběhu. Je třeba vzít v úvahu také náklady na genom a spotřebu energie.
Cena za genom je u procesoru Intel Xeon podstatně nižší (1,54 USD) ve srovnání s A100 (4,59 USD) (tabulka 3). Pokud má procesor Intel Xeon Scalable 4. generace podobnou cenu AWS EC2, cena za genom klesne na méně než dolar (2,1635 $/h * 26,8 minut = 0,97 $). Za zmínku také stojí, že procesory Intel Xeon Scalable 4. generace použité v těchto benchmarcích jsou předprodejní hardware, takže výkon konečného produktu by se mohl zlepšit.
Pokud jde o spotřebu energie, dva procesory Intel Xeon Platinum 8352M v instanci c6i.metal vyžadují 370 W, zatímco osm procesorů NVIDIA A100 Tensor Core v instanci p4d.24xlarge vyžaduje 3 200 W. Nejlepší výkon Parabricks vyžaduje 8,6x vyšší výkon a 3,0x vyšší náklady, ale poskytuje pouze 1,5x vyšší výkon než aktuální generace procesoru Intel Xeon 8352M.
Měření výkonu provedla společnost Sentieon v březnu 2022. Systém založený na procesoru Intel® Xeon® 8368 je dvoupaticový procesor Intel Xeon Platinum 8368 s frekvencí 2,4 GHz (152 jader, povoleno HyperThreading), 256 GB paměti DDR4–3200, a 1 TB Intel 660p a 2 TB Intel DC P4510 SSD. Systém založený na procesorech 4. generace Intel Xeon Scalable je předprodukční platforma Intel se dvěma procesory Intel Xeon Scalable 4. generace (dříve s kódovým označením Sapphire Rapids, >40 jader, povoleno HyperThreading), předprodukční BIOS Intel, 256 GB paměti DDR (16(1DPC)/16 GB/4800 MT/s) a 1 TB Intel D3-S4610 SSD. Na obou systémech byl nainstalován Ubuntu Linux 20.04. Výkon se liší podle použití, konfigurace a dalších faktorů, takže výsledky se mohou lišit.
Výše uvedený blog Parabricks uvádí přesnost volání variant (skóre F1) srovnatelnou s GATK. Sentieon však trvale vítězí v soutěži PrecisionFDA Truth Challenge, kterou pořádá americký Úřad pro potraviny a léčiva (obrázek 3). Z této výzvy vychází benchmark HG001. V novější PrecisionFDA Truth Challenge V2 se Sentieon utkal s 19 dalšími týmy a vyhrál čtyři z 12 kategorií. Parabricks mezi položkami nebyl.
Sentieon nepoužívá proprietární programovací jazyky jako CUDA, čímž se vyhýbá uzamčení dodavatele. Software je napsán ve standardním C++. Je také optimalizován tak, aby využíval možnosti vektorového zpracování moderních procesorů. Sentieon používá k dosažení výkonu spíše vylepšení algoritmů než drahý a energeticky náročný hardware. Podporuje a optimalizuje všechny platformy pro krátké a dlouhé čtení sekvencí a je konzistentním vítězem v otevřených výzvách FDA. To ukazuje, že Sentieon na procesorech Intel Xeon Scalable je přední platformou pro sekundární analýzu genomu.