28 Marzo 2018
La potentissima scheda grafica Nvidia Titan V soffrirebbe di un un bug relativo alla memoria che la porterebbe a produrre risultati errati in alcuni tipi di calcolo scientifico.
La Titan V, presentata da Nvidia lo scorso anno, è la prima scheda basata su architettura Volta nonché la più potente mai realizzata fino ad ora dall'azienda. A bordo una GPU (GV100) da 21,1 miliardi di transistor (815 millimetri quadrati), equipaggiata con 5120 Cuda Core e ben 12GB di memoria HBM2. Il tutto a un prezzo mai visto per una scheda prosumer, ben 3000 dollari.
Vista l'elevata potenza di calcolo, non sorprende che la scheda venga utilizzata anche in ambito scientifico, dove, a differenza delle soluzioni Tesla e Quadro, permette costi più contenuti, mantenendo alta l'asticella delle prestazioni.
Bisogna però ricordare che la Titan V non è concepita ufficialmente per questi ambiti, e il report di The Register sembra confermare questa caratteristica.
Ad essere imputato è proprio il sottosistema memoria, che, da un lato sarebbe affetto da un bug, dall'altro non supporta l'ECC (Error Correction Code); un binomio questo che porterebbe a restituire errori in alcuni tipi di calcolo.
Più precisamente, la fonte parla di errori nella simulazione delle interazioni tra proteine e enzimi; solitamente queste operazioni danno sempre gli stessi risultati, mentre eseguendole su alcune schede Nvitia Titan V questo non si verifica, producendo quindi un errore.
Da parte sua Nvidia ha replicato subito a The Register:
Tutte le nostre schede eseguono i calcoli in modo corretto. Le nostra linea Tesla, che supporta ECC, è creata per questo tipo di simulazioni su larga scala. Chiunque abbia problemi può contattare support@nvidia.com
Un episosio piuttosto fastidosio per Nvidia, ma come detto sopra, e come del resto ribadisce l'azienda nella sua replica, per questi ambiti di utilizzo è meglio affidarsi alle soluzioni professionali Tesla e Quadro.
Commenti
90 mhs sono decisamente ottimistici, in giro ho letto più realisticamente vicino ad 80. Comunque chi userebbe una scheda da 3000$ che fa meno o praticamente uguale di tre da 1/3 del prezzo?
Non è frode se lo rendi scrivi esplicitamente.
Sul ai produttori interessa solo vendere e ci guadagnerebbero meno, dipende, potrebbero vendere le schede ad un prezzo più basso ai gamer e ad un prezzo molto più alto a chi vuole fare mining, ci guadagnerebbero sostanzialmente di più e accontenterebbero i gamer (quelli che fanno mining sarebbero meno scontenti, ma chissenefrega)
Non parlo di errori che portano a crash, parlo di banali errori di calcolo. Se in un gioco la gpu sbaglia un calcolo probabilmente non te ne accorgi nemmeno, ci sarà un pixel fuoriposto o del colore sbagliato, se invece la GPU sbaglia nel calcolare un hash tutto è completamente sbagliato e da rifare.
claymore
con che miner?
La titan V va con tutti i software di mining, in eth macina circa 90mh/s
va va che?
Se le schede sbagliassero nel mining, lo farebbero anche in gioco/rendering con crash a caso.
Meglio stare alla larga da schede video usate...
Le 280 e 970 non venivano usate su ETH a causa dei loro consumi/scarsa potenza, al massimo vedrai le 1060 3gb in giro, mentre per la qualità non esiste un indicatore, ma essendo usate per sforzi lunghi posso dirti che spesso vengono tenute con più attenzione di molte schede in config da gaming, che continua ad avere picchi di lavoro e spesso scarsa dissipazione
Infatti mi puzza sta storia...su Nvidia devtalk non ha chiesto spiegazioni ne sui vari stackoverflow, non ce traccia di questo individuo (uno chiederebbe lì per avere un confronto con altri, al di fuori dell'articolo "un amico di mio cugino ha detto che fa i conti sbagliati" non ci sono fonti)....parlando di simulazioni un errore che può capitare, che mi è capitato e credo non esista nessuno che ci è arrivato prima di caderci (e si nota solo dopo essere andati fuori di testa perché non da errori in compilazione o runtime) è usare numeri di un RNG su più thread...se il biologo ha fatto simulazioni presumibilmente con qualche numero pescato random e le ha lanciate su più thread si spiegano i numeri diversi anche settando lo stesso seed...
Lo faranno nel momento in cui produrre schede per il mining conviene...
Altrimenti che tu usi la gpu per giocare o minare cambia poco...loro te la vendono
Bisogna anche considerare un altro aspetto rilevante del mining, e ciò é il fatto che l'aumento dei prezzi delle schede video blocca di fatto tutti gli upgrades, e questo vuol dire vendere meno monitors motherboards ecc
invece ai produttori interessa eccome selezionare la clientela.
in questo caso sbaglia sul calcolo delle proteine, mentre le tesla ben più costose non avranno questo problema
A- non penso si possa, si tratta di frode
B- ai produttori non interessa se la scheda video va ad un miner o un gamer, basta vendere, e se i miner alzano la domanda (ed il prezzo) loro guadagnano molto di più...
le mie dita contano meglio e non fanno errori
OT: Adesso che il mining sembra diventare sempre difficile, visto che è aumentato la difficoltà, il blockchain del ethereum richiede più di 3gb di vram, il crollo dei prezzi; insomma tra pochissimo vedremo in commercio schede tipo radeon R9 280 o nvidia gtx 970 a prezzi umani, la mia domanda è : c'è un modo per vedere se la scheda è stata usata per il mining oppure se si a che livello? Stavo pensando proprio al indicatore del 'ASIC QUALITY', o non c'è modo? Grazie in anticipo
Sicuramente, ma quello che ha detto Nvidia per me rimane senza senso. Ok le ECC, ma allora uno si chiede "cosa le fate a fare le Titan?". Mungere soldi, lo sappiamo, ma se un tempo avevano un vero utilizzo, oggi non è più così, ed una frase del genere mi sembra controproducente.
La risposta doveva essere "contattateci se avete errori e nel frattempo investigheremo e lavoreremo ad una soluzione"
No impossibile... Lo scotch fa da collo di bottiglia
io faccio parte di essi!
decisamente non si può fare una cosa del genere
Però mi è appena venuta un idea, i costruttori di GPU per arginare il fenomeno delle schede usate per il mining potrebbero produrre delle GPU appositamente per sbagliare dei calcoli casualmente, in modo da non renderle abbastanza affidabili per farci calcoli sopra (e quindi mining) ma usabili per fare gaming (dove se ogni tanto la posizione di un pixel è un attimino sbagliata nessuno se ne accorge)
Dimentichi il famoso bug del primo Pentium, ok che si parlava di CPU e non di GPU ma comunque si parla sempre di processore che sbaglia i calcoli.
Il fatto è che potrebbe tutto essere causato da un bug in qualche istruzione che viene utilizzata poco e solo se viene usata in un certo modo, per cui il bug si presenta solo in specifici codici che utilizzano quell'istruzione, difficilissimo da scoprire per quanto si facciano test approfonditi.
han fatto apposta per poter vendere quelle professionali!
UPA
va va...
Boh che ne so..
ma lol date python a sta gente
quello è il prezzo.
... ci sono quasi cascato.
In realtà stai scherzando giusto?
Stai calmo, si sta solo facendo della facile ironia, nessuno ce l'ha con voi/loro
Non so con che linguaggi sei familiare, ma ti dico solo questa chiccha: in questa libreria che menzionavo, scritta in c++, guardando il codice mi sono accorto che spesso venivano creati oggetti tramite la keyword "new" che però all'apparenza non venivano mai utilizzati. Salta fuori che i geni che l'avevano progettata usavano il costruttore di certe classi come fosse un metodo, che causava side-effect ai parametri che gli venivano passati.
Dopo che ho visto questa cosa stavo per chiamare un esorcista :D
pff scaffale sulla mia 8800gt crysis in 4k gira a 80fps e non sbaglia i calcoli
potete dir quel che volete ma se 10 schede danno lo stesso risultato, anche se il codice non è pulito, è comunque utilizzabile. Non dovrebbe l'11a scheda, in questo caso la Titan dare risultati differenti....
2999
gpu che non si usa, mai visto nessuno usarle, non so neanche se i software di mining le supportino correttamente
Nessuno dice che non sapete fare codice ottimizzato, ma di sicuro non è molto comprensibile, ho visto personalmente software di elettronici e di fisici, codice duplicato, poco astratto e aggiunto un po' come capita nelle successiva modifiche.
io sapevo che elaborava i rendering con 2/3 ipx incollati con lo scotch
E io sto dicendo che chi fa quello per lavoro, a parte rari casi, non si "improvvisa programmatore".
Sono sicuro che non avranno tutte le conoscenze di un informatico e non saprebbero sviluppare per roba completamente diversa, tipo per un server di Google, ma da lì a dire che non sappiamo fare software commentato, comprensibile e ottimizzato, nel nostro campo, ce ne passa.
PS. io però ho esperienza coi fisici, e non posso commentare per i biologi di cui parlava ErCipolla. Sono sicuro che ci sia gente capace e gente che fa le cose a caso, m quello succede in tutti i campi
non credo usino titan
il massimo di controlli che codice host possa fare su risultati avuti dal device è se sfonda o no i 16-32-64 bit e se l'errore non sta in questo non c'è alcun motivo per cui il codice host debba crashare
guarda che quello che non ha capito un tubo sei tu, quello di cui parlano sopra è relativo a chi è biologo, chimico fisico ecc e si improvvisa programmatore per scriversi il suo software di simulazione, con ovviamente risultati pessimi
Ma andare oltre la comprensione più superficiale quando si legge un testo no?
È logico che intendessi sviluppare software.
Eh si perché basta saper usare un computer per scrivere software di simulazione
Considerando che in FP64 va 0, direi di no. Al massimo compete con la tesla V100 perché ha 110 tflops a 1/5 del prezzo
Eh sì perché nessuno all'infuori degli informatici sa usare un computer...
Chimica, fisica, biochimica, economia negli ultimi 50 anni non sono state portate avanti da simulazioni e calcoli al computer, no no.
Sbaglia i calcoli? Scaffale.. il mio Snapdragon 200 comprato con 30 mila lire li fa meglio. haha
Ai Miners non gli frega na cippa immagino..
2019?
nel 2xxx