FidelityFX Super Resolution: AMD stellt sich der Qualitäts-Kritik

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Pure Spekulation. Du vergisst dass die Shader Variante ein Entwicklungszwischenschritt war. Das da nicht alles sauber läuft verwundert nicht. Unsere Entwicklungszwischenschritte laufen auch teilweise beschissen und Konzepte werden bei entsprechenden Analysen geändert weil man sich da mehr Erfolg verspricht. Oft sind aber mehrere Wege denkbar und eine Frage der Präferenz bzw. :"was ist weniger Aufwand?" und seltener eine technische Notwendigkeit.
Nur weil man sinnvollerweise auf Tensor Cores gewechselt ist, (mehr Perf., einfacheres Handling) heißt es nicht das es zwingend notwendig war.

DLSS 1.0 / 1.9 war kein Zwischenschritt in der Entwicklung. Es war/ist ein Live-Produkt und wurde eingesetzt, wenn auch in wenigen Titeln.

Bl4ckR4v3n schrieb:
Wirklich viel parallel läuft da ja nicht und was soll da jetzt nicht mit den Shadern funktionieren?

Bitte wie? Man sieht dass DLSS parallel zur Shader / SM Verarbeitung läuft (gelb = Shader, grün = RT Core, lila = Tensor Core). Außerdem sieht man eine Einsparung von 6ms, was in diesem Fall ~30% (!!!) sind. 6ms Frametime Einsparung ist massiv.

Bl4ckR4v3n · 18. Oktober 2021

raPid-81 schrieb:
DLSS 1.0 / 1.9 war kein Zwischenschritt in der Entwicklung. Es war/ist ein Live-Produkt und wurde eingesetzt, wenn auch in wenigen Titeln.

Schonmal Software entwickelt oder Spiele die letzten Jahre gespielt? Da kommt es öfters vor das manche Features nicht im idealen Zustand released werden bzw. schnelle Lösungen implementiert werden. Wenn jeder Release bei uns alle Features einwandfrei beherrschen würde... Utopia ich komme...
Diese DLSS Implementation war immerhin besser als das was man vorher hatte. Und wenn ich es noch richtig im Kopf habe hatte man das auch kommuniziert dass es sich nur um einen Zwischenschritt zur finalen "2.0" Version handelt. Anhang anzeigen 1377452

raPid-81 schrieb:
Bitte wie? Man sieht dass DLSS parallel zur Shader / SM Verarbeitung läuft (gelb = Shader, grün = RT Core, lila = Tensor Core). Außerdem sieht man eine Einsparung von 6ms, was in diesem Fall ~30% (!!!) sind. 6ms Frametime Einsparung ist massiv.

Ja die sieht man bestreite ich auch nicht. Sehe aber nicht wo es deine Aussage stärkt dass eine Shaderlösung 6ms ggü. Tensor Cores verlieren sollte. Das Schaubild suggeriert sogar gegenteiliges.

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Schonmal Software entwickelt oder Spiele die letzten Jahre gespielt? Da kommt es öfters vor das manche Features nicht im idealen Zustand released werden bzw. schnelle Lösungen implementiert werden. Wenn jeder Release bei uns alle Features einwandfrei beherrschen würde... Utopia ich komme...
Diese DLSS Implementation war immerhin besser als das was man vorher hatte. Und wenn ich es noch richtig im Kopf habe hatte man das auch kommuniziert dass es sich nur um einen Zwischenschritt zur finalen "2.0" Version handelt.

Zufällig bin ich Software Entwickler in einem anderen Umfeld (Ticketsysteme). Dein Beispiel ändert nichts daran dass die erste DLSS Iteration auf Shadern eben nicht die Qualität erreichen konnte die es anscheinend auf dedizierten Einheiten erreicht. Da musste man vermutlich jonglieren mit Performance Gain / Quality.

Bl4ckR4v3n schrieb:
Ja die sieht man bestreite ich auch nicht. Sehe aber nicht wo es deine Aussage stärkt dass eine Shaderlösung 6ms ggü. Tensor Cores verlieren sollte. Das Schaubild suggeriert sogar gegenteiliges.

Wo suggeriert es etwas anderes? Man sieht Shader + RT Core = 19ms Frametime und Shader + RT Core + Tensor Core 13ms Frametime, und alle arbeiten parallel und nicht seriell.

Bl4ckR4v3n · 18. Oktober 2021

raPid-81 schrieb:
Zufällig bin ich Software Entwickler in einem anderen Umfeld (Ticketsysteme). Dein Beispiel ändert nichts daran dass die erste DLSS Iteration auf Shadern eben nicht die Qualität erreichen konnte die es anscheinend auf dedizierten Einheiten erreicht. Da musste man vermutlich jonglieren mit Performance Gain / Quality.

Dann solltest du doch um so mehr wissen das es öfter passiert das Features rausgepusht werden obwohl diese nicht reif sind und dann meistens schnelle Lösungen benötigt werden.
DLSS 1.0 war auch eine Katastrophe und lief auf den Tensor Cores. Da war die Shaderversion schon deutlich besser. Und nun war zum Zeitpunkt von DLSS "1.9" (Oder wie auch immer man das nennen mag) DLSS mit Tensor Cores eine sinnfrei?
Die Shaderlösung war wenn ich es noch richtig im Kopf habe eine Speziallösung um die miese Qualität von 1.0 zu vermeiden aber benötigte genau deshalb besonders hohen Aufwand für jedes Spiel. Das war halt ein schneller Fix keine dauerhafte Lösung. Wenn etwas nicht als dauerhafte Lösung konzipiert ist dann wird auch nicht der Aufwand reingesteckt der notwendig wäre.

raPid-81 schrieb:
Wo suggeriert es etwas anderes? Man sieht Shader + RT Core = 19ms Frametime und Shader + RT Core + Tensor Core 13ms Frametime, und alle arbeiten parallel und nicht seriell.

Achso eine GPU kann garnicht parallel arbeiten dafür ist die ja garnicht gemacht, stimmt. :klatsch:

Und Tensor Cores arbeiten bestimmt auch Umsonst. Aber garantiert werden Shader 50% länger brauchen weil... Gründe...

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Achso eine GPU kann garnicht parallel arbeiten dafür ist die ja garnicht gemacht, stimmt. Und Tensor Cores arbeiten bestimmt auch Umsonst. Aber garantiert werden Shader 50% länger brauchen weil... Gründe...

Ok, noch mal von vorne: Es gibt eine endliche Anzahl X Shader auf der GPU. Auf GPUs ohne dedizierte Einheiten muss, um den Upscaling Algorithmus während des Frame-Renderings auszuführen, eine Anzahl Y der Shader daran arbeiten und steht somit nicht für andere Aufgaben bereit. Da jeder Frame parallel auf den Shadern gerendered wird, wird die gesamte Shader Anzahl X um Y verringert.

Die benötigten Berechnungen für den Upscaling Algorithmus laufen auf Tensor Cores (Anzahl Z) beschleunigt ab, und dazu noch parallel zu den Shadern. Somit hat man die Anzahl X der Shader plötzlich komplett für das Frame-Rendering, und ZUSÄTZLICH die Anzahl Z für das Upscaling.

Wenn das Upscaling am Ende des Frame-Renderings stattfindet, dann verliert man in jedem Fall Frametime.

Wie viel länger ein Shader für die Berechnung braucht ist hier gar nicht relevant, für maximale Performance im Upscaling sind die dedizierten Cores einfach besser geeignet. Davon abgesehen habe ich nirgends irgendwelche % Angaben gemacht.

Was meinst Du denn mit "Und Tensor Cores arbeiten bestimmt auch Umsonst."? Wie man sieht sparen Tensor Cores Frametime da die Shader eine kleinere Auflösung stemmen müssen, und sie arbeiten parallel zu den Shadern.

Bl4ckR4v3n · 18. Oktober 2021

raPid-81 schrieb:
Ok, noch mal von vorne: Es gibt eine endliche Anzahl X Shader auf der GPU. Auf GPUs ohne dedizierte Einheiten muss, um den Upscaling Algorithmus während des Frame-Renderings auszuführen, eine Anzahl Y der Shader daran arbeiten und steht somit nicht für andere Aufgaben bereit. Da jeder Frame parallel auf den Shadern gerendered wird, wird die gesamte Shader Anzahl X um Y verringert.

Die benötigten Berechnungen für den Upscaling Algorithmus laufen auf Tensor Cores (Anzahl Z) beschleunigt ab, und dazu noch parallel zu den Shadern. Somit hat man die Anzahl X der Shader plötzlich komplett für das Frame-Rendering, und ZUSÄTZLICH die Anzahl Z für das Upscaling.

Quelle?

raPid-81 schrieb:
Wenn das Upscaling am Ende des Frame-Renderings stattfindet, dann verliert man in jedem Fall Frametime.

Wie viel länger ein Shader für die Berechnung braucht ist hier gar nicht relevant, für maximale Performance im Upscaling sind die dedizierten Cores einfach besser geeignet. Davon abgesehen habe ich nirgends irgendwelche % Angaben gemacht.

Nein aber ein klares:

raPid-81 schrieb:
Sicher läuft der auch über Shader z.B., nur hat man dann weniger FPS als vorher, und das ist ja nicht Sinn der Sache.

Wenn ich weniger FPS haben soll wie vorher muss ich zwingend 50% mit einer Shaderlösung verlieren!
Das du mit dedizierten Einheiten mehr Performance rausholen kannst wurde auch nie bezweifelt...

raPid-81 schrieb:
Was meinst Du denn mit "Und Tensor Cores arbeiten bestimmt auch Umsonst."? Wie man sieht sparen Tensor Cores Frametime da die Shader eine kleinere Auflösung stemmen müssen, und sie arbeiten parallel zu den Shadern.

Achso und ohne Tensor Cores darf man keine niedrigeren Auflösungen nutzen?

openSUSE · 18. Oktober 2021

raPid-81 schrieb:
Anhang anzeigen 1377452

1 Oben:
Renderauflösung = native Auflösung, RT mit GPGPU (Würde da mal gerne den Code sehen, wird sicher nicht zu ende optimiert sein.
2 Mitte:
Renderauflösung = native Auflösung, RT mit "RT Cores"
3 Unten:
Renderauflösung deutlich kleiner als native Auflösung (DLSS!), RT mit "RT Cores", "Upscale" mit DLSS

= Die 6ms kommen zum größten Teil durch die deutlich geringere Renderauflösung, die Tensor Cores tragen dazu nur einen sehr sehr kleinen Teil bei.

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Quelle?

Ernsthaft? Glaubst Du die Berechnung des Upscalings auf den Shadern ist umsonst? Wo findet die ansonsten statt? Quelle?

Man sieht ja anhand des Screenshots genau wo beim Frame-Rendering welcher Teil abläuft. Das ist meine Quelle, die technischen Dokumente dazu suche ich jetzt nicht raus.

Bl4ckR4v3n schrieb:
Nein aber ein klares:

Wenn ich weniger FPS haben soll wie vorher muss ich zwingend 50% mit einer Shaderlösung verlieren!
Das du mit dedizierten Einheiten mehr Performance rausholen kannst wurde auch nie bezweifelt...

Wieso 50%? Und wenn eine dedizierte Lösung eine bessere Bildqualität liefert (sieht man anhand DLSS vs FSR), bei ähnlichem Performance Gain (sieht man auch anhand DLSS vs FSR), dann ist die doch vorzuziehen, oder nicht?

Bl4ckR4v3n schrieb:
Achso und ohne Tensor Cores darf man keine niedrigeren Auflösungen nutzen?

Doch, aber dann hat man ja als Ausgabe die kleinere Auflösung? Ich verstehe Dein Argument hier nicht. Es geht doch darum: wie bekomme ich als Ausgabe eine höhere Auflösung als die interne Renderauflösung in bestmöglicher Qualität hin.

openSUSE schrieb:
1 Oben:
Renderauflösung = native Auflösung, RT mit GPGPU (Würde da mal gerne den Code sehen, wird sicher nicht zu ende optimiert sein.
2 Mitte:
Renderauflösung = native Auflösung, RT mit "RT Cores"
3 Unten:
Renderauflösung deutlich kleiner als native Auflösung (DLSS!), RT mit "RT Cores", "Upscale" mit DLSS

= Die 6ms kommen zum größten Teil durch die deutlich geringere Renderauflösung, die Tensor Cores tragen dazu nur einen sehr sehr kleinen Teil bei.

Ja natürlich, ich sage ja nichts anderes. Man verringert die interne Renderauflösung, somit haben die Shader weniger zu tun und rendern das Bild schneller. Dann lässt man parallel die Tensor Cores upscalen um als Zielauflösung höher zu kommen, bei guter Qualität. Wenn man die Shader das Upscaling seriell ausführen lassen würde, also am Ende des Renderings, dann muss man diese Zeit auf die gesamte Frametime addieren. Wenn die Shader das Upscaling parallel durchführen, dann muss man diese Shader vom normalen Rendering abziehen da sie ja eine andere Aufgabe haben.

Bl4ckR4v3n · 18. Oktober 2021

raPid-81 schrieb:
Wieso 50%? Und wenn eine dedizierte Lösung eine bessere Bildqualität liefert (sieht man anhand DLSS vs FSR), bei ähnlichem Performance Gain (sieht man auch anhand DLSS vs FSR), dann ist die doch vorzuziehen, oder nicht?

Ich sprach zu keinem Zeitpunkt über FSR. Woher kommt das denn jetzt?

raPid-81 schrieb:
Doch, aber dann hat man ja als Ausgabe die kleinere Auflösung? Ich verstehe Dein Argument hier nicht. Es geht doch darum: wie bekomme ich als Ausgabe eine höhere Auflösung als die interne Renderauflösung in bestmöglicher Qualität hin.

Und wo läuft dann dein KI Upscaling bei den Shadern? Garnicht? Wenn ich so komische Vergleiche wie du nehme dann kann DLSS mit Tensor Cores ja nur gewinnen. Lass den Algorithmus auf den Shadern laufen das will ich und du scheinst das bis jetzt nicht kapiert zu haben.

raPid-81 schrieb:
Ja natürlich, ich sage ja nichts anderes. Man verringert die interne Renderauflösung, somit haben die Shader weniger zu tun und rendern das Bild schneller. Dann lässt man parallel die Tensor Cores upscalen um als Zielauflösung höher zu kommen, bei guter Qualität. Wenn man die Shader das Upscaling seriell ausführen lassen würde, als am Ende des Renderings, dann muss man diese Zeit auf die gesamte Frametime addieren.

Und ich werde dann trotzdem schneller sein wie vorher im nativen oder wo verliere ich bitte die 50% ggü. den Tensor Cores wie du hier propagierst?

raPid-81 schrieb:
Wenn die Shader das Upscaling parallel durchführen, dann muss man diese Shader vom normalen Rendering abziehen da sie ja eine andere Aufgabe haben.

Weiterhin Quelle?

RavionHD · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Pure Spekulation. Du vergisst dass die Shader Variante ein Entwicklungszwischenschritt war. Das da nicht alles sauber läuft verwundert nicht. Unsere Entwicklungszwischenschritte laufen auch teilweise beschissen und Konzepte werden bei entsprechenden Analysen geändert weil man sich da mehr Erfolg verspricht. Oft sind aber mehrere Wege denkbar und eine Frage der Präferenz bzw. :"was ist weniger Aufwand?" und seltener eine technische Notwendigkeit.
Nur weil man sinnvollerweise auf Tensor Cores gewechselt ist, (mehr Perf., einfacheres Handling) heißt es nicht das es zwingend notwendig war.

Wäre ja sonst ziemlich blöd soviel Chipfläche für Tensor Cores zu opfern, das macht die GPU's für Nvidia ja teurer.

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Ich sprach zu keinem Zeitpunkt über FSR. Woher kommt das denn jetzt?

Es geht hier im Thread doch um Spatial Upscaling vs ML Upscaling. Und da haben wir eben diese 2 Beispiele.

Bl4ckR4v3n schrieb:
Und wo läuft dann dein KI Upscaling bei den Shadern? Garnicht? Wenn ich so komische Vergleiche wie du nehme dann kann DLSS mit Tensor Cores ja nur gewinnen. Lass den Algorithmus auf den Shadern laufen das will ich und du scheinst das bis jetzt nicht kapiert zu haben.

Dass der DLSS Algorithmus auch auf Shadern läuft bestreite ich nirgends. Nur eben deutlich langsamer als auf dedizierten Cores. Ob man da dann noch einen ähnlichen Performance Gain bei gleicher Qualität herausbekommt, DAS bezweifle ich und das hattest Du ja behauptet. Ohne Quelle übrigens...

Bl4ckR4v3n schrieb:
Und ich werde dann trotzdem schneller sein wie vorher im nativen oder wo verliere ich bitte die 50% ggü. den Tensor Cores wie du hier propagierst?

Wo propagiere ich 50% Verlust? Zitat bitte.

Bl4ckR4v3n schrieb:
Weiterhin Quelle?

Gesunder Menschenverstand reicht da aus. Wo soll der Upscaling Algorithmus denn parallel laufen wenn nicht auf den Shadern?

Bl4ckR4v3n · 18. Oktober 2021

RavionHD schrieb:
Wäre ja sonst ziemlich blöd soviel Chipfläche für Tensor Cores zu opfern, das macht die GPU's für Nvidia ja teurer.

Das machen die weil die Chips auch für die Quadros benötigt werden. So hat man eine doppelte Nutzung geschaffen. Aber Tensor Cores werden dafür nicht zwingend benötigt.

raPid-81 schrieb:
Es geht hier im Thread doch um Spatial Upscaling vs ML Upscaling. Und da haben wir eben diese 2 Beispiele.

Und du hast auf meine Aussage reagiert die sich zu 100% um den DLSS Algorithmus bezogen hat :klatsch:

Ich habe zu keinem Zeitpunkt von FSR gesprochen. Woher kommt also das FSR in unserer Diskussion plötzlich?

raPid-81 schrieb:
Dass der DLSS Algorithmus auch auf Shadern läuft bestreite ich nirgends.

Nein aber das diese Langsamer laufen als vorher, siehe deinen ersten Post der sich auf mich bezog.

raPid-81 schrieb:
Nur eben deutlich langsamer als auf dedizierten Cores. Ob man da dann noch einen ähnlichen Performance Gain bei gleicher Qualität herausbekommt, DAS bezweifle ich und das hattest Du ja behauptet. Ohne Quelle übrigens...

Zitier die Stelle wo ich das Sage das Tensor Cores keinen Performance Vorteil haben?
Ich habe aber klar gegen gehalten als du behauptest die Lösung würde schlechter laufen wie vorher wo du bis dato nicht einen Beleg präsentieren konntest.

raPid-81 schrieb:
Wo propagiere ich 50% Verlust? Zitat bitte.

Hast du siehe Zitate gerade eben. Ansonsten dein erster Post in dem du mich zitierst. Da redest du explizit von weniger Performance wie vorher, was min. 50% Performanceverlust erforderlich macht. Und nein die % Angabe kam nicht von dir lässt sich aber leicht herleiten.

raPid-81 schrieb:
Gesunder Menschenverstand reicht da aus. Wo soll der Upscaling Algorithmus denn parallel laufen wenn nicht auf den Shadern?

Also nichts als leere Worte, nichts neues von dir.
Es geht mir darum ob die Shader zwingend über den ganzen Zeitpunkt brachliegen müssen. Der Frame selbst sollte zu dem Zeitpunkt bereits soweit berechnet sein, dass das Upscaling stattfindet. Der Rest am Ende läuft dann parallel zueinander. Aber du hast ja selbst keinen Plan also wieso frage ich dann überhaupt nach einer Quelle

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Und du hast auf meine Aussage reagiert die sich zu 100% um den DLSS Algorithmus bezogen hat
Ich habe zu keinem Zeitpunkt von FSR gesprochen. Woher kommt also das FSR in unserer Diskussion plötzlich?

Ich habe FSR als Vergleich genommen da der Algorithmus auf den RDNA2 Karten exklusiv auf den Shadern läuft.

Bl4ckR4v3n schrieb:
Nein aber das diese Langsamer laufen als vorher, siehe deinen ersten Post der sich auf mich bezog.

Diskutieren wir jetzt ernsthaft darüber ob ein Algorithmus auf DEDIZIERTEN Einheiten schneller läuft als auf "one-size-fits-all" Shadern? Da bin ich raus.

Bl4ckR4v3n schrieb:
Zitier die Stelle wo ich das Sage das Tensor Cores keinen Performance Vorteil haben?
Ich habe aber klar gegen gehalten als du behauptest die Lösung würde schlechter laufen wie vorher wo du bis dato nicht einen Beleg präsentieren konntest.

Wie oft noch?

Bl4ckR4v3n schrieb:
Man benötigt aber keine Tensorcores um ein DLSS Algorithmus auszuführen. Er wird effizienter laufen aber Performance dürfte auch ohne Tensor Cores deutlich ankommen.

Du behauptest, wohlgemerkt als erster in der Diskussion, dass DLSS auf Shadern möglich wäre bei ähnlichem Performance Gain und gleicher Qualität. Dazu bist Du weiterhin einen Beweis / eine Quelle schuldig, wenn das erbracht wurde dann suche ich nach Quellen. Vorher habe ich das nicht nötig, siehe Beweislastumkehr...

Bl4ckR4v3n schrieb:
Hast du siehe Zitate gerade eben. Ansonsten dein erster Post in dem du mich zitierst. Da redest du explizit von weniger Performance wie vorher, was min. 50% Performanceverlust erforderlich macht. Und nein die % Angabe kam nicht von dir lässt sich aber leicht herleiten.

Na dann bitte mal vorrechnen. Wie du von "weniger Performance per Shader als per Tensor Core" auf "min. 50% Verlust" kommst ist mir schleierhaft.

Bl4ckR4v3n schrieb:
Also nichts als leere Worte, nichts neues von dir.
Es geht mir darum ob die Shader zwingend über den ganzen Zeitpunkt brachliegen müssen. Der Frame selbst sollte zu dem Zeitpunkt bereits soweit berechnet sein, dass das Upscaling stattfindet. Der Rest am Ende läuft dann parallel zueinander. Aber du hast ja selbst keinen Plan also wieso frage ich dann überhaupt nach einer Quelle

Du bist weiterhin eine Quelle schuldig die bestätigt dass der DLSS Algorithmus auf Shadern ähnlich performant läuft wie auf den Tensor Cores. Du hast genau so wenig Plan von der Renderpipeline, behauptest einfach irgendwas, und verlangst dann Gegenbeweise...

Die Shader liegen natürlich nicht brach, aber es werden Shader benötigt für die Berechnung. Und die stehen dann eben nicht für etwas anderes zur Verfügung.

Bl4ckR4v3n · 18. Oktober 2021

raPid-81 schrieb:
Ich habe FSR als Vergleich genommen da der Algorithmus auf den RDNA2 Karten exklusiv auf den Shadern läuft.

Alles klar also willst du ablenken ok.

raPid-81 schrieb:
Diskutieren wir jetzt ernsthaft darüber ob ein Algorithmus auf DEDIZIERTEN Einheiten schneller läuft als auf "one-size-fits-all" Shadern? Da bin ich raus.

????

raPid-81 schrieb:
Wie oft noch?

Das frage ich mich auch.

raPid-81 schrieb:
Du behauptest, wohlgemerkt als erster in der Diskussion, dass DLSS auf Shadern möglich wäre bei ähnlichem Performance Gain und gleicher Qualität. Dazu bist Du weiterhin einen Beweis / eine Quelle schuldig, wenn das erbracht wurde dann suche ich nach Quellen. Vorher habe ich das nicht nötig, siehe Beweislastumkehr...

Wo habe ich das gesagt. Ich sehe nicht einen Satz von mir in dem das steht. Kein einziges mal: DLSS auf Shadern läuft genauso schnell wie auf Tensor Cores. Nur ein: Du dürftest dort auch ordentlich Performance erhalten. Wenn du da was reinterpretierst was ich nie geschrieben habe dann :ka:

Das einzige was ich als Argument mit genutzt habe ist, dass die Performance von Tensor Cores eben nicht so absurd viel höher liegt wie die bei Shadern aber ich habe nie behauptet dass du keinen Nachteil hast.

raPid-81 schrieb:
Na dann bitte mal vorrechnen. Wie du von "weniger Performance per Shader als per Tensor Core" auf "min. 50% Verlust" kommst ist mir schleierhaft.

Deine Aussage: Weniger Performance wie vorher (siehe Beitrag 41). Vorher native Berechnung 100%
DLSS Rechenzeit liegt bei ca. 70% (in deinem Bild glaube ich sogar mehr) nun muss ich aber langsamer sein wie vorher >100 => 100/70 => min. +42% höhere Rechenzeit ggü. Tensor Cores, entschuldigung hatte mich vertippt sollte mehr wie 40% heißen. Aber so schwierig ist es doch nicht oder?

raPid-81 schrieb:
Du bist weiterhin eine Quelle schuldig die bestätigt dass der DLSS Algorithmus auf Shadern ähnlich performant läuft wie auf den Tensor Cores. Du hast genau so wenig Plan von der Renderpipeline, behauptest einfach irgendwas, und verlangst dann Gegenbeweise...

Habe ich aber nie behauptet also brauche ich auch keine Quelle.

raPid-81 schrieb:
Die Shader liegen natürlich nicht brach, aber es werden Shader benötigt für die Berechnung. Und die stehen dann eben nicht für etwas anderes zur Verfügung.

Ja und wie viel Performance soll ich dadurch verlieren? Ich sehe immernoch nicht wo ich eine so extrem einbrechende Leistung haben soll dass DLSS auf Shadern nicht sinnvoll lauffähig ist.

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Also nichts als leere Worte, nichts neues von dir.
Es geht mir darum ob die Shader zwingend über den ganzen Zeitpunkt brachliegen müssen. Der Frame selbst sollte zu dem Zeitpunkt bereits soweit berechnet sein, dass das Upscaling stattfindet. Der Rest am Ende läuft dann parallel zueinander. Aber du hast ja selbst keinen Plan also wieso frage ich dann überhaupt nach einer Quelle

Hab was rausgesucht:

https://www.tomshardware.com/reference/what-is-nvidia-dlss

When DLSS was first released, Nvidia claimed it showed more temporal stability and image clarity than TAA. While that might be technically true, it varies depending on the game, and we much prefer DLSS 2.0 over DLSS 1.0. An Nvidia rep confirmed to us that because DLSS requires a fixed amount of GPU time per frame to run the deep learning neural network, games running at high framerates or low resolutions may not have seen a performance boost with DLSS 1.0.

DLSS 1.0 (lief auf Shadern) benötigte "a fixed amount of GPU time per frame to run the deep learning neural network", daraus folgte "games running at high framerates or low resolutions may not have seen a performance boost with DLSS 1.0.".

Das bestätigt meine Vermutung. Der Algorithmus hat keinen Performance Boost gegeben wenn die Shader ausgelastet waren, und das sollte ja der Fall sein bei geringerer interner Auflösung. Also musste die Bildausgabe "warten" bis der Algorithmus per Shader berechnet war, auf den Tensor Cores wäre das parallel bearbeitet worden.

In March 2020, Nvidia announced DLSS 2.0, an updated version of DLSS that uses a new deep learning neural network that's supposed to be up to 2 times faster than DLSS 1.0 because it leverages RTX cards' AI processors, called Tensor Cores, more efficiently.

DLSS 2.0 gets its speed boost through its updated AI network that uses Tensor Cores more efficiently, allowing for better framerates and the elimination of limitations on GPUs, settings and resolutions.

Hier wird auch noch mal darauf hingewiesen dass DLSS 2.0 einen anderen Algorithmus benutzt als DLSS 1.0, und somit vermutlich komplexer ist. Hier erfolgte ja auch die Umstellung des "per-game Training" zum generellen Training.

restX3 · 18. Oktober 2021

BxBender schrieb:
Natürlich ist DLSS im Schnitt sicherlich besser, aber es läuft nur auf spezieller Hardware und speziell angepasster Software.

Nvidia hat über 80% Marktanteile. Ich denke da sind ein paar RTX Besitzer dabei.

czk666 schrieb:
In Cyberpunk wird AMD aktiv sabotiert. Anders kannst du das nicht mehr nennen. Mittlerweile geht auch cas nicht mal mehr in Kombination mit raytracing.

Cyberpunk 2077 ist fundamental kaputt. Das sollte nirgends für Referenz stehen.

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Wo habe ich das gesagt. Ich sehe nicht einen Satz von mir in dem das steht. Kein einziges mal: DLSS auf Shadern läuft genauso schnell wie auf Tensor Cores. Nur ein: Du dürftest dort auch ordentlich Performance erhalten. Wenn du da was reinterpretierst was ich nie geschrieben habe dann
Das einzige was ich als Argument mit genutzt habe ist, dass die Performance von Tensor Cores eben nicht so absurd viel höher liegt wie die bei Shadern aber ich habe nie behauptet dass du keinen Nachteil hast.

Du sagtest "ähnlich schnell". Und hast dazu keinen einzigen Beleg, reine Vermutung Deinerseits...

Bl4ckR4v3n schrieb:
Deine Aussage: Weniger Performance wie vorher (siehe Beitrag 41). Vorher native Berechnung 100%
DLSS Rechenzeit liegt bei ca. 70% (in deinem Bild glaube ich sogar mehr) nun muss ich aber langsamer sein wie vorher >100 => 100/70 => min. +42% höhere Rechenzeit ggü. Tensor Cores, entschuldigung hatte mich vertippt sollte mehr wie 40% heißen. Aber so schwierig ist es doch nicht oder?

Keine Ahnung was Du da redest, ehrlich. Die geposteten Screenshots in #41 zeigen nur die Tensor Core Leistung im Vergleich. Dadurch wird ja nicht die gesamte Performance beeinflußt, sondern nur wie viel schneller der Upscaling Algorithmus bearbeitet werden kann. Wie man im anderen Screenshot sieht ist die "Tensor Frametime" ziemlich klein, diese wäre per Shader auf jeden Fall größer und würde eben diese Shader auslasten.

Bl4ckR4v3n schrieb:
Habe ich aber nie behauptet also brauche ich auch keine Quelle.

Ach das hast Du nicht behauptet? Bitte was? Du sagst die ganze Zeit dass DLSS auf Shadern ähnliche Performance Gains ermöglichen würde, oder nicht? Worüber diskutieren wir hier dann bitte?

Bl4ckR4v3n schrieb:
Ja und wie viel Performance soll ich dadurch verlieren? Ich sehe immernoch nicht wo ich eine so extrem einbrechende Leistung haben soll dass DLSS auf Shadern nicht sinnvoll lauffähig ist.

Das weiss ich nicht, auf jeden Fall wird der Performance Gain entweder kleiner oder gar negativ ausfallen. Somit ist der Sinn von dedizierten Einheiten gegeben.

yojinboFFX · 18. Oktober 2021

Während Nvidias Strassenlaternen zwar nur für Nvidiastaßenlaternenfernbedienugsbesitzer ganz doll hell leuchten und der Rest im Dunkeln flaniert, haste bei AMD halt nicht ganz so viel Licht- aber du hast Licht!
Mein Autovergleich zw. Dlss und FSR!
Gruß Yojinbo

Bl4ckR4v3n · 18. Oktober 2021

raPid-81 schrieb:
Hab was rausgesucht:

https://www.tomshardware.com/reference/what-is-nvidia-dlss

DLSS 1.0 (lief auf Shadern) benötigte "a fixed amount of GPU time per frame to run the deep learning neural network", daraus folgte "games running at high framerates or low resolutions may not have seen a performance boost with DLSS 1.0.".

Seit wann lief DLSS 1.0 auf Shadern? Steht so auch nicht im Artikel?

raPid-81 schrieb:
Das bestätigt meine Vermutung. Der Algorithmus hat keinen Performance Boost gegeben wenn die Shader ausgelastet waren, und das sollte ja der Fall sein bei geringerer interner Auflösung. Also musste die Bildausgabe "warten" bis der Algorithmus per Shader berechnet war, auf den Tensor Cores wäre das parallel bearbeitet worden.

Du kannst das selbe Phänomen auch mit Tensor Cores haben. Das Modell entscheidet über die Geschwindigkeit und vor allem große Modelle haben keine Performance. Kann schlicht ein zu komplexes Modell sein.

raPid-81 schrieb:
Hier wird auch noch mal darauf hingewiesen dass DLSS 2.0 einen anderen Algorithmus benutzt als DLSS 1.0, und somit vermutlich komplexer ist. Hier erfolgte ja auch die Umstellung des "per-game Training" zum generellen Training.

Das ist nicht zwingend gegeben. Man nutzt nun vorhandene Bildinformationen die es sowieso gibt und nutzt somit deutlich mehr Daten wie zuvor. Daher gehe ich von aus dass die Komplexität massiv runtergegangen ist.

raPid-81 schrieb:
Du sagtest "ähnlich schnell". Und hast dazu keinen einzigen Beleg, reine Vermutung Deinerseits...

Bitte zitiere das mal. Ich finde so eine Aussage von mir nicht.
Hast du überhaupt meine Sätze gelesen wie:

Du wirst sicher nicht die Effizienz haben wie mit den Tensor Cores dafür wird das Modell entsprechend darauf zugeschnitten sein aber am Ende ist es schlicht überzogen zu glauben, dass die Tensor Cores ein Heilsbringer sind.

Das einzige was ich finde ist das ich überzeugt bin das man auch mit Shadern ordentlich Performance rausholen wird und zu der Aussage stehe ich auch. Beim ähnlicher Perf Gain. weiß ich ehrlich nicht wo du das her hast.

raPid-81 schrieb:
Keine Ahnung was Du da redest, ehrlich. Die geposteten Screenshots in #41 zeigen nur die Tensor Core Leistung im Vergleich. Dadurch wird ja nicht die gesamte Performance beeinflußt, sondern nur wie viel schneller der Upscaling Algorithmus bearbeitet werden kann. Wie man im anderen Screenshot sieht ist die "Tensor Frametime" ziemlich klein, diese wäre per Shader auf jeden Fall größer und würde eben diese Shader auslasten.

Ich weiß Bilder sind ablenkend aber du hast das ganze mit einem Satz eingeleitet. Hier eine hilfe:

raPid-81 schrieb:
Sicher läuft der auch über Shader z.B., nur hat man dann weniger FPS als vorher, und das ist ja nicht Sinn der Sache.

raPid-81 schrieb:
Ach das hast Du nicht behauptet? Bitte was? Du sagst die ganze Zeit dass DLSS auf Shadern ähnliche Performance Gains ermöglichen würde, oder nicht? Worüber diskutieren wir hier dann bitte?

Sag du es mir. Du hast mich anfangs zitiert.

raPid-81 · 18. Oktober 2021

Bl4ckR4v3n schrieb:
Seit wann lief DLSS 1.0 auf Shadern? Steht so auch nicht im Artikel?

Stimmt, 1.9 lief auf Shadern, mein Fehler. Ganz interessant dazu:

Eingebundener Inhalt

An dieser Stelle findest du externe Inhalte von Reddit. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.

Essentially when DLSS released, let's call it DLSS 1.0, it worked on tensor cores, but the model was trained for each game individually. So developers had to train the model for their game specifically. This was slow, which is why DLSS didn't release till a couple months after Turing released. It wasn't a "one size fits all solution". So when DLSS released for Battlefield V and it was pretty terrible, it was because the model wasn't trained well enough for what was basically a new game, which resulted in lots of blur.

Soon after, NVIDIA realised that if they train the model on a per game basis and moved it to shaders, quality improved much more. Which is how DLSS improved in BF V after a while. However, it still was inferior to the tensor core version in terms of speed, as the models couldn't be trained as quickly. It also was way more intensive as a hit to performance, as the shaders were less powerful than the tensor cores for this type of task and it took up some compute space.

Now it's all on tensor cores again, the model has far more data to make inferences from, from multiple games. Essentially, when you're gaming, basically tensor cores are never used. By moving it back to the tensor cores, it means the shaders are completely free to do normal rendering, with the tensors cores being used to upscale the image. This in turn reduces the performance hit and speeds up the model's inferencing.

Tensor cores also have far more throughput in terms of raw compute power. For example, a 2080 Ti at 1850 MHz has around 32.3 TFLOPs of FP16 compute power. With tensor cores that gets bumped up by around 4X, leading to ~129 TFLOPs of FP16 Tensor compute power.

Bl4ckR4v3n schrieb:
Du kannst das selbe Phänomen auch mit Tensor Cores haben. Das Modell entscheidet über die Geschwindigkeit und vor allem große Modelle haben keine Performance. Kann schlicht ein zu komplexes Modell sein.

Siehe oben:
- DLSS 1.0 auf Tensor Cores und per-game-training = großer Performance Boost, schlechte Qualität
- DLSS 1.9 auf Shadern und generellem Training = längere Trainingszeit nötig + weniger Performance Boost bei besserer Qualität
- DLSS 2.0 auf Tensor Cores und generellem Training = kürzere Trainingszeit, großer Performance Boost und gute Qualität

Noch mal fett für Dich:

It also was way more intensive as a hit to performance, as the shaders were less powerful than the tensor cores for this type of task and it took up some compute space.

Bl4ckR4v3n schrieb:
Das ist nicht zwingend gegeben. Man nutzt nun vorhandene Bildinformationen die es sowieso gibt und nutzt somit deutlich mehr Daten wie zuvor. Daher gehe ich von aus dass die Komplexität massiv runtergegangen ist.

Ach und die vorhandenen (alten) Bildinformationen während des Renderings verarbeiten und vergleichen kostet keine Performance? Die Komplexität ist eher hoch gegangen, alleine schon weil man einen allgemeinen Algorithmus und keinen per-Game Algorithmus nutzt. Sieht man auch an der nvngx_dlss.dll, die wird mit jeder Iteration größer.

Bl4ckR4v3n schrieb:
Bitte zitiere das mal. Ich finde so eine Aussage von mir nicht.
Hast du überhaupt meine Sätze gelesen wie:

Das einzige was ich finde ist das ich überzeugt bin das man auch mit Shadern ordentlich Performance rausholen wird und zu der Aussage stehe ich auch. Beim ähnlicher Perf Gain. weiß ich ehrlich nicht wo du das her hast.

Deine Aussage war dass man auch ohne Tensor Cores einen "deutlichen" Performance Gain hinbekommt. Zum dritten Mal Dein Zitat:

Bl4ckR4v3n schrieb:
Man benötigt aber keine Tensorcores um ein DLSS Algorithmus auszuführen. Er wird effizienter laufen aber Performance dürfte auch ohne Tensor Cores deutlich ankommen.

Bl4ckR4v3n schrieb:
Ich weiß Bilder sind ablenkend aber du hast das ganze mit einem Satz eingeleitet. Hier eine hilfe:

Zu der Aussage stehe ich, per Shader kommen weniger FPS raus als mit Tensor Core Nutzung. Vielleicht sogar weniger als nativ, je nachdem wie sehr die Shader dadurch ausgelastet werden.

Bl4ckR4v3n schrieb:
Sag du es mir. Du hast mich anfangs zitiert.

Siehe oben, Dein Zitat steht dort zum dritten Mal.

FidelityFX Super Resolution: AMD stellt sich der Qualitäts-Kritik

raPid-81

Guest

Software-Overclocker(in)

raPid-81

Guest

Software-Overclocker(in)

raPid-81

Guest

Software-Overclocker(in)

Software-Overclocker(in)

raPid-81

Guest

Software-Overclocker(in)

PCGH-Community-Veteran(in)

raPid-81

Guest

Software-Overclocker(in)

raPid-81

Guest

Software-Overclocker(in)

raPid-81

Guest

BIOS-Overclocker(in)

raPid-81

Guest

Software-Overclocker(in)

Software-Overclocker(in)

raPid-81

Guest

Ähnliche Themen