VERDIQ — MODELL Letzte Aktualisierung: Mai 2026 — v3.0

Wie Verdiq entscheidet

Verdiq trifft keine Entscheidungen. Es strukturiert eine Debatte und lässt einen Richter urteilen. Der Unterschied ist entscheidend.

DIE PIPELINE

Jeder Sonntag um 18:00 läuft derselbe Prozess automatisch durch:

01

Universe Screen

400 der rund 1.320 MSCI World Unternehmen — rund 90% der gesamten Marktkapitalisierung des Index — werden jede Woche mit quantitativen Kennzahlen bewertet. P/E, EV/EBITDA, Momentum, Insider-Aktivität, 52-Wochen-Position — jede Aktie erhält einen Score. Nur wer die Schwelle überschreitet, kommt in die Debate.

02

Sentiment Context Signal

Alle Kandidaten die den Quant-Screen bestanden haben, durchlaufen ein zweites Analyse-System: Grok wertet X/Twitter-Sentiment der letzten sieben Tage aus, NewsAPI misst Artikel-Volumen und Tenor, Google Trends zeigt globales Suchinteresse. Das Ergebnis ist kein Richtungssignal — es ist eine Einschätzung der Position auf der Hype-Kurve: Noch unentdeckt, Wachsendes Interesse oder Breite Aufmerksamkeit.

Bearisches Sentiment bei soliden Kennzahlen ist kein Warnsignal. Es ist der klassische Displacement-Setup — Buffett kauft wenn alle verkaufen, nicht wenn die Bildzeitung titelt.

03

CAPE-Regime Check

Vor jeder Debate: Wie teuer ist der Markt? Der Shiller CAPE setzt die Hürde — je höher die Bewertung, desto mehr muss eine Aktie bieten, um ins Depot zu kommen.

Liegt der CAPE über 38 und ist der Quant-Score des Kandidaten unterdurchschnittlich (unter 58/100), durchläuft die Aktie einen Haiku-Schnellcheck. Haiku ist das kompakteste Modell von Anthropic — kein vollständiges Reasoning-Modell, aber vollständig in der Lage, strukturierte Kennzahlen zu lesen und ein binäres Urteil zu fällen. Es sieht dieselben quantitativen Daten wie der Analyst: EV/EBITDA, Momentum, Margen, Wachstum, Insider-Aktivität.

Was Haiku entscheidet ist nicht: kaufen oder meiden. Das ist Aufgabe des Richters. Haiku entscheidet: Ist dieser Kandidat es wert, dass drei Modelle eine vollständige Debate führen? Ein Kandidat mit zwei Strikes — schwache Fundamentaldaten und teurer Markt — bekommt diese Frage gestellt. Der Bias ist bewusst Richtung Weiterführen: sobald die Zahlen irgendein Argument für eine Debate liefern, läuft sie. Ein Haiku-Meiden ist kein Track-Record-Eintrag — der Stock kommt in der nächsten Woche wieder ins Screening.

04

Zwei parallele Debates

Für jeden Kandidaten laufen zwei unabhängige Debates gleichzeitig. Konfiguration A: Claude argumentiert als Analyst (Bull Case), GPT-4o als Skeptiker (Bear Case). Konfiguration B dreht die Rollen um: GPT-4o baut den Bull Case, Claude übernimmt den Bear Case. Beide sehen dieselben Daten und folgen denselben Verhaltensregeln — keine Personas, keine Rollenspiele, nur konkrete Anforderungen an Argumentation und Output.

05

Gemini als unabhängiger Richter

Jede Debate wird von Gemini 2.5 Pro bewertet — einem Modell eines dritten Anbieters ohne Interessenkonflikt. Das Urteil folgt einem festen Rubric aus vier Dimensionen: Risikoqualität, Katalysator-Spezifität, CRV-Kohärenz und Datenqualität. Das CRV-Veto gilt absolut: liegt das Chance/Risiko-Verhältnis unter 1.0, ist das Urteil automatisch MEIDEN.

06

Meta-Judge — CyclicJudge

KI-Modelle als Richter bevorzugen nachweislich das zuerst präsentierte Argument — nicht weil es besser ist, sondern weil es an erster Stelle steht. Dieser Positions-Bias ist in der Forschung mit 10–15 Prozentpunkten Vorteil für das erste Argument dokumentiert. Ein einzelner Durchlauf wäre damit kein fairer Vergleich.

Verdiq löst das mit zwei Durchläufen: Gemini 2.5 Pro sieht in Runde 1 Debate A zuerst, in Runde 2 Debate B zuerst. Stimmen beide Urteile überein, ist die Entscheidung positions-robust und wird akzeptiert. Widersprechen sie sich, war der Positions-Bias ausschlaggebend — Gemini war real unentschieden. Dann greift die konservative Regel: MEIDEN schlägt BEOBACHTEN schlägt KAUFEN. Ein unsicherer Richter ist kein Argument für einen Kauf.

07

Portfolio-Entscheidung

Hat das System Cash und das finale Verdict lautet KAUFEN, kauft es. Ohne Rückfrage. Die Anzahl möglicher Positionen und die CRV-Hürde richten sich nach dem CAPE-Regime — von 3–5 Positionen bei EXTREM_TEUER bis zu 7–10 bei CRASH.

Mit dem Kauf startet eine 6-monatige Mindesthaltedauer. Das System verkauft nicht weil der Kurs gefallen ist — es verkauft wenn die ursprüngliche Thesis gebrochen ist. Management-Wechsel, Guidance-Senkung, strukturelle Konkurrenz: das sind die Ausstiegsgründe. Ein temporärer Kursverlust ist keiner.

Wöchentlich prüft das System alle offenen Positionen gegen neue KAUFEN-Kandidaten. Ist das Depot voll und ein neuer Kandidat bietet deutlich besseres CRV, rechnet das System einen steuerbereinigten Swap-Kalkül: Gewinn nach Abgeltungssteuer (26,375%) gegen den Renditevorteil des Neukandidaten. Nur wenn der Wechsel sich nach Steuer klar lohnt, wird getauscht — nicht aus Aktivität.

01 — UNIVERSE SCREEN 400+ MSCI World Aktien — Quantitativer Score 02 — SENTIMENT CONTEXT Grok (X/Twitter) · NewsAPI · Google Trends Noch unentdeckt · Wachsendes Interesse · Breite Aufmerksamkeit 03 — CAPE-REGIME CHECK Shiller CAPE setzt CRV-Schwelle QUICK SCREEN — HAIKU CAPE > 38 & Quant-Score (0–100) < 58 Haiku entscheidet ob debattiert wird 04 — KONFIGURATION A ANALYST (BULL) Claude Sonnet SKEPTIKER (BEAR) GPT-4o RICHTER Gemini 2.5 Pro 4-Dim. Rubric · CRV-Veto KAUFEN / BEOBACHTEN / MEIDEN 04 — KONFIGURATION B ANALYST (BULL) GPT-4o SKEPTIKER (BEAR) Claude Sonnet RICHTER Gemini 2.5 Pro 4-Dim. Rubric · CRV-Veto KAUFEN / BEOBACHTEN / MEIDEN 05 — META-JUDGE — CYCLIC JUDGE 2× Gemini 2.5 Pro — vertauschte Reihenfolge Tiebreaker: MEIDEN > BEOBACHTEN > KAUFEN 06 — PORTFOLIO-ENTSCHEIDUNG · KAUFEN / BEOBACHTEN / MEIDEN

WARUM GEMINI ALS RICHTER?

Dokumentierte Studien zeigen, dass LLMs die Outputs ihres eigenen Modells systematisch bevorzugen — Claude bewertet Claude-Argumente messbar höher, GPT-4o dasselbe für GPT-4o-Argumente. Ein Richter aus derselben Modellfamilie ist kein unabhängiger Richter. Gemini 2.5 Pro zeigt in unabhängigen Benchmarks den geringsten dokumentierten Selbstpräferenz-Bias und gehört zu einem dritten Anbieter ohne Interesse am Ausgang der Debate. Das ist kein akademischer Punkt — es ist die Voraussetzung für ein fairer Urteil.

WARUM ZWEI PARALLELE KONFIGURATIONEN?

Claude und GPT-4o zeigen nachweislich unterschiedliche Grundtendenzen in Investmententscheidungen. Claude agiert tendenziell konservativer, GPT-4o produziert stärkere Gegenargumente. Das ist kein Fehler — es ist ein bekanntes Verhaltensmuster das in unabhängigen Studien dokumentiert ist.

Konfiguration A folgt der intuitiven Logik: Claude baut den Bull Case, GPT-4o sucht die Schwachstellen — entsprechend ihrer natürlichen Tendenzen.
Konfiguration B dreht die Rollen um: GPT-4o baut den Bull Case, Claude übernimmt den Bear Case. Die Hypothese dahinter ist kontraintuitiv — ein Modell das gegen seinen natürlichen Bias argumentieren muss, produziert möglicherweise explizitere und belegbarere Argumente, weil es nicht auf seine Default-Tendenz zurückfallen kann.

Beide Konfigurationen laufen jeden Sonntag parallel, sehen dieselben Daten und folgen denselben Verhaltensregeln. Divergenz zwischen A und B ist kein Problem — sie ist der Erkenntnisgewinn.

Die wissenschaftliche Grundlage für diesen Test kommt aus vier unabhängigen Quellen: Live-Daten von nof1.ai (Alpha Arena), einer Analyse von Claudes eingebauten Verhaltenstendenzen (Warwick Business School, 2025), einer Studie zu Rolleneffekten auf LLM-Agenten (arXiv 2602.12285, Waterloo/Chicago 2026) und Forschung zu Regime-abhängigem Modellverhalten in Investmentkontexten (arXiv 2505.07078, 2026). Keine dieser Quellen hat den direkten Rollentest durchgeführt — das ist der Wert des Experiments.

WAS VERDIQ NICHT ZEIGT

Die Gewichtung der Screening-Faktoren und die Prompt-Architektur der Debates sind nicht öffentlich. Das ist der einzige Teil den wir nicht zeigen — nicht weil wir etwas verbergen, sondern weil es das Einzige ist was mit öffentlichen Daten schwer replizierbar ist.

Alles andere ist transparent: welche Kennzahlen, welche Modelle, welche Regeln, welche Verdicts, welche Performance.

DER TRACK RECORD

Verdiq veröffentlicht jedes Verdict — Kauf, Halten, Meiden — öffentlich und dauerhaft. Performance wird gegen den MSCI World gemessen. Kein Backtest. Keine optimierten Vergangenheitsdaten. Live, ab Tag eins.

"Verdiq versteckt seine Fehler nicht. Das ist der stärkste Satz den das Experiment über sich sagen kann."

BEKANNTE GRENZEN

Modelle können Regeln buchstabengetreu befolgen, dabei aber ihrer Intention widersprechen. Ob GPT-4o im Bear Case wirklich kritisch denkt oder nur die Form eines Bear Cases imitiert, lässt sich nicht vollständig von außen prüfen. Dieselbe Frage stellt sich für Claude im Bull Case.

Auch Gemini ist kein neutraler Schiedsrichter im absoluten Sinn — jedes Modell trägt Bias aus seinen Trainingsdaten. Der CyclicJudge mit vertauschter Reihenfolge reduziert Positions-Bias, eliminiert ihn aber nicht vollständig. Diese Limitationen sind Teil des Experiments — nicht ein Grund es nicht zu machen.