Das Modell — Verdiq

Wie Verdiq entscheidet

Verdiq trifft keine Entscheidungen. Es strukturiert eine Debatte und lässt einen Richter urteilen. Der Unterschied ist entscheidend.

DIE PIPELINE

Jeder Sonntag um 18:00 läuft derselbe Prozess automatisch durch:

Universe Screen

Rund 400 MSCI World Aktien — etwa 90% der Marktkapitalisierung des Index — werden jede Woche durch fünf quantitative Säulen bewertet: Value, Quality, Momentum, Shareholder Yield und Earnings Quality.

Jede Kennzahl wird nicht absolut gemessen, sondern relativ: Was ist die FCF-Rendite dieser Aktie verglichen mit allen anderen Kandidaten dieser Woche? Dieses Cross-Sectional Ranking eliminiert einen systematischen Fehler des alten Systems — absolute Schwellenwerte die nichts über den Wettbewerb aussagen.

Zwei Ranking-Profile mit unterschiedlichen Schwerpunkten laufen parallel. Das Ergebnis ist eine stratifizierte Auswahl die sicherstellt, dass verschiedene Opportunity-Typen — günstige Qualitätsunternehmen und Titel mit Beschleunigungsmomentum — in der Debate-Pipeline erscheinen.

Sentiment Context Signal

Alle Kandidaten die den Quant-Screen bestanden haben, durchlaufen ein zweites Analyse-System: Grok wertet X/Twitter-Sentiment der letzten sieben Tage aus, NewsAPI misst Artikel-Volumen und Tenor, Google Trends zeigt globales Suchinteresse. Das Ergebnis ist kein Richtungssignal — es ist eine Einschätzung der Position auf der Hype-Kurve: Noch unentdeckt, Wachsendes Interesse oder Breite Aufmerksamkeit.

Bearisches Sentiment bei soliden Kennzahlen ist kein Warnsignal. Es ist der klassische Displacement-Setup — Buffett kauft wenn alle verkaufen, nicht wenn die Bildzeitung titelt.

CAPE-Regime Check

Vor jeder Debate: Wie teuer ist der Markt? Der Shiller CAPE setzt die Hürde — je höher die Bewertung, desto mehr muss eine Aktie bieten, um ins Depot zu kommen.

Liegt der CAPE über 38 und ist der Quant-Score des Kandidaten unterdurchschnittlich (unter 58/100), durchläuft die Aktie einen Haiku-Schnellcheck. Haiku ist das kompakteste Modell von Anthropic — kein vollständiges Reasoning-Modell, aber vollständig in der Lage, strukturierte Kennzahlen zu lesen und ein binäres Urteil zu fällen. Es sieht dieselben quantitativen Daten wie der Analyst: EV/EBITDA, Momentum, Margen, Wachstum, Insider-Aktivität.

Was Haiku entscheidet ist nicht: kaufen oder meiden. Das ist Aufgabe des Richters. Haiku entscheidet: Ist dieser Kandidat es wert, dass drei Modelle eine vollständige Debate führen? Ein Kandidat mit zwei Strikes — schwache Fundamentaldaten und teurer Markt — bekommt diese Frage gestellt. Der Bias ist bewusst Richtung Weiterführen: sobald die Zahlen irgendein Argument für eine Debate liefern, läuft sie. Ein Haiku-Meiden ist kein Track-Record-Eintrag — der Stock kommt in der nächsten Woche wieder ins Screening.

Zwei parallele Debates

Für jeden Kandidaten laufen zwei unabhängige Debates gleichzeitig. Konfiguration A: Claude argumentiert als Analyst (Bull Case), GPT-4o als Skeptiker (Bear Case). Konfiguration B dreht die Rollen um: GPT-4o baut den Bull Case, Claude übernimmt den Bear Case. Beide sehen dieselben Daten und folgen denselben Verhaltensregeln — keine Personas, keine Rollenspiele, nur konkrete Anforderungen an Argumentation und Output.

Gemini als unabhängiger Richter

Jede Debate wird von Gemini 2.5 Pro bewertet — einem Modell eines dritten Anbieters ohne Interessenkonflikt. Das Urteil folgt einem festen Rubric aus vier Dimensionen: Risikoqualität, Katalysator-Spezifität, CRV-Kohärenz und Datenqualität. Das CRV-Veto gilt absolut: liegt das Chance/Risiko-Verhältnis unter 1.0, ist das Urteil automatisch MEIDEN.

Meta-Judge — CyclicJudge

KI-Modelle als Richter bevorzugen nachweislich das zuerst präsentierte Argument — nicht weil es besser ist, sondern weil es an erster Stelle steht. Dieser Positions-Bias ist in der Forschung mit 10–15 Prozentpunkten Vorteil für das erste Argument dokumentiert. Ein einzelner Durchlauf wäre damit kein fairer Vergleich.

Verdiq löst das mit zwei Durchläufen: Gemini 2.5 Pro sieht in Runde 1 Debate A zuerst, in Runde 2 Debate B zuerst. Stimmen beide Urteile überein, ist die Entscheidung positions-robust und wird akzeptiert. Widersprechen sie sich, war der Positions-Bias ausschlaggebend — Gemini war real unentschieden. Dann greift die konservative Regel: MEIDEN schlägt BEOBACHTEN schlägt KAUFEN. Ein unsicherer Richter ist kein Argument für einen Kauf.

Portfolio-Entscheidung

Hat das System Cash und das finale Verdict lautet KAUFEN, kauft es. Ohne Rückfrage. Die Anzahl möglicher Positionen und die CRV-Hürde richten sich nach dem CAPE-Regime — von 3–5 Positionen bei EXTREM_TEUER bis zu 7–10 bei CRASH.

Mit dem Kauf startet eine 6-monatige Mindesthaltedauer. Das System verkauft nicht weil der Kurs gefallen ist — es verkauft wenn die ursprüngliche Thesis gebrochen ist. Management-Wechsel, Guidance-Senkung, strukturelle Konkurrenz: das sind die Ausstiegsgründe. Ein temporärer Kursverlust ist keiner.

Wöchentlich prüft das System alle offenen Positionen gegen neue KAUFEN-Kandidaten. Ist das Depot voll und ein neuer Kandidat bietet deutlich besseres CRV, rechnet das System einen steuerbereinigten Swap-Kalkül: Gewinn nach Abgeltungssteuer (26,375%) gegen den Renditevorteil des Neukandidaten. Nur wenn der Wechsel sich nach Steuer klar lohnt, wird getauscht — nicht aus Aktivität.

DER CRV-RAIL

Das Urteil des Richters ist nicht das finale Verdict. Bevor ein KAUFEN ins Portfolio übersetzt wird, läuft ein deterministischer Prüfschritt: der CRV-Rail.

CRV — das Chance-Risiko-Verhältnis — wird nicht aus der Debate entnommen, sondern aus Marktdaten berechnet. Für Aktien mit ausreichender Analysten-Deckung kommen Upside und Downside aus veröffentlichten Kurszielen und einem regimeabhängigen Drawdown-Modell. Das Ergebnis ist kein einzelner Wert, sondern ein Band — eine untere und eine obere Grenze.

Die Entscheidungslogik des Rails:

crv_high unter 0.9: MEIDEN — absolutes Veto. Keine Ausnahme.
crv_mid unter Regime-Schwelle bei KAUFEN-Urteil: Downgrade auf BEOBACHTEN.
Alles andere: Richter-Urteil bleibt unverändert.

Der Rail ist eine reine Bremse, kein Beschleuniger. Er kann ein LLM-KAUFEN auf BEOBACHTEN herunterstufen oder ein BEOBACHTEN auf MEIDEN — aber er kann kein Verdict nach oben korrigieren. Das LLM-Urteil ist argumentativ. Der CRV-Rail ist Arithmetik. Beide sind Teil des Prozesses; der Rail hat das letzte Wort.

Das Downside-Modell verwendet einen Beta-Floor von 0.8 — Beta wird nie unter diesen Wert gesetzt, auch wenn die historische Messung niedriger ist, weil sich Betas in Krisen breit angleichen. Für Sektoren mit spezifischen Risiken die Beta nicht erfasst, kommen idiosynkratische Risikoaufschläge hinzu. Die Höhe dieser Zuschläge nach Sektor ist im CRV-Wissensartikel dokumentiert.

Die Regime-Schwelle richtet sich nach dem CAPE: von CRV 1.2 bei CRASH bis 2.5 bei EXTREM_TEUER. Für Aktien ohne ausreichende Analysten-Deckung (weniger als vier vollständige Kursziele) stuft der Rail automatisch auf BEOBACHTEN.

WARUM GEMINI ALS RICHTER?

Dokumentierte Studien zeigen, dass LLMs die Outputs ihres eigenen Modells systematisch bevorzugen — Claude bewertet Claude-Argumente messbar höher, GPT-4o dasselbe für GPT-4o-Argumente. Ein Richter aus derselben Modellfamilie ist kein unabhängiger Richter. Gemini 2.5 Pro zeigt in unabhängigen Benchmarks den geringsten dokumentierten Selbstpräferenz-Bias und gehört zu einem dritten Anbieter ohne Interesse am Ausgang der Debate. Das ist kein akademischer Punkt — es ist die Voraussetzung für ein faires Urteil.

WARUM ZWEI PARALLELE KONFIGURATIONEN?

Claude und GPT-4o zeigen nachweislich unterschiedliche Grundtendenzen in Investmententscheidungen. Claude agiert tendenziell konservativer, GPT-4o produziert stärkere Gegenargumente. Das ist kein Fehler — es ist ein bekanntes Verhaltensmuster das in unabhängigen Studien dokumentiert ist.

Konfiguration A folgt der intuitiven Logik: Claude baut den Bull Case, GPT-4o sucht die Schwachstellen — entsprechend ihrer natürlichen Tendenzen.
Konfiguration B dreht die Rollen um: GPT-4o baut den Bull Case, Claude übernimmt den Bear Case. Die Hypothese dahinter ist kontraintuitiv — ein Modell das gegen seinen natürlichen Bias argumentieren muss, produziert möglicherweise explizitere und belegbarere Argumente, weil es nicht auf seine Default-Tendenz zurückfallen kann.

Beide Konfigurationen laufen jeden Sonntag parallel, sehen dieselben Daten und folgen denselben Verhaltensregeln. Divergenz zwischen A und B ist kein Problem — sie ist der Erkenntnisgewinn.

Die wissenschaftliche Grundlage für diesen Test kommt aus vier unabhängigen Quellen: Live-Daten von nof1.ai (Alpha Arena), einer Analyse von Claudes eingebauten Verhaltenstendenzen (Warwick Business School, 2025), einer Studie zu Rolleneffekten auf LLM-Agenten (arXiv 2602.12285, Waterloo/Chicago 2026) und Forschung zu Regime-abhängigem Modellverhalten in Investmentkontexten (arXiv 2505.07078, 2026). Keine dieser Quellen hat den direkten Rollentest durchgeführt — das ist der Wert des Experiments.

WAS VERDIQ NICHT ZEIGT

Die Gewichtung der Screening-Faktoren und die Prompt-Architektur der Debates sind nicht öffentlich. Das ist der einzige Teil den wir nicht zeigen — nicht weil wir etwas verbergen, sondern weil es das Einzige ist was mit öffentlichen Daten schwer replizierbar ist.

Alles andere ist transparent: welche Kennzahlen, welche Modelle, welche Regeln, welche Verdicts, welche Performance.

DER TRACK RECORD

Verdiq veröffentlicht jedes Verdict — Kauf, Halten, Meiden — öffentlich und dauerhaft. Performance wird gegen den MSCI World gemessen. Kein Backtest. Keine optimierten Vergangenheitsdaten. Live, ab Tag eins.

"Verdiq versteckt seine Fehler nicht. Das ist der stärkste Satz den das Experiment über sich sagen kann."

BEKANNTE GRENZEN

Modelle können Regeln buchstabengetreu befolgen, dabei aber ihrer Intention widersprechen. Ob GPT-4o im Bear Case wirklich kritisch denkt oder nur die Form eines Bear Cases imitiert, lässt sich nicht vollständig von außen prüfen. Dieselbe Frage stellt sich für Claude im Bull Case.

Auch Gemini ist kein neutraler Schiedsrichter im absoluten Sinn — jedes Modell trägt Bias aus seinen Trainingsdaten. Der CyclicJudge mit vertauschter Reihenfolge reduziert Positions-Bias, eliminiert ihn aber nicht vollständig. Diese Limitationen sind Teil des Experiments — nicht ein Grund es nicht zu machen.