Claude den besten Bildgenerator geben: gpt-image-2 per MCP

Claude ist das beste Reasoning-Modell, das ich nutze — aber es macht kein einziges Bild. Das beste Bildmodell ist gerade das hinter ChatGPT: gpt-image-2. Also habe ich zwei Tabs offen: in Claude denken, die Idee nach ChatGPT kopieren fürs Bild, wieder zurück. Jeder Wechsel reißt den Flow auf — und der Kontext, den Claude gerade aufgebaut hat, ist weg.
Also habe ich den zweiten Tab zugemacht. Ich habe Claude direkten Zugriff auf gpt-image-2 gegeben — über einen kleinen MCP-Server. Jetzt denkt und zeichnet Claude — in einer Unterhaltung.
Was es ist
Ein winziger MCP-Server, der die gpt-image-2-API kapselt (dieselbe Engine, die ChatGPTs Bilder antreibt) und sie Claude als typisiertes Tool bereitstellt. Claude kann selbst keine Pixel erzeugen — aber es kann ein Tool aufrufen. Das Tool wird zu seinen Händen.
Du bringst einen OpenAI-API-Key mit gpt-image-2-Zugriff mit; der Server reicht Claudes Anfrage an die Bild-API weiter und gibt das fertige PNG zurück in den Chat. Kein Hexenwerk, ~150 Zeilen — aber es verändert, wie du arbeitest.
Was es kann
Das Tool stellt genau das bereit, worin gpt-image-2 stark ist:
- Generieren aus einem Text-Prompt — beliebige Größe, inklusive nativem 9:16 und 4:5 für Social.
- Editieren mit Referenzen — ein oder mehrere Referenzbilder (ein Produktfoto, dein eigenes Gesicht) mitgeben, und gpt-image-2 hält die Identität, während es die Szene umstylt.
- Echten Text einbauen — gpt-image-2 ist aktuell am stärksten darin, Headlines und UI-Labels im Bild zu rendern, also sitzen Cover und Mockups.
Weil Claude den Aufruf schreibt, bastelst du nie wieder einen Prompt von Hand. Du beschreibst das Ergebnis; Claude macht daraus einen präzisen gpt-image-2-Prompt, wählt die Größe und feuert.
Der Workflow, der alles ändert
Das ist der Teil, den das Zwei-Tab-Setup nie kann. In einem einzigen Claude-Chat:
- „Recherchier die 3 stärksten Hooks für einen Post über das Self-Hosting eines eigenen Schedulers."
- „Nimm Hook #2, designe ein 9:16-Cover dazu — dark-tech-Stil, mein Gesicht zeigt auf die Headline." → Claude ruft gpt-image-2, das Bild erscheint.
- „Jetzt schreib die Caption und 5 passende Hashtags."
Recherche → Prompt → Bild → Caption, und Claude hält die ganze Zeit den vollen Kontext. Das Bild weiß, worum es im Post geht — weil dasselbe Modell, das ihn geplant hat, auch das Bild gebrieft hat.
Was du brauchst
- Einen OpenAI-API-Key mit gpt-image-2-Zugriff (ggf. ist eine Organization-Verifizierung nötig).
- Einen kleinen MCP-Server, der einen
generate_image/edit_image-Tool-Aufruf an die Bild-API weiterreicht und die Datei zurückgibt — Node oder Python, deine Wahl. - Einen HTTPS-Endpunkt (nginx + TLS), damit Claude.ai ihn als Custom Connector einbinden kann.
- Mehr nicht: kein separates UI, kein fremdes Bild-SaaS zwischen dir und deinen Bildern.
So richtest du es ein
Du brauchst kein Framework — ein kleiner Server reicht. Der Kern ist ein einziges MCP-Tool, das an die Bild-API weiterreicht:
@mcp.tool()
def generate_image(prompt: str, size: str = "1024x1024") -> str:
"""Bild mit gpt-image-2 erzeugen und den gespeicherten Dateipfad zurückgeben."""
res = openai.images.generate(model="gpt-image-2", prompt=prompt, size=size)
return save_png(res.data[0].b64_json) # PNG auf Platte schreiben, Pfad zurückgeben
Dann vier Schritte:
- OpenAI-Key in die Server-Umgebung legen (
OPENAI_API_KEY) — der Key braucht gpt-image-2-Zugriff. - Über HTTPS bereitstellen — Server hinter nginx mit TLS-Zertifikat; Claude.ai akzeptiert nur HTTPS-Connectors.
- Connector hinzufügen in Claude.ai → Einstellungen → Connectors → Custom Connector hinzufügen → Server-URL einfügen.
- Claude um ein Bild bitten. Es ruft
generate_image, das PNG landet direkt im Chat.
Fürs Editieren mit Referenz (dein Gesicht, ein Produktfoto) ein zweites edit_image-Tool ergänzen, das die Referenzdatei an den Edit-Endpunkt schickt — gleiches Muster. Das ist der ganze Bau: ein Tool, ein HTTPS-Endpunkt, ein Connector-Eintrag.
Warum das zählt
„Nimm das beste Tool für jede Aufgabe" heißt sonst: Tabs jonglieren und Kontext verlieren. MCP dreht das um: Lass das beste Gehirn (Claude) am Steuer — und lass es genau dann nach dem besten Bildmodell (gpt-image-2) greifen, wenn es eins braucht. Du hörst auf, der Copy-Paste-Mittelsmann zwischen zwei KIs zu sein.
Und weil es dein eigener Connector ist, bestimmst du die Defaults — House-Style, Standardgrößen, deine Identitäts-Referenz fest eingebaut — sodass jedes Bild schon aussieht wie deins. Das Beste aus beiden Modellen, in einem Chat, zu deinen Bedingungen.
Built with AI — der Newsletter
Praxisnahe KI-Tutorials und die Tools, die ich wirklich nutze — direkt in dein Postfach. Kostenlos, ohne Hype.
Über Substack. Jederzeit abbestellbar.