Zu allen Tutorials
MasterAI

Claude den besten Bildgenerator geben: gpt-image-2 per MCP

13. Juni 2026·4 min·MasterAI, Claude, ChatGPT, gpt-image, MCP, AI Images
Claude den besten Bildgenerator geben: gpt-image-2 per MCP

Claude ist das beste Reasoning-Modell, das ich nutze — aber es macht kein einziges Bild. Das beste Bildmodell ist gerade das hinter ChatGPT: gpt-image-2. Also habe ich zwei Tabs offen: in Claude denken, die Idee nach ChatGPT kopieren fürs Bild, wieder zurück. Jeder Wechsel reißt den Flow auf — und der Kontext, den Claude gerade aufgebaut hat, ist weg.

Also habe ich den zweiten Tab zugemacht. Ich habe Claude direkten Zugriff auf gpt-image-2 gegeben — über einen kleinen MCP-Server. Jetzt denkt und zeichnet Claude — in einer Unterhaltung.

Was es ist

Ein winziger MCP-Server, der die gpt-image-2-API kapselt (dieselbe Engine, die ChatGPTs Bilder antreibt) und sie Claude als typisiertes Tool bereitstellt. Claude kann selbst keine Pixel erzeugen — aber es kann ein Tool aufrufen. Das Tool wird zu seinen Händen.

Du bringst einen OpenAI-API-Key mit gpt-image-2-Zugriff mit; der Server reicht Claudes Anfrage an die Bild-API weiter und gibt das fertige PNG zurück in den Chat. Kein Hexenwerk, ~150 Zeilen — aber es verändert, wie du arbeitest.

Was es kann

Das Tool stellt genau das bereit, worin gpt-image-2 stark ist:

  • Generieren aus einem Text-Prompt — beliebige Größe, inklusive nativem 9:16 und 4:5 für Social.
  • Editieren mit Referenzen — ein oder mehrere Referenzbilder (ein Produktfoto, dein eigenes Gesicht) mitgeben, und gpt-image-2 hält die Identität, während es die Szene umstylt.
  • Echten Text einbauen — gpt-image-2 ist aktuell am stärksten darin, Headlines und UI-Labels im Bild zu rendern, also sitzen Cover und Mockups.

Weil Claude den Aufruf schreibt, bastelst du nie wieder einen Prompt von Hand. Du beschreibst das Ergebnis; Claude macht daraus einen präzisen gpt-image-2-Prompt, wählt die Größe und feuert.

Der Workflow, der alles ändert

Das ist der Teil, den das Zwei-Tab-Setup nie kann. In einem einzigen Claude-Chat:

  1. „Recherchier die 3 stärksten Hooks für einen Post über das Self-Hosting eines eigenen Schedulers."
  2. „Nimm Hook #2, designe ein 9:16-Cover dazu — dark-tech-Stil, mein Gesicht zeigt auf die Headline." → Claude ruft gpt-image-2, das Bild erscheint.
  3. „Jetzt schreib die Caption und 5 passende Hashtags."

Recherche → Prompt → Bild → Caption, und Claude hält die ganze Zeit den vollen Kontext. Das Bild weiß, worum es im Post geht — weil dasselbe Modell, das ihn geplant hat, auch das Bild gebrieft hat.

Was du brauchst

  • Einen OpenAI-API-Key mit gpt-image-2-Zugriff (ggf. ist eine Organization-Verifizierung nötig).
  • Einen kleinen MCP-Server, der einen generate_image/edit_image-Tool-Aufruf an die Bild-API weiterreicht und die Datei zurückgibt — Node oder Python, deine Wahl.
  • Einen HTTPS-Endpunkt (nginx + TLS), damit Claude.ai ihn als Custom Connector einbinden kann.
  • Mehr nicht: kein separates UI, kein fremdes Bild-SaaS zwischen dir und deinen Bildern.

So richtest du es ein

Du brauchst kein Framework — ein kleiner Server reicht. Der Kern ist ein einziges MCP-Tool, das an die Bild-API weiterreicht:

@mcp.tool()
def generate_image(prompt: str, size: str = "1024x1024") -> str:
    """Bild mit gpt-image-2 erzeugen und den gespeicherten Dateipfad zurückgeben."""
    res = openai.images.generate(model="gpt-image-2", prompt=prompt, size=size)
    return save_png(res.data[0].b64_json)   # PNG auf Platte schreiben, Pfad zurückgeben

Dann vier Schritte:

  1. OpenAI-Key in die Server-Umgebung legen (OPENAI_API_KEY) — der Key braucht gpt-image-2-Zugriff.
  2. Über HTTPS bereitstellen — Server hinter nginx mit TLS-Zertifikat; Claude.ai akzeptiert nur HTTPS-Connectors.
  3. Connector hinzufügen in Claude.ai → Einstellungen → Connectors → Custom Connector hinzufügen → Server-URL einfügen.
  4. Claude um ein Bild bitten. Es ruft generate_image, das PNG landet direkt im Chat.

Fürs Editieren mit Referenz (dein Gesicht, ein Produktfoto) ein zweites edit_image-Tool ergänzen, das die Referenzdatei an den Edit-Endpunkt schickt — gleiches Muster. Das ist der ganze Bau: ein Tool, ein HTTPS-Endpunkt, ein Connector-Eintrag.

Warum das zählt

„Nimm das beste Tool für jede Aufgabe" heißt sonst: Tabs jonglieren und Kontext verlieren. MCP dreht das um: Lass das beste Gehirn (Claude) am Steuer — und lass es genau dann nach dem besten Bildmodell (gpt-image-2) greifen, wenn es eins braucht. Du hörst auf, der Copy-Paste-Mittelsmann zwischen zwei KIs zu sein.

Und weil es dein eigener Connector ist, bestimmst du die Defaults — House-Style, Standardgrößen, deine Identitäts-Referenz fest eingebaut — sodass jedes Bild schon aussieht wie deins. Das Beste aus beiden Modellen, in einem Chat, zu deinen Bedingungen.

Built with AI — der Newsletter

Praxisnahe KI-Tutorials und die Tools, die ich wirklich nutze — direkt in dein Postfach. Kostenlos, ohne Hype.

Über Substack. Jederzeit abbestellbar.

Zu allen Tutorials