vercel · lgrammel · Jan 7, 2025 · Jan 4, 2025 · Jan 4, 2025 · Jan 4, 2025
diff --git a/.changeset/cuddly-kiwis-guess.md b/.changeset/cuddly-kiwis-guess.md
@@ -0,0 +1,7 @@
+---
+'@ai-sdk/google-vertex': patch
+'@ai-sdk/openai': patch
+'ai': patch
+---
+
+feat (ai/core): expand generateImage parameters
diff --git a/.changeset/poor-pets-obey.md b/.changeset/poor-pets-obey.md
@@ -0,0 +1,6 @@
+---
+'@ai-sdk/fireworks': patch
+'@ai-sdk/provider-utils': patch
+---
+
+feat (provider/fireworks): Add image model support.
diff --git a/examples/ai-core/src/e2e/feature-test-suite.ts b/examples/ai-core/src/e2e/feature-test-suite.ts
@@ -1,5 +1,6 @@
 import { z } from 'zod';
 import {
+  experimental_generateImage as generateImage,
   generateText,
   generateObject,
   streamText,
@@ -10,12 +11,17 @@ import {
 } from 'ai';
 import fs from 'fs';
 import { describe, expect, it, vi } from 'vitest';
-import type { EmbeddingModelV1, LanguageModelV1 } from '@ai-sdk/provider';
+import type {
+  EmbeddingModelV1,
+  ImageModelV1,
+  LanguageModelV1,
+} from '@ai-sdk/provider';
 
 export interface ModelVariants {
   invalidModel?: LanguageModelV1;
   languageModels?: LanguageModelV1[];
   embeddingModels?: EmbeddingModelV1<string>[];
+  imageModels?: ImageModelV1[];
 }
 
 export interface TestSuiteOptions {
@@ -369,5 +375,25 @@ export function createFeatureTestSuite({
         );
       }
     });
+
+    describe.each(createModelObjects(models.imageModels))(
+      'Image Model: $modelId',
+      ({ model }) => {
+        it('should generate an image', async () => {
+          const result = await generateImage({
+            model,
+            prompt: 'A cute cartoon cat',
+          });
+
+          // Verify we got a base64 string back
+          expect(result.image.base64).toBeTruthy();
+          expect(typeof result.image.base64).toBe('string');
+
+          // Check the decoded length is reasonable (at least 10KB)
+          const decoded = Buffer.from(result.image.base64, 'base64');
+          expect(decoded.length).toBeGreaterThan(10 * 1024);
+        });
+      },
+    );
   };
 }
diff --git a/examples/ai-core/src/e2e/fireworks.test.ts b/examples/ai-core/src/e2e/fireworks.test.ts
@@ -21,6 +21,7 @@ createFeatureTestSuite({
     embeddingModels: [
       provider.textEmbeddingModel('nomic-ai/nomic-embed-text-v1.5'),
     ],
+    imageModels: [provider.image('accounts/fireworks/models/flux-1-dev-fp8')],
   },
   timeout: 10000,
   customAssertions: {

diff --git a/examples/ai-core/src/generate-image/fireworks.ts b/examples/ai-core/src/generate-image/fireworks.ts
@@ -0,0 +1,26 @@
+import 'dotenv/config';
+import { fireworks } from '@ai-sdk/fireworks';
+import { experimental_generateImage as generateImage } from 'ai';
+import fs from 'fs';
+
+async function main() {
+  const { image } = await generateImage({
+    model: fireworks.image('accounts/fireworks/models/flux-1-dev-fp8'),
+    prompt: 'A burrito launched through a tunnel',
+    aspectRatio: '4:3',
+    seed: 'random',
+    providerOptions: {
+      fireworks: {
+        // https://fireworks.ai/models/fireworks/flux-1-dev-fp8/playground
+        guidance_scale: 10,
+        num_inference_steps: 10,
+      },
+    },
+  });
+
+  const filename = `image-${Date.now()}.png`;
+  fs.writeFileSync(filename, image.uint8Array);
+  console.log(`Image saved to ${filename}`);
+}
+
+main().catch(console.error);
diff --git a/examples/ai-core/src/generate-image/google-vertex.ts b/examples/ai-core/src/generate-image/google-vertex.ts
@@ -7,9 +7,12 @@ async function main() {
   const { image } = await generateImage({
     model: vertex.image('imagen-3.0-generate-001'),
     prompt: 'A burrito launched through a tunnel',
+    aspectRatio: '1:1',
+    seed: 'random',
     providerOptions: {
       vertex: {
-        aspectRatio: '16:9',
+        // https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/imagen-api#parameter_list
+        addWatermark: false,
       },
     },
   });

diff --git a/packages/ai/core/generate-image/generate-image.test.ts b/packages/ai/core/generate-image/generate-image.test.ts
@@ -1,7 +1,10 @@
 import { ImageModelV1 } from '@ai-sdk/provider';
 import { MockImageModelV1 } from '../test/mock-image-model-v1';
 import { generateImage } from './generate-image';
-import { convertBase64ToUint8Array } from '@ai-sdk/provider-utils';
+import {
+  convertBase64ToUint8Array,
+  convertUint8ArrayToBase64,
+} from '@ai-sdk/provider-utils';
 
 const prompt = 'sunny day at the beach';
 
@@ -21,6 +24,8 @@ describe('generateImage', () => {
       }),
       prompt,
       size: '1024x1024',
+      aspectRatio: '16:9',
+      seed: 12345,
       providerOptions: { openai: { style: 'vivid' } },
       headers: { 'custom-request-header': 'request-header-value' },
       abortSignal,
@@ -30,12 +35,46 @@ describe('generateImage', () => {
       n: 1,
       prompt,
       size: '1024x1024',
+      aspectRatio: '16:9',
+      seed: 12345,
       providerOptions: { openai: { style: 'vivid' } },
       headers: { 'custom-request-header': 'request-header-value' },
       abortSignal,
     });
   });
 
+  it('should handle base64 strings', async () => {
+    const base64String = 'SGVsbG8gV29ybGQ=';
+    const result = await generateImage({
+      model: new MockImageModelV1({
+        doGenerate: async () => ({ images: [base64String] }),
+      }),
+      prompt,
+    });
+    expect(result.images).toStrictEqual([
+      {
+        base64: base64String,
+        uint8Array: convertBase64ToUint8Array(base64String),
+      },
+    ]);
+  });
+
+  it('should handle Uint8Arrays', async () => {
+    const uint8Array = new Uint8Array([72, 101, 108, 108, 111]);
+    const result = await generateImage({
+      model: new MockImageModelV1({
+        doGenerate: async () => ({ images: [uint8Array] }),
+      }),
+      prompt,
+    });
+    expect(result.images).toStrictEqual([
+      {
+        base64: convertUint8ArrayToBase64(uint8Array),
+        uint8Array: uint8Array,
+      },
+    ]);
+  });
+
   it('should return generated images', async () => {
     const base64Images = [
       'SGVsbG8gV29ybGQ=', // "Hello World" in base64

diff --git a/packages/ai/core/generate-image/generate-image.ts b/packages/ai/core/generate-image/generate-image.ts
@@ -1,7 +1,8 @@
 import { ImageModelV1, JSONValue } from '@ai-sdk/provider';
-import { convertBase64ToUint8Array } from '@ai-sdk/provider-utils';
 import { prepareRetries } from '../prompt/prepare-retries';
 import { GeneratedImage, GenerateImageResult } from './generate-image-result';
+import { convertBase64ToUint8Array } from '@ai-sdk/provider-utils';
+import { convertUint8ArrayToBase64 } from '@ai-sdk/provider-utils';
 
 /**
 Generates images using an image model.
@@ -10,6 +11,8 @@ Generates images using an image model.
 @param prompt - The prompt that should be used to generate the image.
 @param n - Number of images to generate. Default: 1.
 @param size - Size of the images to generate. Must have the format `{width}x{height}`.
+@param aspectRatio - Aspect ratio of the images to generate. Must have the format `{width}:{height}`.
+@param seed - Seed for the image generation. Set to `'random'` to use a random seed.
 @param providerOptions - Additional provider-specific options that are passed through to the provider
 as body parameters.
 @param maxRetries - Maximum number of retries. Set to 0 to disable retries. Default: 2.
@@ -23,6 +26,8 @@ export async function generateImage({
   prompt,
   n,
   size,
+  aspectRatio,
+  seed,
   providerOptions,
   maxRetries: maxRetriesArg,
   abortSignal,
@@ -44,10 +49,20 @@ Number of images to generate.
   n?: number;
 
   /**
-Size of the images to generate. Must have the format `{width}x{height}`.
+Size of the images to generate. Must have the format `{width}x{height}`. If not provided, the default size will be used.
    */
   size?: `${number}x${number}`;
 
+  /**
+Aspect ratio of the images to generate. Must have the format `{width}:{height}`. If not provided, the default aspect ratio will be used.
+   */
+  aspectRatio?: `${number}:${number}`;
+
+  /**
+Seed for the image generation. Set to `'random'` to use a random seed. If not provided, the default seed will be used.
+   */
+  seed?: number | 'random';
+
   /**
 Additional provider-specific options that are passed through to the provider
 as body parameters.
@@ -91,23 +106,26 @@ Only applicable for HTTP-based providers.
       abortSignal,
       headers,
       size,
+      aspectRatio,
+      seed,
       providerOptions: providerOptions ?? {},
     }),
   );
 
-  return new DefaultGenerateImageResult({ base64Images: images });
+  return new DefaultGenerateImageResult({ images });
 }
 
 class DefaultGenerateImageResult implements GenerateImageResult {
   readonly images: Array<GeneratedImage>;
 
-  constructor(options: { base64Images: Array<string> }) {
-    this.images = options.base64Images.map(base64 => ({
-      base64,
-      get uint8Array() {
-        return convertBase64ToUint8Array(this.base64);
-      },
-    }));
+  constructor(options: { images: Array<string> | Array<Uint8Array> }) {
+    this.images = options.images.map(image => {
+      const isUint8Array = image instanceof Uint8Array;
+      return {
+        base64: isUint8Array ? convertUint8ArrayToBase64(image) : image,
+        uint8Array: isUint8Array ? image : convertBase64ToUint8Array(image),
+      };
+    });
   }
 
   get image() {

diff --git a/packages/ai/core/test/mock-image-model-v1.ts b/packages/ai/core/test/mock-image-model-v1.ts
@@ -3,9 +3,9 @@ import { notImplemented } from './not-implemented';
 
 export class MockImageModelV1 implements ImageModelV1 {
   readonly specificationVersion = 'v1';
-
   readonly provider: ImageModelV1['provider'];
   readonly modelId: ImageModelV1['modelId'];
+  readonly maxImagesPerCall = 1;
 
   doGenerate: ImageModelV1['doGenerate'];