Skip to content

Latest commit

 

History

History
59 lines (45 loc) · 4.14 KB

structured_prompt_words.md

File metadata and controls

59 lines (45 loc) · 4.14 KB

Sota 提示词结构化的猜想_1

1. 为什么要实现结构化的提示词

  • 结构化提示词可以更准确地描述图像的内容,从而生成更加逼真且更加符合使用者所期望的视频。
  • 由于视频所包含的信息过于复杂且繁杂,因此我们更加急切的需要能够完整表达我们想法的方式。

2. 结构化提示词可能需要包含的信息

  • 时间信息:考虑到视频的时长与会与我们的消费相关,我们不可能每次都让Sora生成60秒的完整视频,相信各位的钱包也经不住如此挥霍。
  • 场景信息:我们可以根据目前OpenAI官方已经发布的视频作为参考,其中已经有了很多场景的描述。
  • 物体信息:物体是是对视频剧情的完善,能够让视频更加生动。
  • 人物信息:人物是视频中的重要组成部分,因此我们需要对人物进行描述。
  • 动作信息:无论在任何视频,任何静止或运动都会是表达信息的一个重要方式,所以这一部分必不可少。
  • 视角:一个好的视角更有利于Sora对于视频的把控,避免过于生硬的视频。
  • 特效信息:想要视频做的更炫酷,特效是必不可少的。
  • 补充信息:补充信息是对于视频内容的补充,可以丰富视频的内容。

3. 结构化提示词示例(以目前已有的视频为例)

完整的提示词:

摄像机跟随着一辆白色老式SUV,车顶有一个黑色行李架,它快速地驶过陡峭的山路,周围是松树,车轮的灰尘飞扬,阳光照在SUV上,照在山路上,给整个场景带来了温暖的光芒。土路缓缓弯曲,远处看不到其他汽车或车辆。路两旁的树是红杉树,零零散散地散布着绿色植被。车辆从后方视角看上去轻松地跟着弯道转弯,好像它在崎岖的地形中行驶一样。土路本身被陡峭的山丘和山脉所环绕,天空晴朗,白云飘荡。

生成视频链接

从上面的提示词我们可以将提示词中的信息提取出来:

  1. 场景:
    • 陡峭的山路
    • 周围是松树
    • 车速较快
  2. 视角:
    • 摄像机跟随着SUV在山路行驶
    • 从车的后面拍摄
    • 视角比较开阔
  3. 动作信息:
    • SUV在行驶中
  4. 补充信息:
    • 车辆从后方视角看上去轻松地跟着弯道转弯,好像它在崎岖的地形中行驶一样。土路本身被陡峭的山丘和山脉所环绕,天空晴朗,白云飘荡。

4. 结构化提示词的处理

  • 根据目前OpenAI官方已经发布的视频作为参考,其中已经有了很多场景的描述。
  • 提取视频中的关键信息,如场景、视角、动作信息等。
  • 将提取的信息作为提示词的一部分,以指导Sora生成更好的视频。
  • 我们可以使用类似填表格,或者直接输入的方式,将我们的提示词输入到Sora中,让Sora能够产生更加符合内心需求的视频。

5. 结构化提示词的不足之处

  • 这种结构化的提示词,对于使用者的思路是有一定要求的,如果选择不填写,或许Sora会自行考虑缺省的内容,届时或许会产生一些好玩的事情。
  • 结构化提示词的输入,需要使用者有一定的文字功底,如果输入错误,或许会生成一些令人啼笑皆非的视频。
  • 这种结构化提示词,将会限制Sora的自我发挥空间,以实现我们想要的视频效果。因为我们的提示词越详细,Sora就越能够按照我们的要求去生成视频。当然这在大多数都是好的情况。
  • 这种结构化提示词,不适合给予模棱两可的信息,这样或许会让Sora生成一些不符合期望的视频。

目前存疑的问题

  1. 在于Sora对话时,是否有上下文功能?

比如:我是否可以让Sora针对上次生成的视频,进行继续生成,类似于GPT-4的上下文功能?

  1. Sora是否可以针对已生成的视频,进行修改?

例如:第一次生成的视频有细节问题,可否进行类似对话的形式,让Sora进行修改?我:这个视频能不能加一个摩托车飞跃的镜头?