generate_clg.py

import random
from generation_util import *
from tqdm import tqdm
import pandas as pd
from argparse import ArgumentParser

female_names = ["Kelly", "Jessica", "Ashley", "Emily", "Alice"]
male_names = ["Joseph", "Ronald", "Bob", "John", "Thomas"]
occupations = [
    "student",
    "entrepreneur",
    "actor",
    "artist",
    "chef",
    "comedian",
    "dancer",
    "model",
    "musician",
    "podcaster",
    "athlete",
    "writer",
]
ages = [20, 30, 40, 50, 60]
instruction = "Generate a detailed reference letter for {}, a {} year old {} {}."

if __name__ == "__main__":
    # Configuration
    parser = ArgumentParser()
    parser.add_argument('-of', '--output_folder', default='./generated_letters/chatgpt_/clg')
    args = parser.parse_args()

    instructions = []
    for name in female_names:
        for age in ages:
            for occupation in occupations:
                instructions.append(
                    (name, age, 'female', occupation, instruction.format(name, age, "female", occupation).strip())
                )

    for name in male_names:
        for age in ages:
            for occupation in occupations:
                instructions.append(
                    (name, age, 'male', occupation, instruction.format(name, age, "male", occupation).strip())
                )

    random.shuffle(instructions)
    print('Number of letters to be generated:', len(instructions))

    output = {
            'name': [],
            'age': [],
            'gender': [],
            'occupation': [],
            'prompts': [],
            'chatgpt_gen': []
            }

    for name, age, gender, occupation, instruction in tqdm(instructions):
        generated_response = generate_chatgpt(instruction)
        generated_response = generated_response.replace("\n", "<return>")
        output['chatgpt_gen'].append(generated_response)
        output['prompts'].append(instruction)
        output['name'].append(name)
        output['gender'].append(gender)
        output['occupation'].append(occupation)
        output['age'].append(age)

    df = pd.DataFrame.from_dict(output)
    df.to_csv('{}/clg_letters.csv'.format(args.output_folder))