wip: hub_token error

kubeflow · Jan 16, 2025 · d33dd00 · d33dd00
1 parent f23f5ea
commit d33dd00
Showing 1 changed file with 14 additions and 14 deletions.
diff --git a/examples/v1beta1/sdk/llm-hp-optimization.ipynb b/examples/v1beta1/sdk/llm-hp-optimization.ipynb
@@ -226,8 +226,8 @@
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2025-01-16T14:19:59.810915Z",
-     "start_time": "2025-01-16T14:19:59.739935Z"
+     "end_time": "2025-01-16T14:21:47.465728Z",
+     "start_time": "2025-01-16T14:21:47.429577Z"
     }
    },
    "cell_type": "code",
@@ -247,13 +247,13 @@
     "hf_tuning_parameters = HuggingFaceTrainerParams(\n",
     "    training_parameters = TrainingArguments(\n",
     "        output_dir = \"results\",\n",
-    "        save_strategy = \"no\",\n",
+    "        save_strategy = \"epoch\",\n",
     "        learning_rate = 1e-05, #katib.search.double(min=1e-05, max=5e-05),\n",
     "        num_train_epochs=3,\n",
     "    ),\n",
     "    # Set LoRA config to reduce number of trainable model parameters.\n",
     "    lora_config = LoraConfig(\n",
-    "        r = 1 ,# katib.search.int(min=8, max=32),\n",
+    "        r = 1,# katib.search.int(min=8, max=32),\n",
     "        lora_alpha = 8,\n",
     "        lora_dropout = 0.1,\n",
     "        bias = \"none\",\n",
@@ -262,26 +262,26 @@
    ],
    "id": "45c5a2476e1bffb7",
    "outputs": [],
-   "execution_count": 35
+   "execution_count": 44
   },
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2025-01-16T14:20:00.485519Z",
-     "start_time": "2025-01-16T14:20:00.414142Z"
+     "end_time": "2025-01-16T14:21:48.609074Z",
+     "start_time": "2025-01-16T14:21:48.408780Z"
     }
    },
    "cell_type": "code",
    "source": "cl = KatibClient(namespace=\"kubeflow\")",
    "id": "c7995d6934399e6c",
    "outputs": [],
-   "execution_count": 36
+   "execution_count": 45
   },
   {
    "metadata": {
     "ExecuteTime": {
-     "end_time": "2025-01-16T14:20:09.331479Z",
-     "start_time": "2025-01-16T14:20:09.033401Z"
+     "end_time": "2025-01-16T14:22:02.371604Z",
+     "start_time": "2025-01-16T14:22:02.030931Z"
     }
    },
    "cell_type": "code",
@@ -296,8 +296,8 @@
     "    objective_metric_name = \"train_loss\",\n",
     "    objective_type = \"minimize\",\n",
     "    algorithm_name = \"random\",\n",
-    "    max_trial_count = 10,\n",
-    "    parallel_trial_count = 2,\n",
+    "    # max_trial_count = 10,\n",
+    "    # parallel_trial_count = 2,\n",
     "    # resources_per_trial={\n",
     "    #     \"gpu\": \"2\",\n",
     "    #     \"cpu\": \"4\",\n",
@@ -330,7 +330,7 @@
       "\u001B[0;31mValueError\u001B[0m: '<HUB_TOKEN>' is not a valid HubStrategy",
       "\nDuring handling of the above exception, another exception occurred:\n",
       "\u001B[0;31mValueError\u001B[0m                                Traceback (most recent call last)",
-      "Cell \u001B[0;32mIn[38], line 3\u001B[0m\n\u001B[1;32m      1\u001B[0m \u001B[38;5;66;03m# Fine-tuning for Binary Classification\u001B[39;00m\n\u001B[1;32m      2\u001B[0m exp_name \u001B[38;5;241m=\u001B[39m \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mtestllm\u001B[39m\u001B[38;5;124m\"\u001B[39m\n\u001B[0;32m----> 3\u001B[0m \u001B[43mcl\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mtune\u001B[49m\u001B[43m(\u001B[49m\n\u001B[1;32m      4\u001B[0m \u001B[43m    \u001B[49m\u001B[43mname\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mexp_name\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      5\u001B[0m \u001B[43m    \u001B[49m\u001B[43mmodel_provider_parameters\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mhf_model\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      6\u001B[0m \u001B[43m    \u001B[49m\u001B[43mdataset_provider_parameters\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mhf_dataset\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      7\u001B[0m \u001B[43m    \u001B[49m\u001B[43mtrainer_parameters\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mhf_tuning_parameters\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      8\u001B[0m \u001B[43m    \u001B[49m\u001B[43mobjective_metric_name\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mtrain_loss\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m      9\u001B[0m \u001B[43m    \u001B[49m\u001B[43mobjective_type\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mminimize\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m     10\u001B[0m \u001B[43m    \u001B[49m\u001B[43malgorithm_name\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mrandom\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m     11\u001B[0m \u001B[43m    \u001B[49m\u001B[43mmax_trial_count\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;241;43m10\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m     12\u001B[0m \u001B[43m    \u001B[49m\u001B[43mparallel_trial_count\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;241;43m2\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m     13\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m# resources_per_trial={\u001B[39;49;00m\n\u001B[1;32m     14\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m#     \"gpu\": \"2\",\u001B[39;49;00m\n\u001B[1;32m     15\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m#     \"cpu\": \"4\",\u001B[39;49;00m\n\u001B[1;32m     16\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m#     \"memory\": \"10G\",\u001B[39;49;00m\n\u001B[1;32m     17\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m# },\u001B[39;49;00m\n\u001B[1;32m     18\u001B[0m \u001B[43m)\u001B[49m\n\u001B[1;32m     20\u001B[0m cl\u001B[38;5;241m.\u001B[39mwait_for_experiment_condition(name\u001B[38;5;241m=\u001B[39mexp_name)\n\u001B[1;32m     22\u001B[0m \u001B[38;5;66;03m# Get the best hyperparameters.\u001B[39;00m\n",
+      "Cell \u001B[0;32mIn[47], line 3\u001B[0m\n\u001B[1;32m      1\u001B[0m \u001B[38;5;66;03m# Fine-tuning for Binary Classification\u001B[39;00m\n\u001B[1;32m      2\u001B[0m exp_name \u001B[38;5;241m=\u001B[39m \u001B[38;5;124m\"\u001B[39m\u001B[38;5;124mtestllm\u001B[39m\u001B[38;5;124m\"\u001B[39m\n\u001B[0;32m----> 3\u001B[0m \u001B[43mcl\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mtune\u001B[49m\u001B[43m(\u001B[49m\n\u001B[1;32m      4\u001B[0m \u001B[43m    \u001B[49m\u001B[43mname\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mexp_name\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      5\u001B[0m \u001B[43m    \u001B[49m\u001B[43mmodel_provider_parameters\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mhf_model\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      6\u001B[0m \u001B[43m    \u001B[49m\u001B[43mdataset_provider_parameters\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mhf_dataset\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      7\u001B[0m \u001B[43m    \u001B[49m\u001B[43mtrainer_parameters\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[43mhf_tuning_parameters\u001B[49m\u001B[43m,\u001B[49m\n\u001B[1;32m      8\u001B[0m \u001B[43m    \u001B[49m\u001B[43mobjective_metric_name\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mtrain_loss\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m      9\u001B[0m \u001B[43m    \u001B[49m\u001B[43mobjective_type\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mminimize\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m     10\u001B[0m \u001B[43m    \u001B[49m\u001B[43malgorithm_name\u001B[49m\u001B[43m \u001B[49m\u001B[38;5;241;43m=\u001B[39;49m\u001B[43m \u001B[49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[38;5;124;43mrandom\u001B[39;49m\u001B[38;5;124;43m\"\u001B[39;49m\u001B[43m,\u001B[49m\n\u001B[1;32m     11\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m# max_trial_count = 10,\u001B[39;49;00m\n\u001B[1;32m     12\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m# parallel_trial_count = 2,\u001B[39;49;00m\n\u001B[1;32m     13\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m# resources_per_trial={\u001B[39;49;00m\n\u001B[1;32m     14\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m#     \"gpu\": \"2\",\u001B[39;49;00m\n\u001B[1;32m     15\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m#     \"cpu\": \"4\",\u001B[39;49;00m\n\u001B[1;32m     16\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m#     \"memory\": \"10G\",\u001B[39;49;00m\n\u001B[1;32m     17\u001B[0m \u001B[43m    \u001B[49m\u001B[38;5;66;43;03m# },\u001B[39;49;00m\n\u001B[1;32m     18\u001B[0m \u001B[43m)\u001B[49m\n\u001B[1;32m     20\u001B[0m cl\u001B[38;5;241m.\u001B[39mwait_for_experiment_condition(name\u001B[38;5;241m=\u001B[39mexp_name)\n\u001B[1;32m     22\u001B[0m \u001B[38;5;66;03m# Get the best hyperparameters.\u001B[39;00m\n",
       "File \u001B[0;32m~/miniconda3/envs/llm-hp-optimization-katib-nb/lib/python3.9/site-packages/kubeflow/katib/api/katib_client.py:602\u001B[0m, in \u001B[0;36mKatibClient.tune\u001B[0;34m(self, name, model_provider_parameters, dataset_provider_parameters, trainer_parameters, storage_config, objective, base_image, parameters, namespace, env_per_trial, algorithm_name, algorithm_settings, objective_metric_name, additional_metric_names, objective_type, objective_goal, max_trial_count, parallel_trial_count, max_failed_trial_count, resources_per_trial, retain_trials, packages_to_install, pip_index_url, metrics_collector_config)\u001B[0m\n\u001B[1;32m    600\u001B[0m experiment_params \u001B[38;5;241m=\u001B[39m []\n\u001B[1;32m    601\u001B[0m trial_params \u001B[38;5;241m=\u001B[39m []\n\u001B[0;32m--> 602\u001B[0m training_args \u001B[38;5;241m=\u001B[39m \u001B[43mutils\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mget_trial_substitutions_from_trainer\u001B[49m\u001B[43m(\u001B[49m\n\u001B[1;32m    603\u001B[0m \u001B[43m    \u001B[49m\u001B[43mtrainer_parameters\u001B[49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[43mtraining_parameters\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mexperiment_params\u001B[49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mtrial_params\u001B[49m\n\u001B[1;32m    604\u001B[0m \u001B[43m\u001B[49m\u001B[43m)\u001B[49m\n\u001B[1;32m    605\u001B[0m lora_config \u001B[38;5;241m=\u001B[39m utils\u001B[38;5;241m.\u001B[39mget_trial_substitutions_from_trainer(\n\u001B[1;32m    606\u001B[0m     trainer_parameters\u001B[38;5;241m.\u001B[39mlora_config, experiment_params, trial_params\n\u001B[1;32m    607\u001B[0m )\n\u001B[1;32m    609\u001B[0m \u001B[38;5;66;03m# Create the init and the primary container.\u001B[39;00m\n",
       "File \u001B[0;32m~/miniconda3/envs/llm-hp-optimization-katib-nb/lib/python3.9/site-packages/kubeflow/katib/utils/utils.py:207\u001B[0m, in \u001B[0;36mget_trial_substitutions_from_trainer\u001B[0;34m(parameters, experiment_params, trial_params)\u001B[0m\n\u001B[1;32m    205\u001B[0m                 value \u001B[38;5;241m=\u001B[39m copy\u001B[38;5;241m.\u001B[39mdeepcopy(p_value)\n\u001B[1;32m    206\u001B[0m             \u001B[38;5;28;01melse\u001B[39;00m:\n\u001B[0;32m--> 207\u001B[0m                 value \u001B[38;5;241m=\u001B[39m \u001B[38;5;28;43mtype\u001B[39;49m\u001B[43m(\u001B[49m\u001B[43mold_attr\u001B[49m\u001B[43m)\u001B[49m\u001B[43m(\u001B[49m\u001B[43mp_value\u001B[49m\u001B[43m)\u001B[49m\n\u001B[1;32m    208\u001B[0m         \u001B[38;5;28msetattr\u001B[39m(parameters, p_name, value)\n\u001B[1;32m    210\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m \u001B[38;5;28misinstance\u001B[39m(parameters, TrainingArguments):\n",
       "File \u001B[0;32m~/miniconda3/envs/llm-hp-optimization-katib-nb/lib/python3.9/enum.py:384\u001B[0m, in \u001B[0;36mEnumMeta.__call__\u001B[0;34m(cls, value, names, module, qualname, type, start)\u001B[0m\n\u001B[1;32m    359\u001B[0m \u001B[38;5;250m\u001B[39m\u001B[38;5;124;03m\"\"\"\u001B[39;00m\n\u001B[1;32m    360\u001B[0m \u001B[38;5;124;03mEither returns an existing member, or creates a new enum class.\u001B[39;00m\n\u001B[1;32m    361\u001B[0m \n\u001B[0;32m   (...)\u001B[0m\n\u001B[1;32m    381\u001B[0m \u001B[38;5;124;03m`type`, if set, will be mixed in as the first base class.\u001B[39;00m\n\u001B[1;32m    382\u001B[0m \u001B[38;5;124;03m\"\"\"\u001B[39;00m\n\u001B[1;32m    383\u001B[0m \u001B[38;5;28;01mif\u001B[39;00m names \u001B[38;5;129;01mis\u001B[39;00m \u001B[38;5;28;01mNone\u001B[39;00m:  \u001B[38;5;66;03m# simple value lookup\u001B[39;00m\n\u001B[0;32m--> 384\u001B[0m     \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28;43mcls\u001B[39;49m\u001B[38;5;241;43m.\u001B[39;49m\u001B[38;5;21;43m__new__\u001B[39;49m\u001B[43m(\u001B[49m\u001B[38;5;28;43mcls\u001B[39;49m\u001B[43m,\u001B[49m\u001B[43m \u001B[49m\u001B[43mvalue\u001B[49m\u001B[43m)\u001B[49m\n\u001B[1;32m    385\u001B[0m \u001B[38;5;66;03m# otherwise, functional API: we're creating a new Enum type\u001B[39;00m\n\u001B[1;32m    386\u001B[0m \u001B[38;5;28;01mreturn\u001B[39;00m \u001B[38;5;28mcls\u001B[39m\u001B[38;5;241m.\u001B[39m_create_(\n\u001B[1;32m    387\u001B[0m         value,\n\u001B[1;32m    388\u001B[0m         names,\n\u001B[0;32m   (...)\u001B[0m\n\u001B[1;32m    392\u001B[0m         start\u001B[38;5;241m=\u001B[39mstart,\n\u001B[1;32m    393\u001B[0m         )\n",
@@ -341,7 +341,7 @@
      ]
     }
    ],
-   "execution_count": 38
+   "execution_count": 47
   },
   {
    "metadata": {},