Skip to content

Commit

Permalink
Copy Files From Source Repo (2024-08-09 20:06)
Browse files Browse the repository at this point in the history
  • Loading branch information
olprod committed Aug 10, 2024
1 parent 83602ac commit a3b8858
Show file tree
Hide file tree
Showing 22 changed files with 2,237 additions and 22 deletions.
54 changes: 33 additions & 21 deletions Instructions/Exercises/DE-04-Implement-CI-CD-pipeline.md
Original file line number Diff line number Diff line change
@@ -1,9 +1,9 @@
---
lab:
title: "Implementación de canalizaciones de CI/CD con Azure\_Databricks y Azure\_DevOps o Azure\_Databricks y GitHub"
title: Implementación de flujos de trabajo de CI/CD con Azure Databricks
---

# Implementación de canalizaciones de CI/CD con Azure Databricks y Azure DevOps o Azure Databricks y GitHub
# Implementación de flujos de trabajo de CI/CD con Azure Databricks

La implementación de canalizaciones de integración continua (CI) e implementación continua (CD) con Azure Databricks y Azure DevOps o Azure Databricks y GitHub implica la configuración de una serie de pasos automatizados para asegurarse de que los cambios de código se integran, prueban e implementan de forma eficaz. El proceso normalmente incluye la conexión a un repositorio de Git, la ejecución de trabajos mediante Azure Pipelines para compilar y llevar a cabo la prueba de código unitaria, e implementar los artefactos de compilación para su uso en cuadernos de Databricks. Este flujo de trabajo posibilita un ciclo de desarrollo sólido, lo que permite la integración y entrega continuas en línea con las prácticas modernas de DevOps.

Expand All @@ -13,9 +13,9 @@ Se tardan aproximadamente **40** minutos en completar este laboratorio.
## Aprovisiona un área de trabajo de Azure Databricks.

> **Sugerencia**: Si ya tiene un área de trabajo de Azure Databricks, puede omitir este procedimiento y usar el área de trabajo existente.
> **Sugerencia**: si ya tienes un área de trabajo de Azure Databricks, puedes omitir este procedimiento y usar el área de trabajo existente.
En este ejercicio, se incluye un script para aprovisionar una nueva área de trabajo de Azure Databricks. El script intenta crear un recurso de área de trabajo de Azure Databricks de nivel *Premium* en una región en la que la suscripción de Azure tiene cuota suficiente para los núcleos de proceso necesarios en este ejercicio, y da por hecho que la cuenta de usuario tiene permisos suficientes en la suscripción para crear un recurso de área de trabajo de Azure Databricks. Si se produjese un error en el script debido a cuota o permisos insuficientes, intente [crear un área de trabajo de Azure Databricks de forma interactiva en Azure Portal](https://learn.microsoft.com/azure/databricks/getting-started/#--create-an-azure-databricks-workspace).
En este ejercicio, se incluye un script para aprovisionar una nueva área de trabajo de Azure Databricks. El script intenta crear un recurso de área de trabajo de Azure Databricks de nivel *Premium* en una región en la que la suscripción de Azure tiene cuota suficiente para los núcleos de proceso necesarios en este ejercicio, y da por hecho que la cuenta de usuario tiene permisos suficientes en la suscripción para crear un recurso de área de trabajo de Azure Databricks. Si se produjese un error en el script debido a cuota o permisos insuficientes, intenta [crear un área de trabajo de Azure Databricks de forma interactiva en Azure Portal](https://learn.microsoft.com/azure/databricks/getting-started/#--create-an-azure-databricks-workspace).

1. En un explorador web, inicia sesión en [Azure Portal](https://portal.azure.com) en `https://portal.azure.com`.

Expand All @@ -25,7 +25,7 @@ En este ejercicio, se incluye un script para aprovisionar una nueva área de tra

> **Nota**: Si creaste anteriormente un Cloud Shell que usa un entorno de *Bash*, usa el menú desplegable situado en la parte superior izquierda del panel de Cloud Shell para cambiarlo a ***PowerShell***.
3. Tenga en cuenta que puede cambiar el tamaño de Cloud Shell arrastrando la barra de separación en la parte superior del panel, o usando los iconos **—** , **◻** y **X** en la parte superior derecha para minimizar, maximizar y cerrar el panel. Para obtener más información sobre el uso de Azure Cloud Shell, consulte la [documentación de Azure Cloud Shell](https://docs.microsoft.com/azure/cloud-shell/overview).
3. Ten en cuenta que puedes cambiar el tamaño de Cloud Shell arrastrando la barra de separación en la parte superior del panel, o usando los iconos **—** , **◻** y **X** en la parte superior derecha para minimizar, maximizar y cerrar el panel. Para obtener más información sobre el uso de Azure Cloud Shell, consulta la [documentación de Azure Cloud Shell](https://docs.microsoft.com/azure/cloud-shell/overview).

4. En el panel de PowerShell, introduce los siguientes comandos para clonar este repositorio:

Expand All @@ -34,31 +34,31 @@ En este ejercicio, se incluye un script para aprovisionar una nueva área de tra
git clone https://github.com/MicrosoftLearning/mslearn-databricks
```
5. Una vez clonado el repositorio, escriba el siguiente comando para ejecutar el script **setup.ps1**, que aprovisiona un área de trabajo de Azure Databricks en una región disponible:
5. Una vez clonado el repositorio, escribe el siguiente comando para ejecutar el script **setup.ps1**, que aprovisiona un área de trabajo de Azure Databricks en una región disponible:
```powershell
./mslearn-databricks/setup.ps1
```
6. Si se solicita, elige la suscripción que quieres usar (esto solo ocurrirá si tienes acceso a varias suscripciones de Azure).
7. Espera a que se complete el script: normalmente puede tardar entre 5 y 10 minutos, pero en algunos casos puede tardar más. Mientras espera, revise el artículo [Introducción a Delta Lake](https://docs.microsoft.com/azure/databricks/delta/delta-intro) en la documentación de Azure Databricks.
7. Espera a que se complete el script: normalmente puede tardar entre 5 y 10 minutos, pero en algunos casos puede tardar más. Mientras esperas, revisa el artículo [Introducción a Delta Lake](https://docs.microsoft.com/azure/databricks/delta/delta-intro) en la documentación de Azure Databricks.
## Crear un clúster
Azure Databricks es una plataforma de procesamiento distribuido que usa clústeres* de Apache Spark *para procesar datos en paralelo en varios nodos. Cada clúster consta de un nodo de controlador para coordinar el trabajo y nodos de trabajo para hacer tareas de procesamiento. En este ejercicio, crearás un clúster de *nodo único* para minimizar los recursos de proceso usados en el entorno de laboratorio (en los que se pueden restringir los recursos). En un entorno de producción, normalmente crearías un clúster con varios nodos de trabajo.
> **Sugerencia**: Si ya dispone de un clúster con una versión de runtime 13.3 LTS o superior en su área de trabajo de Azure Databricks, puede utilizarlo para completar este ejercicio y omitir este procedimiento.
> **Sugerencia**: si ya dispones de un clúster con una versión de runtime 13.3 LTS o superior en tu área de trabajo de Azure Databricks, puedes utilizarlo para completar este ejercicio y omitir este procedimiento.
1. En Azure Portal, vaya al grupo de recursos **msl-*xxxxxxx*** que se creó con el script (o al grupo de recursos que contiene el área de trabajo de Azure Databricks existente)
1. En Azure Portal, ve al grupo de recursos **msl-*xxxxxxx*** que se creó con el script (o al grupo de recursos que contiene el área de trabajo de Azure Databricks existente)
1. Seleccione el recurso Azure Databricks Service (llamado **databricks-*xxxxxxx*** si usó el script de instalación para crearlo).
1. Selecciona el recurso Azure Databricks Service (llamado **databricks-*xxxxxxx*** si usaste el script de instalación para crearlo).
1. En la página **Información general** del área de trabajo, usa el botón **Inicio del área de trabajo** para abrir el área de trabajo de Azure Databricks en una nueva pestaña del explorador; inicia sesión si se solicita.
> **Sugerencia**: al usar el portal del área de trabajo de Databricks, se pueden mostrar varias sugerencias y notificaciones. Descártalas y sigue las instrucciones proporcionadas para completar las tareas de este ejercicio.
1. En la barra lateral de la izquierda, seleccione la tarea **(+) Nuevo** y luego seleccione **Clúster**.
1. En la barra lateral de la izquierda, selecciona la tarea **(+) Nuevo** y luego selecciona **Clúster**.
1. En la página **Nuevo clúster**, crea un clúster con la siguiente configuración:
- **Nombre del clúster**: clúster del *Nombre de usuario* (el nombre del clúster predeterminado)
Expand All @@ -78,7 +78,7 @@ Azure Databricks es una plataforma de procesamiento distribuido que usa clúster
1. En la barra lateral, usa el vínculo **(+) Nuevo** para crear un **cuaderno**. En la lista desplegable **Conectar**, selecciona el clúster si aún no está seleccionado. Si el clúster no se está ejecutando, puede tardar un minuto en iniciarse.
2. En la primera celda del cuaderno, escriba el siguiente código, que utiliza comandos del *shell* para descargar los archivos de datos de GitHub en el sistema de archivos utilizado por el clúster.
2. En la primera celda del cuaderno, escribe el siguiente código, que utiliza comandos del *shell* para descargar los archivos de datos de GitHub en el sistema de archivos utilizado por el clúster.
```python
%sh
Expand All @@ -87,7 +87,7 @@ Azure Databricks es una plataforma de procesamiento distribuido que usa clúster
wget -O /dbfs/FileStore/sample_sales.csv https://github.com/MicrosoftLearning/mslearn-databricks/raw/main/data/sample_sales.csv
```
3. Use la opción del menú **▸ Ejecutar celda** situado a la izquierda de la celda para ejecutarla. A continuación, espere a que se complete el trabajo de Spark ejecutado por el código.
3. Usa la opción del menú **▸ Ejecutar celda** situado a la izquierda de la celda para ejecutarla. A continuación, espera a que se complete el trabajo de Spark ejecutado por el código.
## Configuración de un repositorio de GitHub y un proyecto de Azure DevOps
Expand Down Expand Up @@ -143,17 +143,22 @@ steps:
displayName: 'Install Databricks CLI'
- script: |
databricks fs cp dbfs:/FileStore/sample_sales.csv .
displayName: 'Download Sample Data from DBFS'
databricks configure --token <<EOF
<your-databricks-host>
<your-databricks-token>
EOF
displayName: 'Configure Databricks CLI'
- script: |
python -m unittest discover -s tests
displayName: 'Run Unit Tests'
databricks fs cp dbfs:/FileStore/sample_sales.csv . --overwrite
displayName: 'Download Sample Data from DBFS'
```

4. Seleccione **Guardar y ejecutar**.
4. Reemplaza `<your-databricks-host>` y `<your-databricks-token>` con tu dirección URL de host y token de Databricks reales. Esto configurará CLI de Databricks antes de intentar usarlo.

Este archivo YAML configurará una canalización de CI que se desencadena mediante cambios en la rama `main` del repositorio. La canalización configura un entorno de Python, instala CLI de Databricks, descarga los datos de ejemplo del área de trabajo de Databricks y ejecuta pruebas unitarias de Python. Se trata de una configuración común para los flujos de trabajo de CI.
5. Seleccione **Guardar y ejecutar**.

Este archivo YAML configurará una canalización de CI que se desencadena mediante cambios en la rama `main` del repositorio. La canalización configura un entorno de Python, instala CLI de Databricks y descarga los datos de ejemplo de tu espacio de trabajo de Databricks. Se trata de una configuración común para los flujos de trabajo de CI.

## Configuración de la canalización de CD

Expand All @@ -180,6 +185,13 @@ stages:
pip install databricks-cli
displayName: 'Install Databricks CLI'
- script: |
databricks configure --token <<EOF
<your-databricks-host>
<your-databricks-token>
EOF
displayName: 'Configure Databricks CLI'
- script: |
databricks workspace import_dir /path/to/notebooks /Workspace/Notebooks
displayName: 'Deploy Notebooks to Databricks'
Expand All @@ -205,9 +217,9 @@ Antes de ejecutar esta canalización, reemplaza por `/path/to/notebooks` la ruta

## Limpiar

En el portal de Azure Databricks, en la página **Proceso**, seleccione el clúster y **&#9632; Finalizar** para apagarlo.
En el portal de Azure Databricks, en la página **Proceso**, selecciona el clúster y **&#9632; Finalizar** para apagarlo.

Si ha terminado de explorar Azure Databricks, puede eliminar los recursos que ha creado para evitar costos innecesarios de Azure y liberar capacidad en su suscripción.
Si has terminado de explorar Azure Databricks, puedes eliminar los recursos que has creado para evitar costes innecesarios de Azure y liberar capacidad en tu suscripción.



Expand Down
Loading

0 comments on commit a3b8858

Please sign in to comment.