INTRODUCCIÓN A GOOGLE COLAB PARA DATA SCIENCE

<  VOLVER
Por: admin
junio 17, 2019
admin
junio 17, 2019

Temática

Google Colab

Tiempo de lectura

7minutos

Claves de contenido del artículo


Dentro del mundo del Data Science, existen iniciativas muy interesantes, y una de las que más no puede interesar, además de todos las opciones formativas y herramientas disponibles, son los Google Colab.

Colab es un servicio cloud, basado en los Notebooks de Jupyter, que permite el uso gratuito de las GPUs y TPUs de Google, con librerías como: Scikit-learn, PyTorch, TensorFlow, Keras y OpenCV. Todo ello con bajo Python 2.7 y 3.6, que aún no está disponible para R y Scala.

Aunque tiene algunas limitaciones, que pueden consultarse en su página de FAQ, es una herramienta ideal, no solo para practicar y mejorar nuestros conocimientos en técnicas y herramientas de Data Science, sino también para el para el desarrollo de aplicaciones (pilotos) de machine learning y deep learning, sin tener que invertir en recursos hardware o del Cloud.

Con Colab se pueden crear notebooks o importar los que ya tengamos creados, además de compartirlos y exportarlos cuando queramos. Esta fluidez a la hora de manejar la información también es aplicable a las fuentes de datos que usemos en nuestros proyectos (notebooks), de modo que podremos trabajar con información contenida en nuestro propio Google Drive, unidad de almacenamiento local, github e incluso en otros sistemas de almacenamiento cloud, como el S3 de Amazon.


Empezando a trabajar con Colab

Para poder tener nuestro espacio de trabajo en Colab, tendremos que tener una cuenta de Google y acceder al servicio de Google Drive. Una vez dentro, le daremos a Nuevo > Carpeta, poniéndole el nombre que consideremos, por ejemplo: “MisColabs”.

Para crear nuestro primer Colab, entraremos dentro de la carpeta que hemos creado y daremos a Nuevo > Más > Colaboratory,  a continuación se abrirá un nuevo notebook.

Otra opción sería ir directamente a Google Colab.

Lo siguiente sería cambiar el nombre del notebook, haciendo clic en el nombre del notebook (esquina superior-izquierda) o yendo al menú Archivo > Cambiar nombre

Una vez hecho esto, hay que establecer el entorno de ejecución: menú Entorno de ejecucción > Cambiar tipo de entorno de ejecucción, tras lo que se abrirá la siguiente ventana.

En la mismo indicaremos las versión de Python ( 2 ó 3)  y la unidad de procesamiento que se usará para ejecutar el código del Notebook: CPU (None), GPU ó TPU.


Cargando los datos

A la hora cargar los datos, que se usarán en el notebook, existen varias opciones, pero aquí veremos tres:

  • Habilitar el acceso a nuestro Google Drive
  • Cargar los datos desde una instancia S3 de Amazon
  • Obtener los datos guardados en nuestro disco local

Para montar y habilitar el acceso a nuestro Google Drive, ejecutaremos el siguiente código:

from google.colab import drive

drive.mount('/content/gdrive')

Al hacer esto, nos pedirá un código de autorización y la url donde podemos conseguirlo. Al hacer clic en dicha url, nos llevará al proceso de validación de nuestra cuenta de Google y luego nos mostrará el código de acceso que tenemos que copiar y pegar, en el sitio correspondiente. A continuación hay que dar a Enter.

Tras hacerlo, lo validará y montará nuestro google drive en el notebook, apareciendo el siguiente mensaje: “Mounted at /content/gdrive”.

Para verlo, tendremos que hacer clic en la flecha que esta en el margen superior izquierdo e ir a la pestaña de archivos. En el veremos dos carpetas: sample_data (datos de ejemplo) y Google drive (nuestro Google drive).

Si lo que queremos es traernos los datos de una fuente externa, por ejemplo, una instancia S3 de Amazon, podremos hacerlo haciendo uso de comandos como: !wget y !unzip. Tal y como se muestra a continuación:

!wget -cq https://s3.amazonaws.com/content.udacity-data.com/courses/nd188/flower_data.zip

!unzip -qq flower_data.zip

Al ejecutar estás dos sentencias, el dataset flower_data, se cargará y estará disponible en nuestro notebook, podremos verlo en la pestaña de archivo.

Por último, si queremos cargar datos que tenemos en nuestro disco local, podremos hacerlo siguiendo los siguientes pasos:

1.- Dar al botón subir, que esta en el margen superior izquierdo de la pestaña de archivos.

2.- Buscamos el archivo que queremos subir, en mi caso el archivo winequality.csv que tengo el directorio ./Descargas/data, de mi disco duro local.

3.- Cuando le damos a abrir, nos aparecerá un mensaje de advertencia, diciendo que los datos se borrarán al finalizar la sesión, lógico al tratarse de un servicio gratuito. Simplemente es algo que tendremos que tener en cuenta a la hora de usar este servicio. Una opción sería guardar nuestros datos en Google Drive y evitar que se borren cuando cerremos nuestra sesión de Colab.

4.- El archivo que hemos cargado, aparecerá en la pestaña de Archivos.


Operaciones básicas

Con los archivos cargados,  podremos realizar una operativa similar a la que haríamos desde una consola de linux. Se usan los mismos comandos, pero poniendo el símbolo de admiración delante. Así, podremos:

  • Listar con !ls
  • Ver el contenido de un archivo con !head, !tail o !cat
  • Mover con !mv
  • Copiar con !cp
  • Borrar con !rm
  • Además de muchas otras cosas que pueden hacerse desde una consola de Linux.

A continuación pongo un par de imágenes con algunos ejemplos, pero si queréis probar vosotros mismos, cosa que recomiendo, os dejo un enlace al notebook donde he ido haciendo todo esto

Nota: El archivo winequality.csv, lo podéis descargar desde el siguiente enlace.

Y hasta aquí esta introducción a los Google Colab, en la próxima entrega veremos como instalar librerías de Python, para luego usarlas en la construcción y entrenamiento de un modelo de clasificación.

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un experto métodos de minería y sus herramientas

Suscríbete a nuestra Newsletter

Recibe nuestra programación mensual de eventos online y la apertura de nuevas convocatorias de cursos




    En Datahack Consulting SL trataremos los datos que nos facilites con la finalidad de enviarte información relacionada con tu solicitud sobre nuestros servicios, así como enviarte comunicaciones informativas sobre nuestra actividad. Podrás ejercer los derechos de acceso, rectificación, limitación, oposición, portabilidad, o retirar el consentimiento enviando un email a administracion@datahack.es. También puedes solicitar la tutela de derechos ante la Autoridad de Control (AEPD). Puedes consultar información adicional y detallada sobre protección de datos en nuestra Política de Privacidad.

    Estamos para ayudarte con cualquier duda, pequeña o grande

    Llámanos, escríbenos al email o por WhatsApp o inicia un chat en la web y hablamos

    chevron-down