INTRODUCCIÓN A GOOGLE COLAB PARA DATA SCIENCE

Temática

Google Colab

Tiempo de lectura

7minutos

Claves de contenido del artículo

Herramienta Google Colab

Creación de una cuenta

Carga de datos

Carga de datos en disco local

Operaciones básicas

Dentro del mundo del Data Science, existen iniciativas muy interesantes, y una de las que más no puede interesar, además de todos las opciones formativas y herramientas disponibles, son los Google Colab.

Colab es un servicio cloud, basado en los Notebooks de Jupyter, que permite el uso gratuito de las GPUs y TPUs de Google, con librerías como: Scikit-learn, PyTorch, TensorFlow, Keras y OpenCV. Todo ello con bajo Python 2.7 y 3.6, que aún no está disponible para R y Scala.

Aunque tiene algunas limitaciones, que pueden consultarse en su página de FAQ, es una herramienta ideal, no solo para practicar y mejorar nuestros conocimientos en técnicas y herramientas de Data Science, sino también para el para el desarrollo de aplicaciones (pilotos) de machine learning y deep learning, sin tener que invertir en recursos hardware o del Cloud.

Con Colab se pueden crear notebooks o importar los que ya tengamos creados, además de compartirlos y exportarlos cuando queramos. Esta fluidez a la hora de manejar la información también es aplicable a las fuentes de datos que usemos en nuestros proyectos (notebooks), de modo que podremos trabajar con información contenida en nuestro propio Google Drive, unidad de almacenamiento local, github e incluso en otros sistemas de almacenamiento cloud, como el S3 de Amazon.

Empezando a trabajar con Colab

Para poder tener nuestro espacio de trabajo en Colab, tendremos que tener una cuenta de Google y acceder al servicio de Google Drive. Una vez dentro, le daremos a Nuevo > Carpeta, poniéndole el nombre que consideremos, por ejemplo: “MisColabs”.

Para crear nuestro primer Colab, entraremos dentro de la carpeta que hemos creado y daremos a Nuevo > Más > Colaboratory, a continuación se abrirá un nuevo notebook.

Otra opción sería ir directamente a Google Colab.

Lo siguiente sería cambiar el nombre del notebook, haciendo clic en el nombre del notebook (esquina superior-izquierda) o yendo al menú Archivo > Cambiar nombre

Una vez hecho esto, hay que establecer el entorno de ejecución: menú Entorno de ejecucción > Cambiar tipo de entorno de ejecucción, tras lo que se abrirá la siguiente ventana.

En la mismo indicaremos las versión de Python ( 2 ó 3) y la unidad de procesamiento que se usará para ejecutar el código del Notebook: CPU (None), GPU ó TPU.

Cargando los datos

A la hora cargar los datos, que se usarán en el notebook, existen varias opciones, pero aquí veremos tres:

Habilitar el acceso a nuestro Google Drive
Cargar los datos desde una instancia S3 de Amazon
Obtener los datos guardados en nuestro disco local

Para montar y habilitar el acceso a nuestro Google Drive, ejecutaremos el siguiente código:

from google.colab import drive

drive.mount('/content/gdrive')

Al hacer esto, nos pedirá un código de autorización y la url donde podemos conseguirlo. Al hacer clic en dicha url, nos llevará al proceso de validación de nuestra cuenta de Google y luego nos mostrará el código de acceso que tenemos que copiar y pegar, en el sitio correspondiente. A continuación hay que dar a Enter.

Tras hacerlo, lo validará y montará nuestro google drive en el notebook, apareciendo el siguiente mensaje: “Mounted at /content/gdrive”.

Para verlo, tendremos que hacer clic en la flecha que esta en el margen superior izquierdo e ir a la pestaña de archivos. En el veremos dos carpetas: sample_data (datos de ejemplo) y Google drive (nuestro Google drive).

Si lo que queremos es traernos los datos de una fuente externa, por ejemplo, una instancia S3 de Amazon, podremos hacerlo haciendo uso de comandos como: !wget y !unzip. Tal y como se muestra a continuación:

!wget -cq https://s3.amazonaws.com/content.udacity-data.com/courses/nd188/flower_data.zip

!unzip -qq flower_data.zip

Al ejecutar estás dos sentencias, el dataset flower_data, se cargará y estará disponible en nuestro notebook, podremos verlo en la pestaña de archivo.

Por último, si queremos cargar datos que tenemos en nuestro disco local, podremos hacerlo siguiendo los siguientes pasos:

1.- Dar al botón subir, que esta en el margen superior izquierdo de la pestaña de archivos.

2.- Buscamos el archivo que queremos subir, en mi caso el archivo winequality.csv que tengo el directorio ./Descargas/data, de mi disco duro local.

3.- Cuando le damos a abrir, nos aparecerá un mensaje de advertencia, diciendo que los datos se borrarán al finalizar la sesión, lógico al tratarse de un servicio gratuito. Simplemente es algo que tendremos que tener en cuenta a la hora de usar este servicio. Una opción sería guardar nuestros datos en Google Drive y evitar que se borren cuando cerremos nuestra sesión de Colab.

4.- El archivo que hemos cargado, aparecerá en la pestaña de Archivos.

Operaciones básicas

Con los archivos cargados, podremos realizar una operativa similar a la que haríamos desde una consola de linux. Se usan los mismos comandos, pero poniendo el símbolo de admiración delante. Así, podremos:

Listar con !ls
Ver el contenido de un archivo con !head, !tail o !cat
Mover con !mv
Copiar con !cp
Borrar con !rm
Además de muchas otras cosas que pueden hacerse desde una consola de Linux.

A continuación pongo un par de imágenes con algunos ejemplos, pero si queréis probar vosotros mismos, cosa que recomiendo, os dejo un enlace al notebook donde he ido haciendo todo esto

Nota: El archivo winequality.csv, lo podéis descargar desde el siguiente enlace.

Y hasta aquí esta introducción a los Google Colab, en la próxima entrega veremos como instalar librerías de Python, para luego usarlas en la construcción y entrenamiento de un modelo de clasificación.

Atrévete a formarte con nuestro Máster Experto en Data Science y Big Data

Una formación 100% online y adaptada a ti para que te conviertas en un experto métodos de minería y sus herramientas

Más información

Cookies de terceros

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_ga	ID utiliza para identificar a los usuarios	en 2 años
datahack.es	_gid	ID utiliza para identificar a los usuarios durante 24 horas después de la última actividad	en 20 horas
google.com	__Secure-3PAPISI D	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años
google.com	__Secure-3PSID	Estas cookies se utilizan para entregar anuncios más relevantes para usted y sus intereses.	en 2 años

Publicitarias

Propiedad	Cookie	Finalidad	Plazo
datahack.es	_fbp	Utilizado por Facebook para ofrecer una serie de productos tales como publicidad, ofertas en tiempo real de anunciantes terceros	en 3 meses
datahack.es	_gcl_au	Utilizado por Google AdSense para experimentar con la publicidad a través de la eficiencia de sitios web que utilizan sus servicios.	en 3 meses
google.com	APISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	HSID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SAPISID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SID	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en 2 años
google.com	SIDCC	Descargar ciertas herramientas de Google y guardar ciertas preferencias, por ejemplo, el número de resultados de la búsqueda por hoja o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la búsqueda de Google.	en un año
google.com	SSID	Descarga ciertas herramientas de Google y guarda ciertas preferencias, por ejemplo, el número de resultados de búsqueda por página o la activación del filtro SafeSearch. Ajusta los anuncios que aparecen en la Búsqueda de Google.	en 2 años

Editor	Política de privacidad
Facebook	https://www.facebook.com/about/privacy/
Google Analytics	https://privacy.google.com/take-control.html
Google	https://privacy.google.com/take-control.html
Google	https://safety.google/privacy/privacy-controls/

INTRODUCCIÓN A GOOGLE COLAB PARA DATA SCIENCE

Claves de contenido del artículo

Empezando a trabajar con Colab

Cargando los datos

Operaciones básicas

Suscríbete a nuestra Newsletter

Estamos para ayudarte con cualquier duda, pequeña o grande

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

INTRODUCCIÓN A GOOGLE COLAB PARA DATA SCIENCE

Claves de contenido del artículo

Empezando a trabajar con Colab

Cargando los datos

Operaciones básicas

Suscríbete a nuestra Newsletter

Estamos para ayudarte con cualquier duda, pequeña o grande

Déjanos tu contacto te llamamos.

Déjanos tu contacto te llamamos.

Déjanos tu contacto te llamamos.

Déjanos tu contacto te llamamos.

COMPLETA ESTE FORMULARIO Y TE ENVIAREMOS A TU CORREO ELECTRÓNICO EL PROGRAMA COMPLETO GET STARTED IN DATA ANALITYCS

COMPLETA ESTE FORMULARIO Y TE ENVIAREMOS A TU CORREO ELECTRÓNICO EL PROGRAMA COMPLETO MÁSTER EXECUTIVE INTELIGENCIA ARTIFICIAL Y BIG DATA

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.

Déjanos tu contacto
te llamamos.