Utilizando el sistema de ficheros de Google en nuestra computadora

La compañía Cloudera ha lanzado una utilidad para GNU/Linux que permite utilizar en nuestra computadora el mismo sistema de ficheros distribuido que utilizan grandes de la informática como Google o Yahoo! en sus centros de datos.

Guillem Alsina ([email protected]) – Aunque los intereses y necesidades de una gran empresa con millones de datos para tratar, difieren ostensiblemente de los que pueda tener un usuario particular o una pequeña empresa, es obvio que ambos perfiles buscarán productos robustos, fiables y probados. Y es obvio también que normalmente, aquello que tiene estas características y es válido para la gran empresa lo será también para la pequeña aunque utilizado en una menor escala. Este puede ser el caso de Hadoop, un sistema de ficheros distribuido utilizado en los centros de proceso de datos de compañías de la talla de Google, IBM, Last.fm, Facebook o Yahoo! y que ahora se nos pone más a tiro gracias a la iniciativa de Cloudera.

Un sistema de ficheros distribuido consiste a grandes rasgos en un mecanismo de software que permite gestionar los ficheros almacenados en diversos soportes informáticos (sistema de ficheros) con la particularidad de que facilita el tratamiento de los sistemas de almacenamiento remotos como si fueran locales (de ahí la palabra distribuido). Por ejemplo, si en un sistema operativo que utilice un sistema de ficheros convencional queremos hacerle visible al usuario una unidad de disco situada en otra ciudad, tendremos que “montarla” de alguna forma en el sistema, indicándole que es una unidad remota, lo que la dotará de algunas particularidades.

En un sistema de ficheros distribuido, la localización es indiferente al usuario, que ve a todas las unidades como si estuvieran físicamente conectadas a la computadora, siendo transparente el hecho de si están al lado de la máquina o en otro continente y se accede a ellas a través de Internet. Esto puede ser así gracias a la filosofía Unix de montaje de sistemas de ficheros en directorios (mientras que Windows les asigna una letra a cada uno), pero al mismo tiempo superando sus limitaciones técnicas.

Hadoop es un proyecto lanzado por la fundación Apache y basado en el esquema MapReduce desarrollado por Google para sus centros de datos. Escrito en Java, puede instalarse en sistemas GNU/Linux para trabajar con él.

Es precisamente esta posibilidad la que ha aprovechado Cloudera (cuyo nombre parece inspirarse claramente en la filosofía del Cloud Computing) para crear una distribución de Hadoop que puede configurarse y descargarse libre y gratuitamente desde su sitio web para instalarse sobre un sistema GNU/Linux existente.

Por el momento, y según informan en su página web, esta distribución de Hadoop ha sido probada con éxito en varios derivados de Red Hat, como pueden ser Fedora Core 8, CentOS 5 o RHEL 5.

La distribución consiste en un paquete RPM que se descarga desde el sitio web de Cloudera después de haber seguido un proceso de configuración en línea, aunque también puede descargarse directamente y configurarse a mano.

Hadoop no es un producto nuevo, sino uno que ya lleva tiempo en el mercado y se ha ganado la confianza de grandes compañías por su fiabilidad y robustez. Por lo tanto, no estaremos haciendo “experimentos con gaseosa” si nos decidimos a probarlo y a introducirlo en nuestros servidores. Cloudera, la compañía que ofrece este producto, es joven, habiendo iniciado su actividad a finales del año pasado ofreciendo consultoría y formación sobre Hadoop.

Copyleft 2009 www.imatica.org
Esta obra se encuentra sujeta a la siguiente licencia:
La difusión, reproducción y traducción de este texto se permite libremente en cualquier medio o soporte con las únicas obligaciones de mantener la presente licencia e incluir un enlace o referencia a la página en la que se encuentra el original dentro del servidor
www.imatica.org . En medios audiovisuales se requiere la cita al medio www.imatica.org

[tags]Cloudera,Google[/tags]