segunda-feira, 20 de agosto de 2012

Já ouviu falar em Hadoop??


          Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. Foi inspirado pelo MapReduce e GoogleFS. Trata-se de um projeto de alto-nível da Apache que vai sendo construído por uma comunidade de contribuidores utilizando a linguagem de programação Java. AYahoo! tem sido o maior contribuidor do projeto, utilizando-o intensivamente no seu negócio.Sendo mais especifico o Hadoop é uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS).
O HMR é um spinoff do MapReduce, software que Google usa para fazer aquela magica de acelerar as pesquisas endereçadas ao seu buscador. O HDFS é um sistema de arquivos distribuidos otimizados para atuar em dados não estruturados e é tambem baseado na tecnologia do Google, neste caso o Google File System. Existe também o Hadoop Common, conjunto de bibliotecas e utilitários que suportam os projetos Hadoop. Na pratica, para que o HMR processe os dados, eles devem estar armazenados no HDFS.
          O Hadoop é um projeto Open Source, com licenciamento Apache. Diversas empresas vem contribuindo com código para seu desenvolvimento como a Yahoo, Facebook,IBM dentre outras. Em torno do código base, surgem as distribuições, como Cloudera (www.cloudera.com) e DataStax (http://www.datastax.com/brisk), que agregam valor com utilitários e serviços de suporte e educação, no mesmo modelo das distribuições Linux. Interessante que a distribuição da DataStax, chamado de Brisk, substituiu o HDFS por um sistema de arquivos distribuidos baseados no software NoSQL Cassandra, chamado agora de CassandraFS.

           Tá contribuir é uma coisa mas, quem usa o Hadoop? Existem os casos emblemáticos como Facebook, Yahoo, Twitter e Netflix (na nuvem da Amazon), mas também já começamos ver seu uso em ambientes corporativos "brick-and-mortar". Recentemente uma pesquisa mostrou que pelo menos umas 20 empresas da lista da Fortune 1000 assumiram publicamente que usam Hadoop de alguma forma. A adoção do Hadoop em aplicações analíticas corporativas como as ofertadas pela IBM vão ajudar na sua disseminação. Eu não sei se vocês se recordam mas, quando a IBM anunciou seu apoio ao Linux, em 2001, o Linux passou a ser visto sob outra ótica pelo ambiente corporativo.

O Hadoop é um assunto muito interessante, mas, muito extenso requer um estudo com carinho. Apesar de não ser um "lançamento" resolvi postar porque percebi que algumas pessoas ainda não conheciam e é um tema cada vez mais importante no mercado de TI. Bem fica ai mais um deixa para um bom estudo. 

Abaixo mas uma dica do Hadoop um vídeo da Patrícia Florissi, gostei muito do vídeo, ela é sinistra.






Nenhum comentário:

Postar um comentário