Framework de Big Data
Autor: Mariana Araújo Pereira , Fabiano Berlinck Neumann , Alessandra Maciel Paz Milani , Daniel dos Santos Brandão , Roque Maitino Neto
LIVRO IDEAL PARA
Alunos de graduação em Big data e Inteligência Analítica
SOBRE O LIVRO
O armazenamento de dados é um grande desafio nos dias atuais, pois há um volume cada vez maior de dados sendo utilizado e salvo, o que exige grande capacidade de armazenamento. Algumas aplicações e determinados sistemas específicos para lidar com o alto fluxo de dados são discutidos nesta obra, tais como Spark Streaming, Flink, Storm e Hadoop. Bancos de dados, como o NoSQL, também são abordados aqui. Tais conhecimentos - e muitos outros discutidos neste livro - são fundamentais para o profissional atuante na área de Tecnologia da Informação.
Resumo
As características inerentes ao big data exigem frameworks específicos para que os dados sejam transformados em valor. Velocidade, volume e variedade representam os aspectos de big data mais reconhecidos.
Quanto à velocidade, os dados são produzidos de forma constante, e são necessárias aplicações específicas para lidar com o alto fluxo (data streaming). Aplicações da Apache, como Spark Streaming, Flink e Storm são exemplos de sistemas desenvolvidos para auxiliar no tratamento de dados em tempo real. O volume, representado pela imensa quantidade de dados gerados, exige sistemas de arquivos distribuídos, como HDFS (Hadoop). Esses sistemas auxiliam na redução de custos e aumentam a escalabilidade, pois permitem a criação de clusters de computadores com hardware de baixo custo. Em um cluster Hadoop, os dados são replicados de acordo com uma escala muitas vezes igual a 3 (isso significa que cada pedaço de dados estará armazenado em três nós diferentes de um cluster). Se um nó falhar, ainda teremos os mesmos dados em outros dois, e o sistema irá se reajustar para que uma terceira réplica seja criada novamente. Ou seja: hardware de baixo custo tende a falhar, mas um sistema de arquivos distribuído específico para big data resolve o problema, mantendo réplicas para os dados.
Ambientes de big data armazenam dados variados, como dados estruturados, semiestruturados e não estruturados. Nos últimos anos, surgiram os bancos de dados NoSQL (Not Only SQL), que facilitam a manipulação de dados estruturados e semiestruturados. O banco MongoDB, por exemplo, armazena dados em formato de documentos; o Neo4j trabalha com grafos; e o Apache Cassandra armazena dados em formato de colunas. Para dados não estruturados, o HDFS ainda é a opção mais utilizada.
Outros “Vs” também são reconhecidos por caracterizar big data, como visibilidade, variabilidade, vulnerabilidade, veracidade, vagueza e visualização — a qual é de grande importância para estudantes da área. Big data envolve dados que não entendemos ou cuja extração de insight é impossível sem apoio de ferramentas e técnicas de visualização. Neste contexto, é essencial saber trabalhar com linguagens de programação como R e Python, além de sistemas como Tableau, que permite o desenvolvimento simplificado de visualizações de dados.
Este livro abordará tais conteúdos, introduzindo os principais frameworks para armazenamento, processamento e visualização de dados em big data. Existem centenas de possibilidades de combinações para a criação de um ambiente de big data, e, nesta obra, você estudará sobre os frameworks mais utilizados.
Referência
PEREIRA, M. A.; et al. Framework de Big Data. Porto Alegre: Sagah, 2019.
Informações técnicas
eBook
Formato ePDF
Páginas 212
ISBN 9786556900803
Ano 2019
Equipe técnica
Júlia Mara Colleoni Couto, Mestra em Ciência da ComputaçãoEspecialista em Gestão de ProjetosBacharel em Sistemas de Informação
Sumário
Particionamento de dados
Sharding
Arquiteturas de hardware/software de big data
Frameworks que utilizam sharding como forma de distribuição
Frameworks de big data: uma visão geral
Aplicações simples utilizando frameworks de big data
Stream de dados: definição e fontes
Overview de frameworks de stream de big data
Frameworks de armazenamento de dados de big data
Tipos de dados não estruturados e principais usos
Frameworks de armazenamento semiestruturados
Frameworks de armazenamento não estruturados
Visualização de dados em big data
Data storytelling
Frameworks de visualização de dados
Frameworks de visualização de dados de big data