Análise e Sumarização de dados do Kernel versão 3.12.2 edados de logs da Copa de 98
Author
mateus dias
Last Updated
11년 전
License
Other (as stated in the work)
Abstract
Review Article: A Workload Characterization Study of the 1998 World Cup Web Site
Review Article: A Workload Characterization Study of the 1998 World Cup Web Site
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% How to use writeLaTeX:
%
% You edit the source code here on the left, and the preview on the
% right shows you the result within a few seconds.
%
% Bookmark this page and share the URL with your co-authors. They can
% edit at the same time!
%
% You can upload figures, bibliographies, custom classes and
% styles using the files menu.
%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\documentclass[12pt]{article}
\usepackage{sbc-template}
\usepackage{graphicx,url}
\usepackage{subfigure}
%\usepackage[brazil]{babel}
\usepackage[utf8]{inputenc}
\usepackage{listings}
\lstset{
language=C++,
basicstyle=\ttfamily\small,
keywordstyle=\color{blue},
stringstyle=\color{verde},
commentstyle=\color{red},
extendedchars=true,
showspaces=false,
showstringspaces=false,
numbers=left,
numberstyle=\tiny,
breaklines=true,
backgroundcolor=\color{white!10},
breakautoindent=true,
captionpos=b,
xleftmargin=0pt,
}
\sloppy
\title{Análise e Sumarização de dados do Kernel versão 3.12.2 e
dados de logs da Copa de 98}
\author{Lucas Gonçalves Abreu\inst{1}, Mateus Gabriel Dias\inst{1}}
\address{
Graduando em Ciência da Computação - Departamento de Computação\\
Universidade Federal de Ouro Preto (UFOP)\\
Ouro Preto - Minas Gerais - Brasil
\email{\{lucasgabreu,matsgdias\}@gmail.com}
}
\begin{document}
\maketitle
\begin{resumo}
Este trabalho apresenta a caracterização da distribuição de arquivos
no código fonte do Kernel Linux (versão 3.12.2) e das requisições feitas à página
do Mundial de 1998 nos dias 4, 5 e 6 de Junho de 1998. Assim como a
comparação entre essas distribuições.
\end{resumo}
\section{Resenha Artigo: A Workload Characterization Study of the 1998 World
Cup Web Site}
A copa do mundo de 1998, realizada na França, foi o evento com maior cobertura da
mídia da história. O público que assistiu aos jogos pela TV foi estimado em 40 bilhões,
mais que o dobro da audiência dos Jogos Olímpicos de Verão que aconteceu em Atlanta
no ano de 1996. O site da copa do mundo de 1998 também obteve um número enorme de
visitantes, superando 1 bilhâo de acessos em cerca de 3 meses de uso.
O artigo, em sua essência, apresenta a caracterização do detalhamento da carga de
trabalho. Caracterização essa que tem um papel muito importante, visto que, feita de uma
forma correta passa a servir de referências e estudos para o futuro dos algoritmos que
tratam dessas situações.
O artigo compara os resultados que os pesquisadores obtiveram estudando a
caracterização da carga de trabalho do servidor web da Copa de 98, com outros resultados
obtidos anteriormente para determinar como as cargas de trabalho dos servidores
veem mudando ao longo do tempo. Além disso, a grande carga que o site da Copa de
98 teve nos permite prever o que pode acontecer aos servidores web do futuro, para que
assim possamos planejar e nos preparar para grandes demandas. Caracterização da carga
de trabalho de um servidor é apenas uma das medidas necessárias para a compreensão das
mudanças que ocorrem com o tráfego na web.
A Copa do Mundo é realizada uma vez a cada quatro anos e seu objetivo é determinar
a melhor seleção do mundo. Devido ao grande número de países que desejam
participar do torneio, uma eliminatória é realizada para selecionar as equipes que vão
disputar o título de melhor seleçãoo do mundo. Dos 172 países que participam das eliminatórias apenas 30 são selecionados para competir a Copa do Mundo, juntamente com o
país anfitrião, França, e o atual campão, Brasil.
O site da Copa de 98 contou com uma ampla rede de informações. Além de acessar
os pontos e as outras estatísticas de cada seleção em tempo real, o usuário também podia
contar com estatísticas e biografias dos jogadores, histórias das equipes, informações
sobre os estádios, fotos da partida, entrevistas com os jogadores entre outras coisas. Durante
o torneiro, 30 servidores foram utilizados. Toda a criação e atualização da página
ocorreu na França.
O conjunto de dados utilizado nesse estudo é composto de registro de acessos
(contador), recolhidos a partir de cada servidor utilizado no site da Copa do Mundo. Os
contadores de cada servidor foram arquivados diariamente em uma base de dados. Para
este estudo todos registros de acesso, desde 01 de maio até 23 de julho de 1998, foram
analisados.
Após os dados terem sido dados coletados, a primeira preocupação foi com o tamanho
dos arquivos dos contadores: 125 Gbytes no total, 14 Gbytes quando compactados,
a fim de fazer análises mais eficientes o arquivo foi convertido em um binário mais compacto.
Utilizando algumas estratégias envolvendo o arquivo de acesso binário, o tamanho
do arquivo foi reduzido para 25 Gbytes, 9 quando comprimido. Além disso, cada pedido
está agora numa estrutura de tamanho fixo, o que também ajuda a melhorar a eficiência
de nossas análises. Apesar da grande quantidade de dados que foram recolhidos por cada
dos servidores, uma série de informações interessantes ainda não está disponível.
A primeira análise examinou a versão de protocolo de transferência de hipertexto
(HTTP) suportado pelo cliente quando o mesmo solicita uma requisição. Como esperado,
verificou-se que é ainda HTTP/1.0 a versão utilizada pela maioria, 78,7 porcento. No
entanto, mais de 20 porcento do tráfego vieram de clientes que suportam HTTP/1.1. Os
dados mostram que a maior parte dos pedidos resultou em sucesso na transferência do
objeto. O sucesso nas transferências bem sucedidas foi responsável por quase todo o
conteúdo solicitado, 97, 86 porcento, transferidos a partir do site para o cliente.
Alguns dados mostram colapso nas respostas do tipo do arquivo que foi requisitado
pelo cliente. Para a maioria das respostas a extensão do arquivo foi utilizada para
determinar o tipo do arquivo, por exemplo, arquivos que terminam com .gif ou .jpg foram
colocados na categoria de imagens.
Os dados também mostraram que quase todos os requisitos dos usuários, 98,01
porcento, foram para o HTML, 9,85 porcento, ou arquivos de imagem, 88,16 porcento.
Uma característica similar foi observada nas primeiras cargas de trabalho. Os arquivos
HTML tiveram maior impacto do que os arquivos de imagens na quantidade de arquivos
transferidos ao site (38,60 porcento para os arquivos HTML e 35,02 porcento para as
imagens).
Desde o começo de maio até o inicio da Copa em junho, o tráfego do site estava
tranquilo, embora tenha começado a se intensificar antes do inicio do evento. No dia
em que a Copa começou, 10 de junho, o tráfego cresceu enormemente e esta marca foi
mantida por um certo tempo. O site se tornou rapidamente muito popular e manteve-se
assim por um período curto de tempo, após isso caiu em uma obscuridade profunda.
Embora o volume de tráfego diário ser muito inconstante ele sempre ficou maior do que
o volume de tráfego anterior ao começo do evento. No dia 30 de junho o site registrou a
sua maior ocupação, sendo essa maior do que 73 milhões de usuários.
Muitas variáveis afetavam a hora que o site tinha mais acessos. Uma delas era
que o site registrava maior número de usuários quando as partidas estavam acontecendo,
e o volume de tráfego diminuía quando as partidas acabavam. Esses picos representavam
sobrecarga de servidores em pequena escala. O volume de tráfego também era afetado
pelos times que estavam jogando no momento. As tradicionais potências do futebol,
como Brasil e Alemanha por exemplo, geravam um grande número de visitas ao site no
momento da partida, não só de brasileiros e alemães, como de outros fãs do bom futebol.
A diferença entre os fusos horários dos países envolvidos na Copa ajudaram o site a se
manter em pé. Se todos os usuários fossem acessar de um mesmo lugar, o site teria picos
enormes durante o dia, e teoricamente, pela noite e madrugada afora ficaria com pouco
tráfego.
O tráfego do site era muito baixo nos fins de semana, embora muitas partidas
terem ocorrido aos sábados e domingos. Os dados da carga de trabalho do site possuem duas características importantes
nos arquivos de referência: localidade temporal e concentração de referências. Localidade
temporal quer dizer que o arquivo de referência referenciado anteriormente venha a ser
novamente referenciado em um curto período de tempo. A heurística era baseada em
algoritmos de pilha. Para os dados de carga de trabalho coletados a pilha média era
muito menor do que os acessos a arquivos únicos. Isso indicava que o decrescimento da
localidade temporal nas cargas de trabalho é muito forte. O decrescimento da localidade
temporal era mais forte quando os usuários estavam focados em um só tema especifico,
por exemplo, o placar do jogo corrente.
Os estudos da segunda característica, baseado no foco de concentração de referências, constatou que existe um padrão n˜ao uniforme dos arquivos da web. Isso que
significa que existe um pequeno numero de arquivos em sites da web que são muito populares,
recebendo assim, a maioria das requisições provenientes daquele site, enquanto
muitos outros arquivos em sites da web quase não são acessados.
As análises de pico da carga de trabalho notaram facilmente que os picos mais
altos ocorriam quando as partidas de futebol estavam acontecendo. Foi analizado um
períoodo de superlotação que durou 15 minutos, durante este período aconteciam as
cobranças de penaltis que classificariam Argentina ou Inglaterra para a próxima fase do
torneio. Muitos outros dados foram coletados e contribuíram para a pesquisa. Este trabalho
foi de grande importância para todas as pessoas envolvidas com a área da computação.
O trabalho mostrou padrões de carga de trabalho nunca estudados antes, padrões estes
muito importantes para prévias de padrões futuros. Lendo este artigo ressalta-se a importância da computação nas nuvens (cloud computing), vendo que em 1998 tiveram que
montar 30 servidores espalhados em vários países para suportar um site que teria uma
imensidão de acessos durante apenas três meses. Com isso se gasta muito dinheiro investindo
em hardware que com pouco tempo de uso não terá mais utilidade. Muitos dos
temas abordados no artigo requerem estudos mais aprofundados para melhor serem entendidos
e trabalhados pelos pesquisadores.
\section{Sumarização dos Dados} \label{sec:firstpage}
Na Tabela 2 são apresentados alguns dados sobre a distribuição dos arquivos nos
dois conjuntos de dados avaliados, como: nº de arquivos, nº de tamanhos de arquivos únicos,
média do tamanho dos arquivos, variância no tamanho dos arquivos, desvio padrão,
coenficiente de variabilidade e mediana. Nas Tabelas 2 e 2 são exibidos os quartis da
distribuição e alguns percentis.
Através do coeficiente de variabilidade podemos notar que a distribuição do tamanho
dos arquivos do Kernel do Linux é mais comportada.
\section{Visualização dos Dados}
Nesta sessão os dados são apresentados em formas de gráficos, assim facilitando
a sua análise. Os tamanhos dos dados estão sendo representandos em potências de 10,
para tornar a análise melhor, dado que em escala linear os dados se concentravem em
pequenas regiões e tornava a análise incompreensivel. Podemos notar que a maioria dos
dados possuem tamanho entre 2ª e a 5ª potência de 10 em bytes.
\subsection{Histogramas}
Podemos observar que as distribuições dos tamanhos de arquivos são bem diferentes.
No Kernel do Linux a distribuição dos tamanhos dos arquivos em escala logaritmica
se comporta de forma suave e possue maior concentração entre a 3ª e a 5ª potência de 10,
como podemos observar na Figura 1. Enquanto na distribuição do tamanho das repostas
das requisições à página da Copa do Mundo, a distribuição seria bastante similar, se não
houve picos entre a 2ª e a 3ª potência de 10, como podemos ver na Figura 2.
\subsection{Função Densidade de Probabilidade - PDF}
Dado que a PDF é o histograma contínuo mapeado como uma função de probabilidade,
o comportamento é o mesmo que do histograma como podemos observar nas
Figuras 3 e 4. Na Figura 5 podemos analisar a diferença entre as curvas das duas PDFs.
As Figuras 6 e 7 são as CDFs das distribuições, que é a integral das PDFs, e
representa a probabilidade do tamanho estar abaixo daquele valor, e seu comportamento
é resultado delas. Já as Figuras 8 e 9 são as CCDFs, que é a CDF vista de trás pra frente
com relação ao eixo x.
\subsection{Função Distribuição Acumulada - CDF}
\subsection{Função Distribuição Acumulada Complementar - CCDF}
\section{Amostragem}
Uma amostra que contém 5% do total dos dados foi selecionada aleatoriamente
dos dois conjuntos de dados. E abaixo são apresentados os dados da estimativa do total,
utilizando intervalo de confiança, os dados são apresentados abaixo.
Na Tabela 4 podemos analisar a média das amostras, e os intervalos de confiança
com 90%, 95% e 99% de confiança. As médias das amostras estão bem próximas das
médias do todo, e os intervalos no caso dos arquivos do Kernel do Linux não se afastam
muito da média. Já os intervalos dos arquivos da Copa do Mundo se afastam muito
da média, isso é resultado a própria distribuição, com variância muito alta, além de ser
bimodal.
\section{Anexos}
\begin{table}[ht]
\centering
\includegraphics[width=0.6\textwidth]{tabela1.jpg}
\caption{Dados Gerais}
\end{table}
\begin{table}[ht]
\centering
\includegraphics[width=0.6\textwidth]{tabela2.jpg}
\caption{Quartis}
\end{table}
\begin{table}[ht]
\centering
\includegraphics[width=0.6\textwidth]{tabela3.jpg}
\caption{Percentis}
\end{table}
\begin{figure}[ht]
\centering
\includegraphics[width=0.6\textwidth]{figura1.jpg}
\caption{Histograma Linux Kernel }
\end{figure}
\begin{figure}[h]
\centering
\includegraphics[width=0.6\textwidth]{figura2.jpg}
\caption{Histograma France 98 }
\end{figure}
\begin{figure}[b]
\centering
\includegraphics[width=0.6\textwidth]{figura3.jpg}
\caption{PDF France 98 }
\end{figure}
\begin{figure}[ht]
\centering
\includegraphics[width=0.6\textwidth]{figura4.jpg}
\caption{PDF World Cup }
\end{figure}
\begin{figure}[ht]
\centering
\includegraphics[width=0.6\textwidth]{figura5.jpg}
\caption{Comparação entre as PDFs }
\end{figure}
\begin{figure}[ht]
\centering
\includegraphics[width=0.6\textwidth]{figura6.jpg}
\caption{CDF Linux Kernel }
\end{figure}
\begin{figure}[t]
\centering
\includegraphics[width=0.6\textwidth]{figura7.jpg}
\caption{CDF World Cup}
\end{figure}
\begin{figure}[ht]
\centering
\includegraphics[width=0.6\textwidth]{figura8.jpg}
\caption{CCDF Linux Kernel }
\end{figure}
\begin{figure}[ht]
\centering
\includegraphics[width=0.6\textwidth]{figura9.jpg}
\caption{CCDF World Cup}
\end{figure}
\begin{table}[ht]
\centering
\includegraphics[width=0.6\textwidth]{tabela4.jpg}
\caption{Percentis}
\end{table}
\begin{figure}[ht]
\centering
\includegraphics[width=1.5\textwidth]{cod1.jpg}
\end{figure}
\begin{figure}[ht]
\centering
\includegraphics[width=1.2\textwidth]{cod2.jpg}
\end{figure}
\begin{figure}[b]
\centering
\includegraphics[width=1.2\textwidth]{cod3.jpg}
\end{figure}
\begin{figure}[h]
\centering
\includegraphics[width=1.2\textwidth]{cod4.jpg}
\end{figure}
\end{document}