06/09/2011

Administrador do Sistema - Que tipo de trabalho é esse?


No artigo oficial de Junho nós apresentamos a vocês vários funcionários e departamentos da CipSoft, mas deixamos de fora um departamento que é muito importante. É o departamento que assegura que o Tibia e nossos outros jogos estão rodando e que todos os empregados da CipSoft tenham computadores seguros e funcionando corretamente em suas mesas. Nós estamos falando sobre a nossa administração de sistema. Eles estão sempre em segundo plano, mas são os pilares de sustentação. Sem eles, nada iria funcionar.

Nossos administradores de sistema são um grupo muito alegre, que de bom grado compartilham o bolo que recebem anualmente no Dia do Administrador de Sistemas, toda última sexta-feira do mês de julho.


Nós community managers  nos sentamos para conversar com o administrador de sistema chefe, que foi muito gentil em compartilhar algumas informações internas conosco. Seu personagem in-game que ele usa para trabalhar chama-se Angarvazar. Talvez você possa vê-lo online de vez em quando em seu mundo. Se você avistá-lo, pode ter certeza de que o administrador de sistema em pessoa está verificando se tudo está funcionando bem como o planejado.

Leia mais para descobrir o que ele tinha a nos dizer...

Estrutura do Time

Antes de mais nada, perguntamos ao Angarvazar sobre o seu time. A administração de sistema para a CipSoft é composta por quatro funcionários.
O trabalho diário na administração de sistema pode ser dividido em duas partes diferentes. Uma parte diz respeito às responsabilidades dentro do escritório. Por exemplo: certificar-se de que todos os funcionários estão com os seus computadores seguros para trabalhar, manter a rede interna da CipSoft, atualizar software e por aí vai. Parte desta responsabilidade é também oferecer suporte para todos os funcionários. Por exemplo: se um de nós, community managers, enfrentar um problema com o computador em nossas mesas, pedimos ajuda a eles. Um dos quatro administradores de sistema é o principal responsável por esta parte do trabalho. No entanto, todos os outros podem ajudar se necessário.


(Clique para ampliar.)

Os outros três são os principais responsáveis para trabalhar junto aos nossos data centers, mantendo e configurando os nossos servidores ali. Eles são especializados em diferentes tipos de servidores, mas todos são qualificados em todas as áreas. O que é importante dizer é que eles não são designados para um produto específico da CipSoft, mas trabalham igualmente para todos os três produtos. Eles são um pouco como um pequeno prestador de serviços dentro e para a nossa empresa.

Tarefas

As tarefas habituais de nossos administradores de sistemas podem ser divididas em três categorias. Primeiramente, existem as tarefas diárias. Elas são o tipo de tarefa que aparecem regularmente, como fazer backups, olhar de modo geral o status do servidor no momento, checar se toda a parte de hardware está funcionando como o previsto e monitorar tudo o que está acontecendo em nossos servidores.
A segunda categoria consiste nas mais delicadas tarefas: lidar com problemas urgentes. A variedade de problemas que podem ocorrer é enorme. Há falhas de hardware, erros de softwares, problemas de rede, etc. Tudo o que pode interferir a operação de nossos serviços precisa ser reparado imediatamente. Existem problemas que nossa equipe pode resolver por si mesma, mas muitos outros são da responsabilidade de terceiros. Por exemplo, problemas nosso prestador de serviços. Também outros problemas de rede que acontecem completamente fora do data center podem influenciar nossos serviços de forma negativa, e nós realmente não podemos ajudar neste caso.
A terceira categoria é a de projetos. Nossos administradores de sistema estão constantemente tentando melhorar nossas configurações, softwares e hardwares. Por exemplo, quando é hora de implantar um novo hardware de servidor de jogo, eles começam um novo projeto que é dividido entre outras pequenas etapas de trabalho. Poderia ser assim:

Primeira etapa: checar ofertas existentes, compará-las e avaliá-las para descobrir qual o melhor produto que atende nossas necessidades.
Segunda etapa: comprar o hardware desejado.
Terceira etapa: testar o hardware e configurar o servidor.
Quarta etapa: implementar o servidor e adicioná-lo ao data center.

Os jogadores geralmente não percebem nada sobre este trabalho. Ele é feito completamente em segundo plano. Apenas quando o novo servidor está finalmente pronto, jogadores podem ver algumas consequências disso.

Projetos só podem ser realizados se não existirem outros problemas urgentes que precisam de prioridade e se todas as outras tarefas diárias já estiverem concluídas. Por isso, é possível que projetos sejam adiados. Manter os nossos serviços é sempre mais importante do que quaisquer mudanças futuras.


(Clique para ampliar.)

A grande dificuldade em criar um servidor é que você só consegue testar o seu trabalho dentro da infraestrutura fornecida. Como você provavelmente pode imaginar, nós não temos os nossos data centers clonados aqui no escritório de Ratisbona (Regensburg). Assim, há sempre um pequeno risco quando um novo servidor for ao ar, por exemplo. Embora tenha sido testado internamente e funcionado bem, ele tem que funcionar adequadamente na infraestrutura do data center também.
Não apenas a infraestrutura é diferente, mas também as condições. Quando um novo servidor é testado internamente, você não pode simular centenas de jogadores jogando - esses que são criativos e esses que experimentarão todo tipo de coisas que ninguém poderia antecipar. Então, obviamente, podem ocorrer erros, mesmo que a nossa equipe tente evitar que isso aconteça com o melhor de suas possibilidades.

Como todos os empregados da CipSoft, nossos administradores de sistema também tem um horário normal de trabalho. Porém, parte do seu trabalho também é um serviço de emergência que está disponível 24/7. Um monitoramento automático de nossos servidores avisa quando nosso serviço é perturbado, ou não está funcionando corretamente. Este dispositivo então notifica um dos administradores de sistema, que então deve checar o report de erro imediatamente, seja noite ou dia, dia útil, fim de semana ou até feriado.
Como você talvez já saiba, personagens como Lokana Aldora são parte desse monitoramento automático. Eles verificam a cada alguns minutos se todos os mundos estão funcionando corretamente. Se o login de um personagem desses não funcionar, é provável que os jogadores estejam enfrentando problemas também. Então se percebemos que Lokana não consegue conectar corretamente, um administrador de sistema começa a procurar pelo problema. O erro precisa ser identificado claramente, já que um problema de login pode ter muitas causas. Apenas quando temos certeza do que causou o problema e quais consequências isso gerou para os jogadores é que nós podemos começar a informar a comunidade.
Os quatro se revezam na responsabilidade deste serviço de emergência. Então, se algo der errado maciçamente, um de nossos administradores de sistema será o primeiro a saber. Pode ser um fato interessante que, até o ano de 2009, Guido, Stephan, Steve e Durin ainda revezavam-se para oferecer este serviço de emergência.

Infra-estrutura técnica do Tibia

Ao todo, temos cerca de 150 servidores que estão sob os cuidados de nossos quatro administradores de sistema. A maior parte são os 77 mundos do Tibia. Há também 12 servidores que são dedicados ao TibiaME. Além disso, existem 10 servidores de rede, 2 servidores de e-mail, 9 servidores de banco de dados, 5 servidores de login apenas para o Tibia, 5-6 servidores de testes para todos os produtos (para Tibia, você os conhece como Testa e Testera), e alguns servidores de substituição.
Nós trabalhos com uma filosofia de fail over. Isso significa que temos sempre alguns servidores prontos para uso, em caso de um outro quebrar e não seja possível a sua manutenção imediata. Isso nos dá tempo suficiente para corrigir o servidor com problema. Você precisa saber que arrumar um servidor pode levar até vários dias, como em casos onde é necessário substituir uma peça que demora a ser entregue.


(Clique para ampliar.)

O hardware restante são switches e firewalls, por exemplo. Sua configuração também é parte do trabalho dos nossos administradores de sistema.
Firewalls de hardware filtram o tráfego de rede e fornecem proteção contra muitos ataques DDoS. Você deve saber que a maioria desses ataques não têm qualquer efeito sobre os jogadores, devido aos firewalls. Infelizmente, alguns ataques DDoS conseguem chegar aos nossos servidores, no entanto. Neste caso, a cooperação com nossos prestadores de serviços é necessária. Este tipo de ataque precisa ser analisado cuidadosamente afim de encontrar medidas de combate para evitá-lo no futuro.

CipSoft usa data centers na Alemanha e nos Estados Unidos. Vários anos atrás nós tínhamos testado a utilização de um data center no Brasil com a esperança de fornecer um serviço sem lag para os nossos jogadores brasileiros. No entanto, infelizmente, a conexão de rede não era boa o suficiente e não ajudou a melhorar a situação para os nossos jogadores do Brasil.

Como você provavelmente pode imaginar, nossos administradores de sistema não estão em viagem aos Estados Unidos a cada nova semana para manter os servidores por lá. O trabalho com o data center no exterior funciona remotamente. Quanto mais próximo um data center é do nosso escritório, maior a chance de um dos nossos administradores de sistema ir até lá em pessoa. Assim eles podem lidar com muitas tarefas pessoalmente no data center na Alemanha.
Data centers  e vários fornecedores de servidores também oferecem diferentes serviços e suporte. Então nossos administradores de sistema não tem que estar sempre no local quando um HD parar de funcionar corretamente, por exemplo. Alguém trabalhando no data center pode substituí-lo para nós.

Então após toda essa conversa de negócios com Angarvazar, nós fizemos uma última pergunta que é frequentemente interessante para os jogadores de Tibia: os sys admins da CipSoft jogam Tibia? A resposta é sim. Angarvazar  orgulhosamente anunciou que o personagem mais alto no time de administradores de sistema é level 56!

Nós esperamos que vocês tenham gostado de toda informação que Angarvazar com tanta boa vontade compartilhou conosco. Achamos impressionante descobrir como tudo isso funciona internamente e o que os administradores de sistema fazem o dia todo.

Joguem com segurança!

Tibia.com / TibiaBR.com

Nenhum comentário:

Postar um comentário