User Tools

Site Tools


check_health

#Check Health / monitoring status page

# ENGLISH:

The site ( [picalike.com](http://picalike.com/) ) is hosted by corpex, more specifically at [web02.picalike.corpex-kunden.de](http://web02.picalike.corpex-kunden.de/), the procedure to put the site back online, in case it goes down, is also done by corpex.

# Check Health - container that checks the status of the picalike website and other company applications.

Repository = [https://git.picalike.corpex-kunden.de/otavio/CheckHealthPicalikehttps://git.picalike.corpex-kunden.de/otavio/CheckHealthPicalike%5D(https://git.picalike.corpex-kunden.de/otavio/CheckHealthPicalike)

local service = [sg03.picalike.corpex-kunden.de](https://sg03.picalike.corpex-kunden.de/)

Check Health is an application running on sg03 ( [sg03.picalike.corpex-kunden.de](https://sg03.picalike.corpex-kunden.de/) ) that checks the status of applications through requests, developed in python. Its operation is based on making requests automatically, thus checking the status of the application based on the response obtained by the request. For example, when making the request and receiving the code 200, the application understands that everything is ok, and if the site does not respond or responds to an error code, the application understands that something is wrong, after checking once more and receiving the error code the second time, an alert is sent to slack and picalike Monitoring.

If the container alerts about a failure on the Picake website, the alert can be communicated to the company's Ops sector, which will verify and contact corpex, in addition to solving the problem, understanding what happened.

# Ant alert ghost

It is another application that works in a different container, however, together with the Check Health container. Its function is to prevent false alerts from being alerted.

Some applications may take a little longer than others to respond, if there is a problem with the request or any kind of delay in the response, the check health container sends the information to alert_for_checked ( influxDB ). This “semi-alert” is removed if the check health container sends another request to the application, and receives an ok ( code: 200 ), this “semi-alert” is removed from alert_for_checked. If this application remains in alert_for_checked, the ant_aler_ghost container searches alert_for_checked every 5 minutes, if it finds any items, it sends an alert to slack ( web-alert ) and to monitoring picalike ( erroralerts ).

# List:

The check health container follows a list of items which must be checked. The list of items for the container can be found at Monitoring Picalike ( [http://sg03.picalike.corpex-kunden.de:5000/checkHealth%5D(http://sg03.picalike.corpex-kunden.de:5000/checkHealth) ).

In this page it is possible to add and remove items from the list, being able to add new items to be checked and items that no longer need to be monitored. On the same page there is an on/off system for the items in the list, making it possible to turn off an item, to prevent alerts for that item from being sent in case of maintenance.

# PORTUGUES:

O site ( picalike.com ) está hospedado na corpex, mais especificamente no [web02.picalike.corpex-kunden.de](http://web02.picalike.corpex-kunden.de/), o procedimento para recolocar o site no ar, caso ele venha cair também é feito pela corpex.

# Check Health - container que verifica o status do web-site da picalike e outras applicação da empresa.

Repositorio = [https://git.picalike.corpex-kunden.de/otavio/CheckHealthPicalikehttps://git.picalike.corpex-kunden.de/otavio/CheckHealthPicalike%5D(https://git.picalike.corpex-kunden.de/otavio/CheckHealthPicalike)

local service = [sg03.picalike.corpex-kunden.de](https://sg03.picalike.corpex-kunden.de/)

O Check Health é aplicação que está rodando no sg03 ( [sg03.picalike.corpex-kunden.de](https://sg03.picalike.corpex-kunden.de/) ) que verifica o status das aplicaçoes por meio de requests, desenvolvido em python. Seu funcionamento é baseado em fazer requisições automaticamente, verificando assim o status da aplicaçao baseado na resposta obitida pelo request. Por exemplo, ao fazer a requisição e receber o codigo 200, a aplicação entende que está tudo ok, e caso o site nao responda ou responda algum codigo de erro, a aplicação entende que tem algo errado, após checkar mais uma vez e recebendo o código de erro pela segunda vez, é enviado um alerta para slack e para o Monitoring picalike.

Caso o container alerte sobre alguma falha no site da Picake, o alerta pode ser comunicado ao setor Ops da empresa, e que ira verificar e contactar a corpex, para alem de resolver o problema, entender o que aconteceu.

# Ant alert ghost

É uma outra aplicação que trabalhar em um container diferente, porém, junto ao container Check Health. A sua função é evitar com que seja alertado algum alerta falso.

Algumas aplicações podem demorar um pouco mais do que outra para respoderem, caso haja um problema com a requisição ou qualquer tipo de demora na resposta, o container check health envia as informaçoes para o alert_for_checked ( influxDB ). Esse “semi-alerta” é removido caso o container check health envie outro request para a aplicação, e receba um ok ( code: 200 ), esse “semi-alerta” é removido do alert_for_checked. Caso essa aplicação permaneça no alert_for_checked o container ant_aler_ghost faz uma busca no alert_for_checked de 5min em 5min, caso encontre algum item, envia um alerta para slack ( web-alert ) e para monitoring picalike ( erroralerts ).

# Lista:

O container check health segue uma lista de itens os quais deve ser checkados. A lista de items para o container encontra-se no Monitoring Picalike ( [http://sg03.picalike.corpex-kunden.de:5000/checkHealth%5D(http://sg03.picalike.corpex-kunden.de:5000/checkHealth) ).

Nessa paginina é possivel adicionar e remover itens da lista, podendo adicionar itens novos a serem checkados e items que não precisam mais ser monitorados. Na mesma pagina há um sistema de on/off para os itens da lista, possibilitando desligar algum item, para evitar que alertas para aquele item seja enviado em caso de manutenção.

check_health.txt · Last modified: 2024/04/11 14:23 by 127.0.0.1