Articles
Mise à jour de notre serveur

Mise à jour de notre serveur

CHESScom
| 25 | Autres

Chère communauté de Chess.com,

Le 23 janvier, nous vous avons fait part de l'ampleur de l'actuel boom des échecs et du défi que cela représentait pour notre entreprise, en particulier pour notre "Serveur de jeu en direct" sur lequel les parties sont disputées. Ce phénomène ne fait - pour notre plus grand bonheur - que s'amplifier depuis.

Le vendredi 3 février, nous avons enregistré un nombre record de 403 000 nouveaux membres sur Chess.com. C'est époustouflant et excitant mais aussi en un sens douloureux. Nous voulons en effet célébrer pleinement cet essor du roi des jeux, mais pour être honnête, nous souffrons des difficultés rencontrées par nos serveurs pour gérer un tel trafic aux heures de pointe. Nous sommes vraiment, vraiment désolés pour les problèmes subis par bon nombre d'entre vous ces dernières semaines.

Heureusement, nous avons le sentiment de voir la lumière au bout du tunnel et nous souhaitons faire le point sur ce que nous avons commencé à mettre en place ces deux dernières semaines. Toutefois, nous n'avons pas encore atteint le niveau de stabilité auquel nous aspirons mais nous faisons tout pour y parvenir.

Que s'est-il passé ?

  • Le trafic sur Chess.com a plus que doublé au cours des derniers mois. Rien qu'en janvier, le trafic est passé de 7 millions d'utilisateurs quotidiens à plus de 11 millions d'utilisateurs quotidiens.

Cela s'explique par de nombreuses raisons, notamment le fait d'être très bien classé (voire n°1) sur les app stores, l'organisation d'un grand nombre d'événements, l'incroyable communauté échiquéenne qui partage son enthousiasme sur les réseaux sociaux, les créateurs d'échecs qui proposent un contenu de grande qualité et nos fameux "Chats botés". 

  • Ce trafic a entraîné des difficultés importantes pour nos serveurs et notre infrastructure. Les deux principaux problèmes rencontrés par beaucoup sont les erreurs 502, qui se produisent lorsque notre base de données est surchargée, et les déconnexions de la zone de jeu qui se produisent lorsque notre serveur est surchargé.
Le nombre de nouveaux membres par jour sur Chess.com.
L'augmentation du trafic entre décembre 2022 et janvier 2023.

Qu'avons-nous fait ?

Pour faire face à une telle augmentation du trafic, il ne suffit pas d'identifier le "bouchon" et de le supprimer. De nombreux composants de l'infrastructure matérielle et du cloud doivent être mis à l'échelle et diverses optimisations doivent être effectuées. Voici quelques-unes des mesures que nous avons prises au cours des deux dernières semaines.

  • Nous avons acheté pour environ 2 millions de dollars de matériel (serveurs web, serveurs de bases de données, nouveau serveur d'échecs en direct, équilibreurs de charge et machines de services supplémentaires). Le matériel le plus important est maintenant installé, mais d'autres ajouts sont à venir dans la semaine qui suit. Bien que 2 millions de dollars semblent constituer une somme colossale, ce serait beaucoup plus (et inabordable) si Chess.com était hébergé entièrement dans le cloud.
  • Nous avons dissocié notre infrastructure de base de données aussi rapidement que possible. De nombreux progrès ont été réalisés dans ce domaine, car de nombreuses tables MySQL ont été divisées et notre code a été remanié pour pointer vers ces nouvelles tables.
  • Nous avons repéré et corrigé de nombreux problèmes logiciels qui n'étaient pas apparents avant d'atteindre cette échelle.
  • Nous avons découvert que l'une des connexions entre notre centre de données et l'un de nos fournisseurs cloud (nous utilisons le cloud dans certains cas !) avait atteint sa capacité maximale et semblait perdre de la vitesse lorsque nous connaissons des pics de trafic.
  • Nous avons appliqué un plafond au nombre de membres non premium pouvant accéder à notre serveur en direct pendant les heures de pointe.
  • Nous avons réduit ce plafond au fur et à mesure que les mesures s'améliorent et nous prévoyons que le plafond sera bientôt entièrement levé.

  • Tout au long de ce processus, tous les ingénieurs de Chess.com pouvant contribuer, travaillent sur ces questions.

Qu'avons-nous réalisé ?

Il ne s'agit pas d'une mise à jour "Mission accomplie". Nous faisons le maximum pour atteindre le niveau de performance auquel nous aspirons. Cela dit, nous avons réalisé des améliorations mesurables que nous souhaitons partager.

  • Nous avons réduit de plus de 90 % nos erreurs 502 de "surcharge de la base de données".
  • Nous avons également réduit de plus de 90 % la fréquence des déconnexions du serveur en direct et facilité la reconnexion en cas de déconnexion.

Que devons-nous encore faire ?

Dans les mois à venir, nous continuerons à apporter de nombreuses améliorations à nos serveurs qui, nous l'espérons, continueront à avoir un impact positif pour nos membres. Voici quelques-uns des changements que nous pouvons partager.

  • Nous installons tout le matériel en train d'être livré afin de continuer à augmenter notre capacité.
  • Toute notre équipe d'ingénieurs reste absolument concentrée sur la résolution de tous les problèmes restants, y compris le travail sur les bases de données, l'optimisation des requêtes et l'évolution vers plus de services.
  • Nous allons travailler avec notre centre de données et notre fournisseur cloud pour résoudre leurs contraintes.
  • Nous sommes en train de réécrire notre serveur de jeu en direct afin de pouvoir passer d'un serveur unique à un service de serveurs multiples et adaptatifs. Actuellement, nous ne faisons tourner qu'un petit nombre de parties sur ce service (les parties des invités et la plupart des parties non classées) pendant que nous testons, réglons et développons les fonctionnalités. Cependant, cette semaine nous commençons à tester les parties classées sur ce service également, et nous espérons que bientôt nous hébergerons la majorité des parties de Chess.com à partir d'un service évolutif plutôt que d'un méga serveur.

Que faisons-nous pour y remédier ?

Nous savons que beaucoup d'entre vous, y compris les membres premium, ont perdu des parties à cause d'une déconnexion ou n'ont pas pu accéder à un service pour lequel ils payent. Nous voulons remédier à cette situation.

  • Cette semaine, nous allons mettre en place un système de remboursement automatique des points perdus en raison de l'instabilité des serveurs. Il s'agit d'un plan de secours à court terme pour les personnes concernées, pendant que nous nous attaquons aux problèmes de fond.
  • Nous rendons l'accès aux Batailles de Problèmes gratuit et illimité à tous les membres pour le reste du mois de février.

  • Pour nos membres premium, ce mois-ci, nous ajouterons sur Chess.com des cours signés par Magnus Carlsen, Peter Svidler, Hou Yifan et d'autres stars en provenance de la bibliothèque de Chess24.

Selon les mots de notre PDG Erik (attendez, c'est moi... je suis en train d'écrire cet article...), "Je ressens du fond du cœur trois choses chaque jour : 1. une profonde tristesse chaque fois que je vois la frustration de nos membres lorsque le serveur est instable, 2. une grande fierté pour tout ce que notre équipe a accompli en si peu de temps compte tenu du caractère imprévisible des événements, et 3. l'espoir et la confiance que la situation va s'améliorer largement très bientôt."

Mieux connaître CHESScom
Diffusez des tournois en direct grâce à la page évènements de Chess.com !

Diffusez des tournois en direct grâce à la page évènements de Chess.com !

Fêtez la Journée Internationale des Échecs avec notre Arène de 24 !

Fêtez la Journée Internationale des Échecs avec notre Arène de 24 !