EnqueueZero Techshack 2019-03

大家好,这是 EnqueueZero Techshack 第 2019-03 期。

Google Cloud Platform 出现了一次比较严重的事故,用户们不能新建 application 了。原因是生产环境和验证环境的配置格式不太一样。这是又一起由于配置变更失误导致的事故, 事实上,这类型的事故占比一直是最高的, status.cloud.google.com。 关于上线,我们要清查的要点太多了,medium.com 这篇文章列出了不少,非常值得借鉴并更新我们的工作流。

Kafka 如何确保只处理了一次消息呢?方法很简单:实现事务。 dzone.com

Resilient 的软件挑战主要在于理解业务,理解分布式系统的不确定性,并持续改进软件及流水线。 infoq.com; 去年发过的断路器和重试的两种方法的对比的文章,今年作者出了第二篇,谈论了混合使用两种策略。 part 1 | part 2。而这篇 medium.com 的文章通过他们的级联失效事故,探讨了一些分布式系统的实践 - 配置多个小集群优于一个大集群。

关于如何写好一个程序,SICP 无疑是一本好书。这本 Composing Programs 不要错过。它基于 SICP 的思路来组织,但是使用了 Python 作为讲解的语言。上次见到这个项目的时候作者还只是一个构想,很开心看到离成书更进一步了。

关于 Kubernetes, 本周社区的热门讨论帖子是为什么 Kubernetes 的存储不简单。 softwareengineeringdaily.com。因为存储不像应用程序想停就停,想摧毁重建就重建,毕竟数据都在上面。存储需要的高度的稳定,可以使用云服务,也可以用 Ceph 这种应用。另外一篇文章是 Tumblr 开源了一系列配置的帮助工具,帮忙配置 sidecar,configmap,secrets。最后,一篇 cncf.io 的文章讲述了 Kubernetes 的安全最佳实践 - 要更新到新版本,开启 RBAC,等等。

关于自动化,blogs.dropbox.com 介绍的这个基于 SQLAlchemy 的队列工具,试图解决数据中心的运维自动化。

Kia ora! I am the creator of Enqueue Zero (https://enqueuezero.com), a site that explains code principles to Developers/DevOps/Sysadmins. This site is updated under a single man team since 2018. The `EnqueueZero Techshack` series is comprised of a bunch of interesting posts I wrote or found on the Internet. More importantly, I hope these posts would please you.

Please follow Twitter account @enqueuezero for the updates. Happy exploring!