在日常我们上完线后不代表万事大吉,如果出现了线上Bug,那可能你会被一群人围观现场直播改代码。尤其面对不懂前端的领导,前端抛出了异常,很容易找到前端来查报错原因。那如何快速定位问题?以及在风平浪静没有暴露出问题前如何去监控异常?
今天带来的这篇文章将为你带来详细的解决过程。
那是一个看似寻常的上线日,我们的项目上线了一个引流的需求,效果非常显著,pv几乎翻了一倍,但是,异常也是几乎翻了一倍。。。
不过在我们看到群里的报错以后,发现几乎都是由于用户的浏览器、网络波动等外部因素导致的报错,所以我们就不是太当一回事了,但是我们都忽略掉了群里的后端老板,他看不懂这些异常,在群里问:“为什么会有这么多的错误?我们必须要找出原因,想办法解决它们。” 尽管我们很努力地去解释,这些大多数都是无效异常,无需过度关注,但我们老板的疑惑并没有消除,甚至定了一个kr:__完善异常监控能力,从前端开始做起__。
于是,既然老板都发话了,再加上咱有一颗勇于探索的心,我便揽下了这个活,这篇文章就此诞生。接下来我将通过类似日记的形式,记录自己在探索异常监控旅程中的每一步。如果在阅读过程中有任何问题,希望得到各位专业大佬的指导,非常感谢~
首先,我确定自己要做的就是 __过滤掉无效异常,无效异常无需报警__,只有那种因为我们业务代码导致的异常,才需要报警。不然的像现在群里天天报警,大家都已经懒得去关注了,怕最后跟狼来了的故事一样,真遇到问题了也没发现。
❝关于无效异常
❞
「第三方错误」:这些错误由第三方脚本或库引起,以代码逻辑无关。例如,来自广告脚本、统计代码、或者第三方插件的错误。这些错误不会对代码产生直接影响,但是会带来很多错误。 「网络错误」:一些用户可能会遇到网络问题,导致某些请求失败,或者无法加载某些脚本文件。这可能会引发一些异常,但这些异常往往是暂时的,而且对调试代码没有太大帮助。 「废弃或不支持的浏览器引发的错误」:如果用户正在使用一个废弃或者不再被支持的浏览器版本,可能会引发一些错误。这些错误没有太大帮助,因为它们是由浏览器的问题引起的,而非代码问题。
我首先去检查了当前项目是如何完成报警监控的,发现是接入了公司提供的监控SDK,SDK提供异常上报的方式有两种,手动上报和自动上报。
「手动上报」的方式指在我们业务代码遇到异常时,通过自己去调用SDK初始化以后生成的实例提供的error方法完成上报。我们是react项目,目前手动调用的地方有两个,一个是通过错误边界(不熟悉的同学可以看这里👉 关于react错误边界),上报组件内的异常;另一个是通过公共的fetch方法,上报API异常(此文章只讨论JS异常,接口问题这就交给后端同学看吧哈哈哈)。
「自动上报」的方式是SDK通过绑定全局的错误处理函数来实现。
window.onerror
绑定了一个全局错误处理函数,他会在未被捕获的运行时错误发生时被触发。window.onunhandledrejection
: 当 Promise 被 reject 并且在微任务队列结束时没有添加对应的处理函数(例如,.catch()
),将会触发该事件。我们的项目在监控报警平台配置了一个JS异常监控(这里有一个大坑,后面让我尴了一个大尬),当监听到有异常上报以后,通过webhook的方式触发报警群里的通知机器人,实现消息通知。
既然已经找到了异常上报的源头,那我就想,是不是直接改改SDK的配置,__让无效异常在上报前直接被过滤掉__,问题是不是就解决了呢?说干就干,于是我开始阅读SDK文档,很快,我便找到了SDK的异常设置,发现目前提供三种过滤:
就此我确认了SDK的异常过滤能力不能达到我的需求,尝试阻止无效异常上报的方案失败了。
于是我将目光移向了我们项目在监控平台配置的异常监控目,发现目前平台上支持配置报警的阈值,__在a时间内,触发了b次报警或者影响了c个用户,再进行报警__。目前的最小报警周期是5分钟,我感觉这个方案可行,于是便向我的小组长讲述了自己的方案。
在我讲述完自己的方案以后,小组长给出了他的反馈:__实施监控的核心目的在于识别并解决项目中存在的问题,而不是等待错误积累到一定程度后才引起关注__。我们的重点应该是预防并及时解决问题,而不是简单地对它们进行计数并在达到某一阈值时才报警。这番话也是让我真正认清了此次监控治理的真正目标。
虽然确认了阈值的方案不可行,但我还是进行了阈值的配置,想看看到底是什么效果,结果发现,群里依然在报警。
这是咋回事?明明没达到阈值啊,于是我开始一条一条查看监控的配置,终于发现这个监控配置的webhook地址跟群里机器人的webhook地址不一样。也就是说群里的报警消息不是这个平台的监控发的。。。于是我便去问维护这个项目的老同事,才知道,原来群里的报警是之前一个离职的同事写了一个脚本来实现的。
好吧,那我只要找到脚本的代码,然后稍微改改代码应该就可以了吧?果然事情还是想的简单了,我问同事脚本的仓库地址,同事说他不知道,怀疑可能没有搞代码托管,我不相信,先是去我们组的云应用列表里找,看看能不能找到对应的应用;然后又根据群里报警机器人的webhook地址,让托管平台的同学帮忙查一下,有没有项目里的代码涉及到这个地址。结果都没有找到,事实证明,之前的同学确实没有将代码上传到托管平台,本来是前人栽树,后人乘凉。但这次,树却未没有种好,我只能重新开始耕耘。
虽然没有找到之前同事的代码,但也算是给了我很大的启发,我完全可以自己通过 __写一个脚本来实现异常的过滤和推送,完成非常多定制化的需求,而不再依赖于平台__。于是我开始了对定时任务实现方案的调研,发现公司的云平台支持通过创建无服务器(Serverless)应用来托管任务函数,从而实现定时任务的执行,目前平台支持node12,那么,我只需要 __用node写好函数,然后上传,再配置好执行周期__,就大功告成。
任务整体流程如下:
监控平台已经对外开放了一个查询异常列表的API。由于我的函数设定是每5分钟触发一次,所以我只需要每次查询从五分钟前到当前时刻这个时间段的异常列表即可。
这应该是最关键的一步,已知的是我们要过滤掉无效的异常,那么怎么区分有效无效异常呢,目前我想到的是 __通过sourcemap是否成功映射到源代码上__,我们项目里的监控SDK支持上传sourcemap,如果有成功映射上,会在异常的堆栈信息里,返回对应的文件路径。
如果一个异常能够通过sourcemap成功映射到源代码上,那么我们就可以认为这是一个有效的异常。这是因为它指向了源代码中的具体位置,能够为我们找出问题提供有用的线索。相反,如果一个异常无法被正确地映射回源代码,那么这可能意味着这个异常是由于编译错误、第三方代码或其他我们无法直接解决的因素引起的。在这种情况下,我们可以将这种异常视为无效异常,并选择忽略它。
__通过这种方式,我们可以聚焦在真正需要我们注意和解决的有效异常上__,提高我们的问题解决效率,换句话说就是,如果sourcemap无法映射上,而且我们无法复现的话,那么这个问题也很难解决。
这步涉及到需要在群里展示的内容,包括触发时间、异常信息、触发页面、文件位置等信息。
企业群提供了调用通知机器人的API,将之前整理好的异常信息发送即可。
在昨天完成脚本的编写与部署以后,然后我便在群里观察情况,发现确实是过滤掉了大部分的异常,报警数量下降了非常多,内心非常的喜悦,但依然没有松懈,依然在观察每一条异常。然后在我回顾历史异常的时候,发现了这么一条报错TypeError: n is undefinend
,并且文件位置是我们压缩后的js文件,但是没有映射上sourcemap,这是怎么回事?于是前往了触发页面,复现了这个问题,并且发现这就是我们业务代码导致的报错,但是因为没有影响到页面的展示所以一直没有被发现。业务代码大致是这样的:
getInfoById({id}).then(info => {
// 有些情况下,info为undefined,但是报错
const name = info.name;
// ...
})
这为什么会没有映射上sourcemap啊,于是我又开始问题排查,最后定位原因:__异步异常没有完整的堆栈上下文信息,导致平台无法完成映射。__
异常从发生位置来看可以分为同步异常与异步异常两种,如果没有在代码中通过 try/catch
或 catch()
捕获错误,那么这些错误就会成为未处理的错误。
window.onerr
事件。// util.js
window.onerror = function (msg, url, lineNo, columnNo, error) {
console.dir(error);
}
export const sendError = (error) => {
// 发送同步异常
throw new Error('我是错误');
}
// index.js
sendError()
.catch()
处理程序。如果没有 .catch()
处理程序,这个错误就会成为一个未处理的Promise拒绝,被抛出后触发window.onunhandledRejection
事件。// util.js
window.onunhandledrejection = function (e) {
console.log(e);
}
export const sendError = (error) => {
// 发送异步异常
Promise.resolve().then(() => {
throw new Error('我是错误');
})
}
// index.js
sendError()
「为什么异步异常的堆栈信息只有一条」
这是因为js的事件循环机制,Promise这类异步任务不会立即执行,而是被放入事件队列中,等待当前执行栈为空后,再进入执行栈完成执行。__当一个异步函数抛出异常时,这个异常是在新的堆栈上下文中生成的__。这个堆栈上下文是独立于触发这个异步操作的原始堆栈上下文的,因为触发异步操作的原始上下文在执行完成后,就已经从调用堆栈中被移除了。所以,这个异常的堆栈跟踪无法显示启动异步操作的代码路径。
终于,异常也过滤完了,开始轮到修复了,首先再明确一下,目前还会发出的报警的异常有两种:
其中业务代码的报错分为day04所述的同步/异步异常,同步异常通过sourcemap映射上的源码可以很轻松的修复,异步异常上面说过这里也不再重复。
对于第三方包的异常,可以选择过滤掉,只需检查映射完成后的文件路径中是否包含node_modules
即可。不过,如果是一些比较严重的问题,我们也可以选择修复,这里我推荐两种方法:
我们可以fork有问题的仓库到自己的账号下,在修改提交后,将代码推送到fork的副本仓库内,然后在项目中安装使用自己fork的仓库,确认没问题后,就去发起Pull Request
,给第三方包修个bug。
如果觉得fork比较麻烦的话,也可以选择使用patch-package
这个包,它可以让我们在本地修改一个包时生成一个文件,后续运行patch-package
命令,再将这个补丁应用到node_modules
里的相应包上。具体示例如下:
npm install -D patch-package
npx patch-package react
,该命令会将我们在本地生成一个diff文件,里面包含了我们对react包的改动内容,将来要随着业务代码一起推送到远程仓库中。npm install
来应用上我们对第三方包的改动。// package.json
{
"scripts": {
"postinstall": "patch-package"
}
}
❝postinstall是一个在Node包管理器中被用作特殊钩子的脚本名。这个脚本会在每次运行
❞npm install
或yarn install
后自动执行。
以上便是我在探索异常监控之路上至今遇到的诸多问题及其解决方案。我知道肯定还有许多未曾触及的细节,在未来的探索中,我将继续遇到新的挑战并持续分享补充。既然您已经阅读到这里,那么能否献给我一个小小的赞呢?这个小小的鼓励对我来说意义非凡,真的非常感谢!o( ̄▽ ̄)ブ
❝原文地址: https://juejin.cn/post/7260776783394586661
原文作者: 二三笠i
本文来自掘金的分享
❞
觉得本文有用的小伙伴,可以帮忙点个“在看”,让更多的朋友看到咱们的文章。
再给我们的辅导服务打个广告,我们目前有面试全流程辅导、简历指导、模拟面试、零基础辅导和付费咨询等增值服务,大厂前端专家一对一辅导。辅导服务推出了近 2 年的时间,已助力超过 200 + 的同学找到心仪的工作,感兴趣的伙伴可以联系小助手(微信号:interview-fe2)了解详情哦~