折磨人类的验证码,已经拦不住人机了?

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?

文章图片

折磨人类的验证码,已经拦不住人机了?


抢票的时候 , 突然弹出来这么个玩意儿 , 你能选对吗?

换个拼图 , 你每次都能一口气对准吗?

就连有时候打个勾 , 你可能都得多试两次 。

和验证码斗智斗勇这么多年 , 说实话 , 咱都有点麻了 。
但要是我告诉你 , 现在上面这些验证码已经拦不住 AI 了 , 卡关的只有我们这些 100% 纯人类呢?

就在前不久 , 江江发现 , 不管是点击式 , 九宫格选图 , 甚至隐式验证 , AI agent 居然都能过了 。。。
点击式验证码是最容易破防的 。 早在 OpenAI 的 Operator 七月刚出世的时候 , 就有人把它拉来对着 Cloudflare 测了一波 。
让机器人自己点击 “ 我不是机器人 ” , 评论区不少人都表示这实在有点幽默了 。

还有下面这种九宫格点选 , 老兄自己手搓 agent , 后台直连 GPT , 立刻实现像素级的识别 。
管你是小饼干还是小蛋糕 , 楼梯还是红绿灯 , 它看得比人都清楚 。

除了显式点击 , 隐式验证也不在话下 。
人只要在命令行输入 prompt , agent 自己就能点击每一栏、输入具体信息、完成表格提交任务 。
甚至 reCAPTCHA 最后还给了它 80% 像人的高分 。

我们也亲自上手试了试 , 用不同的 agent , 测了点击式和滑动拼图两种验证码 。
事先声明 , 下面所有操作从打开网页 , 到完成验证 , 全都是 AI 干的 , 咱可一点没上手 。
结果你还真别说 , 点击式的验证码根本拦不住它一点 。

还有这种滑动拼图 , AI 对得比我更快更准 , 对面完全没反应过来 。

好嘛 , 以前网上总用人机骂人 , 现在看来 , 人机应该是对一个人类的最高赞赏 。
一通操作下来 , 江江本来觉得这东西都快被 AI 通关了 。 连机都拦不住 , 它到底还有啥存在价值?
带着各种疑问 , 我们联系上了国内头部验证码企业 , 极验的 CTO 谢强老师 , 从验证码的原理、目的、到未来方向来了一个全方位答疑解惑 , 发现验证码远远不是表面看起来一道题这么简单 。
聊完以后我发现 , 么的 , 还是人类更坏啊 。

首先 , 这一次能不能答对题 , 看出来对面是人是鬼 , 其实并不是最重要的 。 长远来看 , 成本 , 才是一切的核心 。
就比如初期 AI 模型还没出现的时候 , 黑客那边破解验证码 , 靠的是穷举法 。 黑客会通过特定算法去攻击网站界面 , 这个网站的所有验证码图像都弄到手 。
在得到这些图像后 , 黑客就把这些任务外包出去 , 找人识别和标注 。。 就是我们常说的打码工 。
古早打码工界面

折下来 , 黑客 10 天就能搞掉一个 30 万张的图库 , 一分钱一张 , 成本能控制在四五百 。
当然 , 验证系统的防守也很简单 , 那就是用成本压垮黑客 。
目前国内的验证系统 , 图库基本一周一更新 , 最快的能到 1 小时更新一次 。 这个更新频率 , 换天王老子来也吃不消 。

这道理 , 在 AI 时代其实也一个样 , 谢强老师告诉我们 , 目前生成验证码的成本 , 远低于识别的成本 。
自行车、红绿灯这些现实派的图片验证码 , 很多大模型基本都能攻克 。
但非现实的内容 , 大模型基本抓瞎 。 比如谢强老师向我们展示了他们试验的逆天验证码:把人类的情绪藏到图片里 , 用 AI 随机生成 , 成本 1 毛左右 , 雇人工识别的话 , 估计成本则在每张 3 毛钱左右 。
【折磨人类的验证码,已经拦不住人机了?】
硬要用 AI 识别 , 成本则可能更高 , 这样的图即使收集 10000 张 , 新 AI 模型也未必学得明白 。
可能只得从头开始训练个大模型 , 但这金钱和时间成本 , 不是一般黑客能负担得起的 。
而做题只是第一层 , 系统的第二层 , 是在后台还在长期观察你的 IP 。
一旦发现 IP 不干净 , 立刻升级验证 , 让过关难度超级加倍 。
像是下面这个例子 , 如果你想看个剧 , 点了 20 遍赛博保安还不放你走 , 那肯定不是因为题答错了 。
来源:小红书@momo

要么是出了 bug , 要么是你被打上了 “ 高风险用户 ” 的标签 。
一旦被盯上 , 轻则每次访问先来个 10 道题 , 限个流 , 重则直接 ban IP 。 虽然被误伤的良民很冤枉 , 但攻击者更没得选 , 要么乖乖做题 , 要么频繁换 IP、养 IP , 这代价是真高 。
至于被系统盯上的原因 , 也有很多种 。
举个例子 , 如果用户打开验证码用的是一个马甲( 比如 Chrome 浏览器 ) , 解决验证码用的是另一个马甲( 比如AI , 小程序 , APP 挂 ) , 系统通过 HTTP 交流记录一看 , 这对不上啊 , 就会触发被动 , 重拳出击了 。
来源:杜克大学课程海报

所以说 , 就算黑客们把验证码攻克了一遍又一遍 , 其实也没啥问题 , 能让攻击者觉得这门生意不划算 , 成本划不来 , 那么验证码的存在 , 就是有意义的 。
不过 , 现在这些应对手段 , 有时候伤敌一千 , 也会自损八百 。
做题方面 , 像是谢强老师搞的这个码 , 直接硬控了我一分钟 。
点击和右上角相同图案的选项

等到了用户那里 , 每个人有没有时间和耐心去理解做题?反正是我 , 我大概率原地退出 。
但要是老盯着 IP , 普普通通的良民 , 很容易被误伤 。
比如你用的是公共 WiFi , 但大伙儿最近都做了同一家公司提供的验证码 。 系统那边看到的就是 , 这个 IP 频繁发了一堆请求 , 到处乱逛 , 有点怪哦 。
或者手机信号不稳定 , 明明是同一个设备 , IP 却和你的 3/4/5G 一起反复横跳 , 这种也很危险 。

所以 , 谢强老师认为 , 未来的验证码发展方向和业务数据是分不开的 。
通过数据 , 区分良民和狼人 , 验证码就不用折磨每一个人了 。
毕竟 , 黑客破解验证码要么是为了恶意爬虫获取信息 , 要么就是抢票、刷票 。 在这样的场景下它们都有一些共性 , 要数次访问网站或软件页面 。

像是逛淘宝 , 我们自己随便瞎点 , 和爬虫应爬尽爬 , 带给服务器的压力肯定是不一样的 。
如果每个系统可以独立通过后台数据 , 观测 , 计算每个用户给自己带来的负担 , 精准区分出异常用户 , 就可以决定要对哪个用户进行限制或者收费访问 , 增加他的成本 , 从而限制攻击 , 又不影响正常用户 。

总的来说 , 这场人机攻防战并没有因为 AI 的出现而结束 , 只是战场从我们熟悉的几种验证码 , 慢慢转移到了更复杂的行为分析和成本博弈上 。
验证码只是一个工具 , 这个起源于 1997 年的老东西 , 未来随时也可能因为 AI 的冲击 , 而被替换成其它更有效 , 无痛的拦截模式 。
但验证码或许会消失 , 人与机器的边界识别将永远存在 。 希望能早点迎接那个不用再亲手证明 , 我是人的时代吧 。

    推荐阅读