都是元宇宙了,现在要问“你是人吗?”
来源:电子工程专辑 发布时间:2022-09-15 分享至微信

随着社会的发展,我们在生活中会碰见很多乍一看莫名其妙,令人匪夷所思之事,但是后面细细想来还挺有意思的事,比如前些日子网络上热议的,你要证明一下,你爸是你爸或者你妈是你妈。这个事情我们暂且不议论政策方面,单就如何来验证来看一下,网络发展到今天,验证码是如何演变进化的。



什么是验证码



验证码是用来全自动区分计算机和人类的公开图灵测试,英文全称为Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA,是一种区分用户是机器或人类的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于机器无法解答CAPTCHA的问题,回答出问题的用户即可视为人类。



其实在互联网初期,本来是没有验证码的,用户输入账户和密码可以自由畅行网络,匿名论坛和各种小站层出不穷,随着信息化和用户交流越来越频繁,一些计算机爱好者开发出各种自动化工具来模拟用户行为,从而完成一些机械重复的上网操作,其中以穷举破解密码,海量垃圾邮件为首的恶意行为让服务商头疼不已,所以验证码也就应运而生。



历史上第一个验证码



2000年左右的黑客真的全是传奇人物,他们编写的垃圾邮件软件能够每天给一个用户发送数百封垃圾邮件,Yahoo(雅虎)公司作为全球最大的邮件供应商之一深受其害,其免费邮箱每天发出海量的垃圾邮件,Yahoo公司既不能审查其内容,又没有那么多的忍受来管理和监控,管理层不得已找到卡内基梅隆大学的一个团队,时年21岁的助理luis Von ahn反其道而行之,在研究了垃圾邮件机器人的工作手法后,设计了一套在用户发送邮件前把机器人“晒出来”的方法,通过简单但是内容庞大的图灵测试来筛选出机器人。经过团队大量研究发现,人们能够很好的识别一张图片中包含的文字形状信息,一些扭曲变色旋转后的文字也能在五秒钟时间内辨识出来。


图源网络,为验证码示意,非第一个验证码


于是乎,每天互联网上海量烦人的验证码应运而生,据统计全球网民每天要输入将近2亿次,假设每次前后花费10秒钟,总共花费将近55万小时。路易斯灵机一动,把目光投向了文字识别,尤其是那些古籍和变体字的识别上来,很多珍贵的报纸书刊和古籍可以快速获得影音版,再把这些图片拆成一段段的单词片段,把一个个的小片段发给用户利用人海战术来完成大量的文字识别工作。


这里不禁有人要问,发给用户一张图片,系统自己都没识别过不知道正确答案,用户胡乱输入岂不是乱套了吗?这时候路易斯又设计了一个巧妙的系统,二次验证码



reCAPTCHA巧妙之处



路易斯设计了一次让用户输入两张图片中的验证码,而且当时很多用户乐意为了古籍识别出一份力,所以大家起初的识别率还是很高的,但是有些用户看出来,如下图像中,一个单词扭曲变形程度比另一个大得多,似乎两个验证码有一个是假的,于是有一些用户为了捣乱故意输错,当时是给识别系统带来不小的困扰。



所以路易斯又巧妙的设计了,孪生验证码,通过两个单词变形一样或者加入一样的遮挡线来让用户分辨不出哪个是想识别的哪个是已经识别的。例如我们想让用户识别“morning”这个单词,那我们就要让一个已知的单词经过被用户验证过的变形来扭曲“morning”这个单词,如果两个单词都能被认出,那么再在多个用户眼里都得到相同的结果,那么系统就可以认为这个单词被搞定了。




各种变体层出不穷



接下来就是各路神仙发挥自己想象力的时代了,很多黑客利用广告垃圾邮件赚的盆满钵满,验证码一出无异于断人财路,杀人父母啊。所以破解之法也在不断升级,简单扭曲的字母需要构造验证码库,而暴力比对的穷举法可以识别出一个字母的各种变形体,只要准备足够多总能认出来。



很快被破解后,程序员们又创造出来gif版本的动图验证码,一直在变化的验证码,让难度提升不少,伴随而来的还有数字+英文+杂散图案等混淆的验证码,也是火热了一段时间,但是随着识别技术的发展,以像素为单位提取的方法也把这种验证码攻克了。



后来程序员们发现电脑最擅长做准确重复的操作,要是加上一些藏在图片里的逻辑,对于电脑来说就变得困难了,很多论坛都采用了问答式的验证码,各种问题内部包含千丝万缕的逻辑,对于机器来讲实在有够难的。



下面重点说说,几乎13亿人都会碰见的物品图片验证码了,最有名的当属12306的登录验证了,据说头一年上线的时候,正确率仅为8%,官方为了遏制黄牛可以说设计了最难的系统,一般设计图片点击类的十几种类别也就够了,但是据网络流传称,12306后台有多达581种类目的图片供用户识别。


网友恶搞12306验证码过于难(图源网路恶搞图片,意在调侃难度太大)


像是动物电器和天体等都是应有尽有,用户日常生活常见的物品都可以拿来识别,再加上不同颜色形状和角度,可以说破解起来难度极大,好像现在还没有能够完完全全破解了的软件啊。




Google薅羊毛来训练AI



等到了现今,短信和面部识别是最常见的两种方式,得益于手机行业的迅猛发展,但是反过来想,国外很多人十分注重隐私很多时候不想提供手机号使得短信验证码走不通,所以Google这样的大公司还是以图片验证为主,但是这个其实也是一个延续着上述人海识别战术的“小伎俩”。通过用户的验证码悄悄进行着后台的AI训练,给图片标注区分来训练AI,像是最最最常见的路灯、路标都是为了Google自动驾驶的贡献一份力。



所以小编建议,大家可以在日后的简历里面写上,曾经参与过Google自动驾驶项目核心图像识别模块验证和训练。但是面试官再深入问起来,大家可不要把我卖了哦。但是却是是大家在帮助Google训练数据,提升AI的准确度。reCPATCHA自己也在官网公告每天有数以百万的人帮助构建机器学习的数据集,也就是说只要你每天用了验证码就给Google打了五秒钟的工,别小看这五秒钟,几百万人的基数还是很庞大的数字啊。



历年都有互联网恶心人发明排行榜,验证码已经霸榜数十年了,并且一直名列前茅。不过现在有所好转,浏览器会通过分析用户的环境和键盘鼠标的操作轨迹来识别,但是背后涉及到的隐私和监控等问题也一直是讨论的焦点,所以在没有革命性的新技术到来前,用户还得苦哈哈的忍受着各种验证码的折磨。我们也在期待着有一天我上网不再被问“你是不是机器人啊?”





END




「“元宇宙入口”」
点击👇下方视频观看
[ 新闻来源:电子工程专辑,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论

暂无评论哦,快来评论一下吧!