第六十章、棉花糖市图灵数据公司

具有研究生学历的姬玄幻当然知道码农的职业生涯不可能干到退休,眼前比自己还小两岁的全职技术总监高水平就是明证。2016 年正是人工智能 50 周年庆。姬玄幻入职棉花糖市半传销贸易有限公司三个月后就用手机观看 50 周年庆多位嘉宾演讲。本着稳扎稳打的精神,他在棉花糖市半传销贸易有限公司干到 2018 年才辞职。程序员圈子里和其他职业经理人圈子不同,许多人更喜欢裸辞。经过几个月求职,姬玄幻入职棉花糖市图灵数据公司,一家大数据公司。

和姬玄幻本科毕业后工作了 5 年的医药工程设计院类似,棉花糖市图灵数据公司也是乙方公司,依靠向甲方企业提供计算机系统、大数据系统集成服务收取服务费。当然,具有美国某顶尖大学计算机博士学位的老板艾图灵不可能仅为甲方提供基本的系统集成、综合布线服务。用艾图灵老板的口头禅来说就是太 low(低端)了。三十多人的公司被分成几个小组,数据分析组、算法组、系统集成运维组、客服/BD/售前/售后业务组、CS 应用开发组。备注,CS 指 client-server 应用,即客户端-服务器应用开发。包括网页应用、手机端 app 等方面的开发。

在姬玄幻入职之前,数据分析组负责数据获取、数量清洗、数据展示等大数据专业的业务。三个女孩子毕业自香港某大学、美国加州某大学、华中理工大学的大数据专业。数据都是从公开数据库开放端口获取。在 2021 年 9 月 1 日实施的《中华人民共和国数据安全法》以及之前近十部法律起草实施之前,特别是 2010 年代早期,很多大数据在灰产、黑产中被明码标价地售卖。艾图灵正是从多种渠道购买到多个城市大数据,包括敏感的人流数据。然而,这种这种方式获取的数据质量一般、经常不够全面,获取渠道不稳定,随时都有可能被警察查封。艾图灵心心念念地唠叨着,要求数据分析组组长莫苦儿尽快建立爬虫组,实现实时数据获取的自主性。女孩子莫苦儿硕士毕业自香港某大学商学院大数据专业。

算法组的日子更加不好过。艾图灵逼着所有组员和各组组长参加各种人工智能等比赛,例如京东大赛、乌镇大赛、Kaggle 等。算法组年轻的龙湖南硕士毕业自加州某大学经济系,在算法组水平最高。他用八个月获得 Kaggle 某顶比赛第二名。比赛获奖后,他不告诉公司,悄悄将自己储蓄卡账号上传,让比赛单位将奖金打到他账上。艾图灵知道以后不干了,要求他把获奖证书等拿回公司复印,作为公司荣誉开展 BD 业务。龙湖南说比赛是他用下班时间完成的,和公司没有关系。艾图灵则认为比赛平台和信息都是公司职员提供的,没有公司的这些工作,龙湖南不可能知道有 Kaggle 这个比赛平台。双方僵持不下,最后龙湖南辞职走人了。龙湖南离职后,艾图灵号召其它组有能力的人也参加比赛。大多数 Kaggle 比赛只给前三发奖金。后来有人还获得第五名、第十名等较好的排名。国内比赛方面,公司员工有几次在京东大赛获得冠军,在乌镇大赛的区块链比赛中获得过亚军。这让艾图灵做 BD 讲 PPT 时更能够镇得住场子。

系统集成运维组除了做公司内部系统运维,有时还需要到甲方现场做系统集成。毕业自天津大学计算机系的 40 岁的房东北组长经常要去甲方讲 PPT 镇场子。很多甲方听众包括计算机专业博士毕业生。房东北这个本科毕业生有些不淡定,有几次拉上姬玄幻帮忙。姬玄幻犯了几次错误后就不愿意去甲方碰头会了。多年以后姬玄幻回想起,发现这种大数据工程开工会和以前在制药工程设计院所参加的甲方招标会不同。制药工程是化学工程的一个小分支,对姬玄幻来说是科班出身。姬玄幻在国内工艺设计顶尖高手高工艺院长直接指导下,经过前两年初步设计的工作积累(共完成 20 多个初步设计),已经初步掌握了工艺设计主要关键点,从第三年开始对药厂决策者所思所想有精准把握。

而姬玄幻在棉花糖市图灵数据公司工作时长才一年多。入职之前的行业经验偏向软件开发,而不是系统集成。更要命的是,年近 50 的姬玄幻已经不能加班加点地看书学习新方向了。这让他在回答应对甲方专家问题时力不从心,常犯低级错误。在这种情况下,姬玄幻不得不想办法生存下去。自己对公司贡献不大这种状态是不可能长久的,尽管自己是公司唯二的博士。

第一、虚张声势。为了有自己稳定来源的数据获取,公司就需要创立爬虫组。即使使用爬虫框架,爬虫代码的编程、布署也要一定的黑客知识。多数黑客在没有时间的紧急情况下,并不自己编写黑客工具,而是使用现成工具。入职半年的姬玄幻工作繁忙,实在没时间操作这些黑客工具。除了平时工作,公司对员工培训也抓得很紧。姬玄幻经常要下载美国最新的计算机和大数据课程课件在家自学。有很多课件是免费公开的,未注册的校外人士也可以下载。有一次在阅读这些课件时,他发现原来美国计算机系本科生和研究生黑教授电脑很常见。一些教授也乐于学生前来黑自己的电脑。师生之间的彼此互动实现黑客技术的进步。

他想来想去,决定虚张声势,将他知道的所有黑客技巧写在一个 PPT 上面,在组会上做演讲。四十分钟演讲的效果非常震撼,听众的专业背景有数学、经济、机械、力学、大数据等,就是没有计算机网络专业。山中无老虎,让姬玄幻这猴子当了大王。

第二、虚张声势的代价。然而,听众毕竟都是年轻人,精力旺盛、好胜心强。计算机网络专业也就包括几门课的知识。姬玄幻的手机很快就被黑了一遍又一遍。其实这和黑客行业的性质有关。黑客攻击过程本质就是一个高度动态过程。黑客今天刚成功黑进一个局域网,可能过不了今晚就被对方的安全网管人员清理掉。绝大部分黑客不会花时间精力去编写中大型应用程序。有很多人连小型应用程序都不写。很多时候,黑客实际上就是各种黑客工具的操作者。熟练掌握、在合适场景成功使用适当的黑客工具就成为最重要的黑客技能。而且黑客技能有很强的时间性,不要说 20 年前的顶尖黑客今天可能是一个毫无还手之力的肖小之辈。就是一个月前的黑客工具不更新的话,也会在大部分打了补丁的系统面前显得苍白无力。

古往今来,类似行业业态也可以佐证这种情况。在古代镖师或武术行业中,能够长久生存的是两种人:完全不懂武术的老百姓和武林顶尖高手。在正常秩序的封建社会中,通常武师不会胡乱屠杀不懂武术的普通人,除非这个人挡着他的道或知道其某些秘密。胡乱杀人会招致官府追杀,给自己惹来完全不必要的麻烦。所以不懂武术的普通人是相对安全的。死得最快的是半桶水。

姬玄幻这个半桶水胡乱使用各种扫描工具,用黑客行业术语来说就是产生很大噪音(making noise),这是黑客大忌。姬玄幻行动之前不做掩护、不购买马甲,很快就暴露自己的真实身份。

这件事情很快就传到棉花糖市图灵数据有限公司艾图灵那里。老板很生气,“什么?姬玄幻不是个顶尖黑客,是个老骗子!等我测试一下他”。艾图灵有一次带姬玄幻到某个甲方会议室,让姬玄幻查看到公司网络断网的原因。菜鸟姬玄幻果然露了马脚,用“traceroute”等命令也没有找到原因。这让姬玄幻不得不拿出爬虫组的交付物,即数据才能证明自己存在的价值。

备注,黑自己公司的 IP 网段是合法的。很多渗透测试外包公司与甲方签合同时,首先要确认被黑的目标网站所在的 IP 网段归属甲方所有。

第三、虚实结合。只有虚张声势是不可以的。空城计唱多了就不灵。最好的方法就是虚实结合。姬玄幻决定把爬虫组搭建起来,将爬取到的数据实实在在地展现在组员面前。这时爬虫组只有他一个人。三个月后才有一位女助手。

爬虫组和软件开发组的交付物不一样。爬虫组的交付物是爬取的数据,需要考察所爬取数据的全面性、正确性等。软件开发的交付物是应用,需要考察应用的健壮性、兼容性、可维护性、可扩展性等。

使用同一个 IP 爬数据当然不行,很快就会被对方网站封 IP。幸好老板艾图灵是一个办实事的人,给姬玄幻一个付费软件。姬玄幻通过这个软件爬取任何网站再也不用担忧被封 IP 的问题了。有了众多维度的数据,艾图灵在甲方面前讲的故事越发丰满。因为大多数人工智能模型需要靠多种不同维度的数据喂养的。例如店铺选址、销售传单派发地点、高净值人群对住宅喜好等都需要不同维度数据的支撑。简单来说,一些政府统计局提供的人口、经济学数据能够反映某一片地区(细粒度精细到镇或街道)的经济情况,人口净流入、净流失情况、人口年龄分布等。使用这些数据训练的模型能够让甲方决策者对于在该片地区应该投入什么样的零售商品有一个大概了解。同样的,高净值人群的通勤路径、上班地点、居住地点、娱乐地点能够对训练模型有帮助。一个好模型的建议使房地产销售决策层更有针对性地知道派发传单的地点、传单上的描述内容等。各种行业数据对模型的正确建议提供更有用帮助,例如烟草协会提供的每种香烟焦油含量、建议零售价、包装(硬壳、软壳、罐装等)等。

有了上百个爬虫日夜不停地爬取不同维度数据,棉花糖市图灵数据有限公司购买数据的开销被大大降低了。爬取的数据甚至可以被用于与一些信得过的数据供应商交换。就这样,姬玄幻在公司的地位算相对稳固了。在爬取数据过程中,姬玄幻需要研究目标网站的前端程序。他很快发现大厂的前后端程序都采用开源框架,但全部都被改写过。他在组会上提醒艾图灵老板要在使用开源软件之前要使用各种漏洞扫描工具和数据库扫描开源软件并有针对性地修改,才可以部署到生产环境。没过几天,CS 应用开发组组长被迫辞职了。继任组长拿着一大叠纸向姬玄幻抱怨说,“老板把这叠纸交给我,说我们开发的应用有一万多个漏洞。我看了一下,全部都是 SpringMVC 框架的安全漏洞。我们后端就这么几个人,哪有时间去修改框架?”

姬玄幻明白了为什么互联网大厂只招收最优秀程序员,而且让人家 35 岁就退休了。他怀疑继任组长从未操作过安全漏洞扫描软件或者数据库。漏洞报告上面显示的一万多个漏洞,实际上可能只需要修改其中几百处代码就可以了。很多时候同一处代码会产生几十、上百个告警。

艾图灵博士不是一个止步不前的人。虽然有了数据,龙湖南和算法组组长王机械却离职了。艾图灵博士心里盘算着,“是时候让姬玄幻当算法组组长了。”

姬玄幻老了,刚解决了数据来源问题,又要马不停蹄地管起算法这摊子事。他上次搞算法已经是 2006 年之前的事了,一看推脱不掉,赶紧递上辞职信,准备开溜。艾图灵博士很可惜,不过也没有过多挽留。计算机行业的从业人员流动性大是业界公认的事实。艾图灵找来几个获选人准备接替姬玄幻的爬虫组。姬玄幻一看简历,发现都是本地小微企业工作经历的非计算机专业背景;虽然有业余的计算机学习经验,却比离职的王机械(上海交通大学机械系毕业,有 5 年大型德资汽车企业工作经验)、龙湖南(经济学硕士期间以计算机建模为主)、房东北(计算机专业毕业、有头部外资银行工作经验)差远了。

初创乙方小微企业的运营模式不可以按照大企业运营方式那样按部就班的。但关键岗位、主要领导岗位、与大客户接触的岗位,都要求资源熟悉甲方大公司按部就班的那种运作方式。而该重要员工又要有足够的灵活性,清楚地知道甲方按部就班的那套操作模式的哪些步骤可以省略。创业公司的成本控制、敏捷开发效率就来自于这班关键员工的经验和灵活性。

也就是说,应聘候选人最好是计算机专业科班出身,又有大型外资或内资企业的工作经验。如果二者都没有,入职后对公司和对应聘者都不好。

本书首发来自17K小说网, 第一时间看正版内容!