天天上班的你,有多少“摸鱼”的时间?此前,澳大利亚悉尼大学的研究人员在《EducationalandDevelopmentalPsychologist》期刊上发表了一篇题为“Restbreaksaiddirectedattentionandlearning”的研究论文,指出摸鱼可以提升工作效率,五分钟的大脑休息,可以将后续任务的表现和生产力平均提高57%,更有利于后续的工作。
然而,现实中有多少人在闲逛朋友圈、微博、X等社交媒体平台之后,时间消耗了、工作却没做多少最终导致天天加班的?
为了解决时不时分心、工作效率低下的问题,刚从康奈尔大学本科毕业、即将在今年秋季攻读卡内基梅隆大学计算机科学博士学位的程序员小哥JamesCampbell趁着闲暇时光,开发了一款名为ProctorAI(监察AI),还将此项目开源出来。
这个AIApp不仅可以监视你的屏幕,进行截图,还会利用时下主流的Claude-3.5-Sonnet、GPT-4o等大模型对截图内容进行分析,如果发现你有“摸鱼”的动作,就会发出警告声,让你好好工作。
自己的监工——ProctorAI
当你打开这款应用时,会得到这样的一个屏幕:
页面上会有一些提示,譬如今天你计划着去做什么?喜欢什么样的行为?你希望这款应用程序允许什么和不允许什么......
在这提示下,你可以在输入框写清楚自己的需求,比如:
今天我计划研究一个ML的可解释性项目。
我被允许打开一个VSCode编辑器、一个终端(Terminal),以及一个网页浏览器,但只为查阅相关资料。
然后点击“开始”(Start),画面如下所示,这款应用程序便会开始监测你的电脑屏幕,然后隔几秒分享一下你的最新状态。
如果你通过浏览器打开了StackOverflow网站,AI大模型在分析截图之后给出的状态是productive,它会推测你是在工作,寻找问题的答案,属于正常研究项目时查阅资料的状态。
倘若你打开了Twitter悠哉悠哉地刷起来之后,这款应用程序便会开始分析你的这一行为是不是在工作以及是否符合你最开始定下的规则,判定为不符合之后,这款App会采取行动来控制你的屏幕。
就像上图所示,在AI大模型判定你是在“拖延”之后,跳出一个不可关闭的全屏弹窗,然后语音提示:
好啊好啊,James!我看你把机器学习项目研究换成了无意识的滚动。你的ML可解释性项目是不是很无聊,以至于你宁愿去看陌生人的神秘推文?据我所知,X并不是Python生态系统的一部分。关掉小鸟应用(Twitter应用),飞回你的VSCode老巢,不然我会把你的工作效率当成一个大大的零!
读完之后你会发现屏幕下面还有一行小字,以及一个输入的文本框,要求你写下保证书——
请输入以下内容以继续工作:
我保证关闭X,只使用VSCode、终端和相关Web资源,将重点重定向到我的ML可解释性项目。
输入完成之后,屏幕上会跳出一个15秒倒计时的窗口,让你在15秒内关闭Twitter。
通过这样的方式,当你在工作、研究、学习分心时,系统会自动提示你。对此,身为作者JamesCampbell还引用了一张截图来形容ProctorAI的存在:
“计算机程序员ManeeshSethi的故事是这样的:他每次使用Facebook时,都会雇一个女人在他脸上扇一巴掌,结果他的工作效率大幅提高。”
JamesCampbell表示,ProctorAI的目标是成为这样的女人,但可以随时待命、更加尖刻、并且全面了解你的工作。同时,他认为,ProctorAI就像一个活生生的同事,在你身后看着你,一旦你有分心的举动,系统就会警告你,由此可以大大提高生产力。
ProctorAI的工作原理
那么,ProctorAI究竟是如何实现的?
JamesCampbell解释道,这款应用的工作原理是每隔几秒钟(可以指定时间间隔)来对你的电脑屏幕进行截图,并将其输入到GPT-4o、Claude-3.5-Sonnet和LLaVA-1.5等多模态模型中。
正如上文所展示的,如果ProctorAI确定你没有集中注意力,它将控制屏幕并用个性化消息对你大喊进行口头教育。在让你保证停止拖延后,ProctorAI会给你15秒的时间来关闭拖延的根源,否则会继续骚扰你。
JamesCampbell称,这是“一个知道什么算拖延、什么不算拖延的智能系统”。与传统的网站拦截器相比,ProctorAI非常智能,能够理解细微的工作流程。
为了满足不同用户的行为习惯,在每次Proctor会话之前,用户都会输入他们的会话规范,明确告诉Proctor他们计划做什么、会话期间允许什么行为以及不允许什么行为。
因此,ProctorAI可以处理细微的规则,例如“我可以上YouTube,但只能观看AndrejKarpathy关于Makemore的讲座”。
“没有其他生产力软件可以处理这种级别的灵活性”,JamesCampbell说,“Proctor的一大设计目标是让人感觉它是有生命的。根据我的经验,我往往不会违反规则,因为我能直观地“感觉到人工智能在监视我--就像考生在考试时感觉到监考人员在监视他们一样”,这样他们作弊的可能性就会大大降低。”
设置和安装
当前,JamesCampbell将这一项目在GitHub上开源出来:https://github.com/jam3scampbell/ProctorAI/。同时,也分享了较为简单的设置和安装方法,即要启动GUI,只需输入./run.sh。你可能会看到一些弹出窗口,要求你允许终端访问某些程序,你应该启用这些实用程序。
gitclonehttps://github.com/jam3scampbell/ProctorAI
pythonvenv-mfocusenv
sourcefocusenv/bin/activate
pipinstall-rrequirements.txt
./run.sh
然后,根据你想要使用的模型,可以将以下API密钥定义为环境变量:
OPENAI_API_KEY
ANTHROPIC_API_KEY
GEMINI_API_KEY
ELEVEN_LABS_API_KEY
在这一项目中,为了降低API成本,JamesCampbell还实现了双层路由系统。你可以对其进行设置,使请求首先发送到较小的模型(如本地运行的LLaVA),只有当行为被标记时,才会向上发送到较大的模型。
其他一些功能
除了上面介绍的功能之外:
你还可以在会话期间与ProctorAI聊天,向它汇报你的研究进度;
该程序也有文本转语音功能,ProctorAI可以对你进行口头训斥
更改ProctorAI截图的频率,让你感觉不到ProctorAI一直在盯着你
时下ProctorAI这款应用刚起步,JamesCampbell透露,这个项目仍在积极开发中,其希望未来添加一些更多的功能,包括:
更多个性化和情境知识
针对特定任务/分布对LLaVA模型进行微调
记录、时间跟踪和汇总统计
让退出程序变得非常烦人(至少在用户完成预定义的会话之前)
......
每日运行费用在50美分以下
之所以研发这款工具,JamesCampbell表示只是为了优化自己的工作效率,并尝试对它进行定制,使其尽可能有用。从经验来看,它的效果相当不错,尤其是在帮助自己长时间深入工作而不分心方面!
后期如果不少人觉得这款程序有用,他也考虑将其打包成一个易于下载的应用程序,供普通用户使用。
对此,也有不少网友担心,日常拿到手的工资与运行AI大模型API带来的成本会不会造成入不敷出的情况,JamesCampbell回复道:
这款程序每天在线工作时的运行成本主要取决于以下几个因素:
是否使用路由,
路由模型的误报率,
截图的频率,
它被激活的时间长短。
基于我对这些因素的平衡调整,每天的费用通常在50美分以下。
对于个人用户而言,不少人觉得ProctorAI是一个不错的主意:
然而有人认为,JamesCampbell的出发点虽好,但似乎已经开启一个“潘多拉”魔盒:
“我希望你知道,你现在已经打开了一个更大的关于关键绩效指标(KPI)和工作监控的潘多拉盒子。这个原本无害且令人惊叹的想法,但资本主义会证明它并非如此。这也不是你的错。”
如果你需要惩罚自己才能提高工作效率,那你就做错了,相反,你应该问问人工智能如何看待和创建工作流程。
那么,你如何看待ProctorAI这款工具?
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】