我在 AI 训练库里,找到 200 多张周杰伦的照片
2023-04-29 13:13:23来源:ZAKER科技
我的一些网站正在被你的用户攻击,你不能不经同意就抓取我的照片信息。
(资料图)
你要是不想让人看你发网上的照片,你就把它删除啊。
这段对话来自图片抓取工具 Img2dataset 的 GitHub 页面,争论的双方,是被抓取图片的网站站长 Eden,和抓取工具的开发者 Romain。
▲双方发言的赞踩数,似乎能看到大众的偏向
发布上网 = 默认同意 AI 训练
不论是 Open AI 的 DALL-E、Google 的 Imagen,还是开源的 Stable Diffusion,任何由文字生成图片的通用大模型,都需要经过大量的数据训练,网络是训练信息的最佳来源。
Eden 建立了一个名为 OpenBenches 的网站,邀请用户上传世界各地的纪念长椅图片和位置。截至今日,OpenBenches 已经收集了超过两万七千张长椅,托管了 250GB 的照片。
一日,Eden 收到了服务器报警,说网站正在受到持续攻击,来源正是上文中提到的 Img2dataset。原因很简单,有人把 Eden 网站里的长椅图片用于了 AI 训练。因为网站流量的激增,导致 Eden 不仅支付了额外费用,还花费了不少时间去阻止抓取工具的滥用。
当然,Img2dataset 的抓取并不是无法禁止的,只需为网站加入「X-Robots-Tag: NoAI」的标头,就可以避免被 Img2dataset 抓取,如果你没有加,则默认你同意自己的网站数据可以被用于 AI 训练。这就出现了争论的关键:作为所有者,我应该选择加入,而不是选择退出。
▲「你剥夺了人们的同意权」
听起来似乎有一点绕,举一个不太恰当的例子,我在手机上下载了一款新 app,在没有打开前,它就已经获取了所有权限,并根据信息推送了广告通知,当我质问开发者时,却得到了「你要是不想看广告,就不要用手机啊」的回复。
怎么样,你开始生气了吗?
公司能收费,个人没办法
今年 2 月,Twitter 宣布不再支持免费 API 访问,如果你想访问 Twitter 的数据,需要每月支付 4.2 万到 21 万美元不等的费用,金额越高,研究人员或企业获得的推文数量就越多。
因此,微软则宣布数字营销中心(DMC)随后表示不再支持 Twitter,这将导致用户不能再通过微软的免费社交媒体管理服务创建、管理他们的推文。
Twitter CEO 马斯克也一点都不含糊:微软在用 Twitter 的数据进行非法训练,接下来是诉讼时间。
知名社交媒体 Reddit 拥有庞大的用户群体和活跃的社交板块,同时不少板块的内容也相当专业权威,这让它成为了一个非常好的 AI 学习资料库。Google Bard 和 ChatGPT 都曾引用 Reddit 的数据做其训练的信息来源之一。
▲两者的语义学习文档中都出现过 Reddit 的身影
「Reddit 的数据语料库非常有价值,我不能免费将这些价值提供给世界级大公司。」Reddit 创始人 Steve 在采访中表示。
上周二,Reddit 追随 Twitter 的脚步,开始向大公司收取 API 访问费用。
你构建未来与我竞争的工具,而我还要把数据免费提供给你,怎么想都不合理。
对大公司来说,改变 API 的开放策略尚是一件需要进行多方权衡的反击方法,而像 Eden 这样的个人网站运营者或者普通网友,面对 AI 默认同意的照片训练,并没有太好的应对方法。音乐家 Holly Herndon 创建了一个名为「Have I Been Trained」的网站,收集了 5 亿张用于 AI 艺术模型训练的图片,旨在帮助艺术家了解他们的作品是否包含在 AI 模型训练的数据集中。
我尝试在网站中搜索了「Jay Chou」,不知这些被用来进行 AI 训练的周杰伦照片,有没有经过周董本人的同意。
▲网站:https://haveibeentrained.com/
那么,我可以不让 AI 识别我的照片吗?当然可以,那就是 Img2dataset 开发者提供的方法了:拒绝 AI 识别的最佳方法,就是删除它——不想让我用?那你就别上传。
人工智能正在以惊人的速度发展,AI 工具方便了我们的工作生活,但我们似乎还没有想好,该如何应对为人工智能提供动力的数据源。
请给我们「同意」的权利
在「长椅」网站所有者 Eden 与图片采集工具开发者 Rom 的争论中,后者提到一个观点:被 Google 搜索是搜,被我搜索也是搜,为什么你愿意让 Google 收录你的网站,不允许我搜索呢?
这看起来似乎有些道理,但 Google 搜索中心为开发者提供了一个非常全面的防请求机制:robots.txt。使用这个文件,就可以避免网站收到过多的请求,它并不是一种阻止 Google 抓取某个网页的机制,而是为了更加合理的分配流量。
有网友指出,Img2dataset 主动忽略了 robots.txt,这个做法显然是恶意的。而且,相比全球最大的搜索引擎 Google,Img2dataset 这样的小工具数量更多、迭代更快,今天禁止了这个,明天就会冒出那个。「难道每出现一个新工具,我就要选择一次拒绝?」Eden 提出的疑问,也是我们每个人可能会遇到的事。
或许是为了利益,或许是寻求方便,不管是故意的还是不小心,「默认同意」似乎成为了 AI 高速发展的秘密武器。但我始终认为,同意是道德的基石,AI 发展的同时,也需要更加合理的数据集采集方式。
在争辩的最后,Rom 依然坚持自己的观点:很遗憾,你们中的一些人还是不理解 AI 的潜力,作为创作者,你们有更多机会从中受益,却与此斗争,这令人感到悲哀。
AI 在飞速发展,而要走的路还是很长。点击「在看」是对我们最大的鼓励
责任编辑:hnmd003
相关阅读
-
百度文库内测“ AI 文档助手”:接入“文心一言”,创作文档仅需 15 秒 世界热讯
品玩4月28日讯,据IT之家从百度官方获悉,近日,百度文库开启AI文档助手功能内测。据了解,该功能已内测接
2023-04-29
相关阅读
-
我在 AI 训练库里,找到 200 多张周杰伦的照片
我的一些网站正在被你的用户攻击,你不能不经同意就抓取我的照片信息。EdenRomain你要是不想让人看你发网上
-
中国跑车,不都是笑话
最近看到友媒发表高论《中国超跑,都是笑话》,不禁惊诧,每个字都让我惊诧。中国什么时候有超跑了?什么时
-
海尔确定不造整车-今亮点
财联社4月29日电,针对市场上海尔造车的传闻,海尔方面回应称,海尔非常明确不造整车,将从生态的角度切入
-
即时:假期出游or宅家追剧?有华为折叠屏手机家族就够了!
五一假期即将来临,你想好怎么度过这5天了吗?不少朋友选择出游,也有朋友愿意宅在家中看剧、打游戏。其实
-
太平人寿怎么退保险?多久能到账啊? 全球动态
线上退保需要登录太平人寿官网,在“个人中心”-“我的保单”-“保单详情”中找到相应的保单,点击“申...
-
利安人寿退保怎么退?需要什么资料?
登录利安人寿官网,进入“自助服务-保单查询”,输入投保人姓名、证件类型、证件号码和保单号码等信息,...
-
理财保险可以退吗?怎么退?-最资讯
理财保险是可以退保的,但需注意,理财保险的保险期限一般较长,且其中的投资部分需要经过时间积累才能实现
-
双重参保的情况下怎么退保?退保需要多久?
可以根据自身情况选择相应的退保方式。一般来说,退保方式包括线上和线下两种方式,其中线上退保比较方便快
-
人寿保险退保流程是什么?可以退多少钱? 世界新视野
首先要填写退保申请书一般来说,退保申请书应该包含被保险人的姓名、身份证号码、保单号码、联系方式等基本
-
当前快播:券商一季度业绩大反攻,西部证券净利飙增2227%! “优等生”东方财富却跳水
2022年券商行业“滑铁卢”已成历史,新一年的首份答卷,券商们取得了不错的成绩。截至4月28日晚,51家上...
-
全球热点评!体验过 8 款华硕春季新品 我对今年的轻薄本有了一些思考
经过这个春天,我已经变成华硕的形状了。作为一名PC编辑,从三月到五月初,我测试了华硕春季几乎所有的轻薄
-
滴滴退市后发布年报:2022 年营收下降 19%,净亏损收窄 52% 全球即时看
4月29日,滴滴退市后在其官网发布年报。2022年滴滴实现营业收入1408亿元,同比下降19%。净亏损为238亿元,
-
犹太人割礼是什么意思_犹太人割礼解释_每日热闻
1、犹太人的包皮环切术是指男性切除阴茎的全部或部分包皮。根据犹太教,所有的男孩都应该接受割礼。在犹太
-
环球热点评!对话许小年:互联网的下一波高潮将在工业领域掀起
伴随着数字化进程,互联网的主战场,正在从上半场的消费互联网,向下半场——工业互联网方向发展。2016...
-
真爱无敌?DR钻戒一年新增超200家门店,盈利下滑也抵挡不住扩张的心
一生只买一枚的钻戒正加速扩张。4月27日晚间,迪阿股份(301177 SZ)披露2022年年报。年报显示,2022年,迪
-
王一博也带不动?乐华娱乐艺人管理收入首次下滑,杜华入局直播带货 当前快报
过于依赖艺人的乐华娱乐正在拓展第二增长曲线。近日,乐华娱乐(2306 HK)披露了上市后的首份年报,2022年
-
天天快资讯:银行保险理财产品可以退吗?退保有什么损失?
一般来说,银行保险理财产品都可以退,但具体的退款规定和流程会因产品种类、投资金额、购买时间等因素而异
-
居民医疗保险购买后多久生效?要交多少钱?|独家焦点
根据相关规定,居民医疗保险一般在缴费次月生效。也就是说,比如您在2023年5月1日购买了居民医疗保险,那么
-
环球微头条丨医用级体温仪FTA-300发布:比传统水银体温计更安全
凤凰网科技讯4月29日消息,全球三大家电消费电子展之一的中国家电及消费电子博览会(AWE2023)27日上海揭开
-
雷克萨斯为何拒绝国产化?可以,但没必要!_最新
雷克萨斯为何拒绝国产化?可以,但没必要!对于豪华品牌来说,实现在华国产化不仅可以降低运输成本和零部件
-
百度文库内测“ AI 文档助手”:接入“文心一言”,创作文档仅需 15 秒 世界热讯
品玩4月28日讯,据IT之家从百度官方获悉,近日,百度文库开启AI文档助手功能内测。据了解,该功能已内测接
-
每日信息:华为新专利:可对自动驾驶车辆系统提供安全警示
品玩4月28日讯,据IT之家报道,华为技术有限公司一种自动驾驶车辆驾驶安全度量化系统专利于近期获得授权,
-
喜迎四周年!《明日方舟》手机交通卡专属卡面来了
【手机中国新闻】4月29日,手机中国了解到,值此四周年之际,《明日方舟》联合上海交通卡、北京市政交通一
-
飒特发布 5G 户外三防手机,可用于工业巡检等工作测温场景
钛媒体App4月29日消息,AWE2023期间,红外企业飒特宣布启用新C端消费子公司盈孚睿泰(英文名:infrared)以
-
安客创新 Q1 净利增长 54%,预计于下半年逐步推出用户储能产品
中国、东南亚及拉丁美洲仍将是未来布局重点。作者:Bonnie编辑:tuya出品:财经涂鸦(ID:caijingtuya)公
-
知乎推送李玉刚跳河消息翻车,应让标题党付出沉重代价 天天短讯
评论员王晓娜这两天,不少网友称,自己收到了知乎名为李玉刚跳河自尽的前因后果的推文。随后,李玉刚晒电影
-
每日消息!自己给自己发骚扰广告?信息泄露的“黑洞”应牢牢补上
4月27日,在微博、小红书等社交平台上,大量网友反映当天在某购物平台上收到陌生的聊天招呼,内容均为骚扰
-
让路让景给外地游客很赞,但千万别搞强制
五一来临,为了迎接外地游客,各地纷纷出大招。继淄博发出倡议把烧烤让给外地人,长沙市发出倡议把长沙让给
-
宁夏两节会品牌入选“中华美食荟”
4月28日记者从自治区商务厅获悉,我区“浪宁夏·品味道”2023宁夏美食文化节和中国面食博览会暨吴忠早茶...
-
空调行情现复苏趋势!格力、美的争当“空调王”,押宝多元化_速递
4月28日晚,美的集团(000333 SZ)、格力电器(000651 SZ)先后发布2022年年报。2022年,格力电器营收1889
精彩推荐
阅读排行
精彩推送
- 当前消息!对话北汽集团副总经理...
- 【世界报资讯】未能实现销售目标...
- 在华停产、承认落后、销量下滑,...
- 热议:奇骏还能进入主流吗?
- 集度与小米,谁先撑不住?
- 春雪邂逅春坤山_环球热推荐
- 全球通讯!PC 行业生力军开拓市...
- 全球消息!更加流畅!小米 13、...
- “五一”来赛罕区,让你畅吃、畅...
- 飒特发布 5G 户外三防手机,可...
- 西藏:多措并举促高原经济跑出“...
- 腾腾夜经济,奉化百年老街重燃繁...
- “五一”线下演出一票难求:黄牛...
- 不鼓励生孩子了?马斯克大砍推特...
- ES6新车未上,ES7老车主已受伤,...
- 青山区:首届农副产品展销会陪你...
- 致敬劳动者|岳瑞存: 新能源行...
- 全球新资讯:春雪邂逅春坤山
- 包头机场将迎客流高峰
- 世界简讯:市市场监管局发布消费提示
- 上汽大众凌渡L获得中国汽车健康...
- 日产ARIYA艾睿雅荣获Green NCAP...
- 环球热文:1799 元起 小米电视...
- 米哈游《崩坏:星穹铁道》上线腾...
- ChatGPT 标注指南来了!数据是关键
- 环球简讯:西方制裁不管用!俄油...
- 焦点快报!AI哨所|意大利解禁Cha...
- 今年 Q1 国内手机出货量持续下...
- 全球最资讯丨飒特发布消费品战略...
- 速递!什么是中级职称评审_什么...