字节跳动新抓取机器人比OpenAI机器人快25倍,或面临多重法律风险及美国监管审查
据外电报道,TikTok 母公司字节跳动正在加大训练生成式 AI 模型的力度,推出了一款新的网页抓取工具Bytespider 。该款机器人于 4 月推出,现已成为最活跃的网页抓取工具之一。 机器人管理公司 Kasada 和机器人监控公司 Dark Visitors 的研究显示,字节跳动的 Bytespider 抓取网络数据的速度比 OpenAI 用于 ChatGPT 平台的网络抓取工具 GPTbot 快 25 倍。它的抓取速度也比 Anthropic 用于其 Claude 平台的抓取工具 ClaudeBot 快 3,000 倍。 字节跳动似乎正试图快速收集尽可能多的数据,以赶上谷歌、Meta 和 OpenAI 等其他科技巨头,这些公司都使用网络爬虫收集大量在线数据来训练他们的大型语言和多模态模型(LLM 或 LMM)。 然而,与其他人工智能公司使用的一样,字节跳动的抓取工具并不遵守 robots.txt 文件,该文件旨在向抓取工具发出信号,避免从特定网站获取数据。 尽管 robots.txt 不具有法律强制力,但对它的忽视引发了争议,因为网络抓取通常被视为侵犯版权,特别是在用于训练人工智能模型时。 由于生成式人工智能工具严重依赖网络数据来运作,因此抓取数据已成为一个有争议的问题,许多个人和组织认为他们的作品被无偿复制。这种做法已经存在了几十年,主要针对搜索引擎,但人工智能的兴起带来了新的法律和道德问题。 字节跳动此前因抓取微信公众号文章而被腾讯起诉,索赔 1 亿元,原因是其无视了微信公众号的 robots.txt 协议。如今,Bytespider 再次无视该协议,继续大规模抓取网络数据。这种行为是否会再次引发类似的法律纠纷,成为业界高度关注的焦点。 #电子资讯# #爬虫#
#电子资讯#
#爬虫#
硬创社
全部评论 默认 最新
已折叠部分评论 展开
没有更多啦~