媒体研究

中文网站占比少,中文互联网内容正在衰退吗?

“全球前100万网站中,中文网站的比例只占1.3%,英文占59.3%”;
中文网页数量仅仅略高于印尼语和越南语”;
“中文网页的数量十年间下降了70%”……

这类关于中文互联网内容占比低、迅速衰退的说法,在互联网上已经流行了很长时间。中国有超过10亿的网民,却连互联网内容的一角都占据不了,甚至还在继续倒退,这种反差感不能不让人印象深刻。这是真的吗?

有缺陷的数据

这些说法的数据都有同一个来源,监测网站W3Techs,它通过分析访问量最高的1000万个网站来确定互联网内容的语言分布。现在网上很多关于互联网语言多样性的讨论,就建立在W3Techs的数据之上。按照W3Techs的数据,英文内容始终是互联网的主流。

然而法国学者丹尼尔·皮米恩塔(Daniel Pimienta)和他的合作者不认同这个观点。皮米恩塔是FUNREDES(Fundación Redes y Desarrollo,网络与发展基金会)的创始人之一,他和合作者一直致力于研究互联网语言的多样性和文化分布。联合国教科文组织曾经委托他制作关于互联网语言多样性的主题报告。

有趣的是,皮米恩塔当年踏入互联网语言多样性研究的契机,也是因为法国人对互联网英语内容占比的高估。1995年,时任法国总统希拉克在一次峰会上表示,互联网几乎一个100%讲英语的领域。但在皮米恩塔看来,这样的说法根本经不起验证。

当时流行其他说法也不可靠,比如一项1999年的研究提到英文内容占互联网达到80%。但这项研究仅仅对3000个网站做了一次抽样,而没有多次重复得出数据的特征,这在统计上是不过关的,但这个数据在当时被反复引用。

互联网语言多样性的数据其实一直很不完善。1998年,研究人员首次采用基于搜索引擎的数据方法研究互联网语言多样性。然而,到2007年,他们发现搜索引擎报告的可靠性下降,只能去寻找新方法。自2011 年以来,讨论互联网语言分布的政策制定者和语言学研究者,都不得不完全依赖W3Techs和InternetWorldStats,这两个数据源都来自商业营销领域,用它们的数据是一种无奈之举。

W3Techs的方法存在显著缺陷,尤其忽视了互联网的多语言特性。例如,许多网站同时使用多种语言,但W3Techs通常只记录其中一种主要语言,导致了对非主要语言内容的严重低估。这样的统计方法导致英语之外的互联网语言存在被大大低估。

另外,W3Techs的计量单位是网站,没有详细到网页的程度。一些非英文网站会在其主页中出现英文摘要或少量英文单词,这可能会导致整个网站被算作英文网站。此外,许多英文网站的其他语言版本也不会被计算在内。

中文互联网内容到底占比多少?

为了纠正这种误解,皮米恩塔和他的合作者开发了一种新的统计方法。他们的方法不仅依赖于网站声明的语言,还结合了多个关键因素,包括互联网用户的语言偏好、不同地区的网络流量、社交网络的订阅情况及各国互联网服务的发展进度等。这种综合考量使得研究结果更具代表性和准确性。

尽管W3Techs等网站数据显示,互联网上英文内容占比超过50%,但这项研究表明,这一比例实际上大约只有20%。

具体来说,现在英文占到互联网内容的20.4%,中文占到18.9%,西班牙语占7%到9%,其他语言如阿拉伯语、印地语、俄语、法语和葡萄牙语分别占3%到4%。相比W3Techs的数据,这项研究中印地语和中文内容的比重都增加了超过10倍。按这项研究的计算标准,中文内容不仅没有减少,反而在全球范围内持续增长。

比例上有所下降的反而是英文内容。从1998年到现在,英文内容的比例从已经从80%下降到20%。但这并不是因为英文内容消亡了,而是其他语言的内容显著增加,削弱了英文内容的相对比例,而中文内容就处于增长之中。

按照皮米恩塔与合作者长期以来的跟踪。互联网的发展可以划分为几大阶段。最初,从1992年到2000年,网络主要围绕着英语内容构建。随后进入了第二阶段,从2000年到2010年,这一时期以欧洲语言的兴起为特征,尽管英语仍然占据主导地位。从2010年到2020年,互联网迈入了更加国际化的阶段,亚洲语言和阿拉伯语等非西方语言迅速发展。

很难说皮米恩塔的统计就能代表互联网语言分布状况的真相。毕竟这方面的研究并不多,研究团队的结果缺少交叉印证,而且他们的计算标准本身也在迭代过程中。

论文中也提到,互联网语言测量领域是两个偏差相当普遍的领域的交叉点:语言人口学和网络。在这两个领域中,对数据并没有达成很好的共识。根据资料来源的不同,在一些数字上可能会出现很大的差异,比如在某个国家有多少人讲这种语言,或者网页的总数到底是多少。

但他的研究至少说明,过去普遍被引用的W3Techs数据是有偏见的。中文的互联网内容占比未必少到了和越南语一个程度,中文互联网内容的迅速消亡也并非是一个定论。

衰退的,不只是中文互联网内容

2005年,一位商学院的学生正在为自己的学费发愁,考虑如何赚钱来填补学费。很快他有了一个主意,“百万美元主页”。这是一个一百万像素的广告页,每个像素一美元,以100个像素为一组售卖广告位。一年之后,他真的成了百万富翁。

到2019年,百万美元主页依然在运作,但上面40%广告位的链接都指向无效网站,还有很多广告位背后的网站已经多次变化,指向全新的域名。百万美元网页不仅展示了一个经典的商业案例,更展示了早期互联网内容的衰退。

对于互联网内容来说,这样的衰退其实每天都在发生。今年5月,皮尤研究中心的一项新研究发现,截至 2023 年 10 月,2013 年至 2023 年间一度存在的所有网页中,有四分之一已无法访问。2013年的网页有38%已经消失。哪怕是2023年的网页,到这一年的十月份都有8%已经无法访问了。

团队从互联网快照数据库Common Crawl 的档案中随机收集了近 100 万个网页样本,对 2013 年到 2023 年每一年 Common Crawl 收集的页面进行抽样(每年大约 90,000 个页面),并检查这些页面是否仍然存在。

这项研究旨在调查有互联网上有多少内容已经无法访问。研究者无法访问的网站定义为在其主机服务器上不复存在的网站,也就是我们熟悉的404错误还有它的变体。有些网页相比过去出现了面目全非的变化,其实也可以算作是消失了,但这类情况并不是此次研究的重点。

具体到各个领域。政府网站有21%至少包含一个损坏的链接。新闻网站页面上的所有链接中有5%无法访问,抽样的所有页面中23%至少包含一个损坏的链接。按网站流量排名前 20% 的新闻网站中,约有 25% 的页面至少有一个损坏的链接。近五分之一的推特帖子,在三个月左右的观察期内也不再可见。

在学术领域,也有很多数字化的论文从互联网上消失。数字化的学术论文通常有着唯一且不变的DOI,以确保学术链接和引用的持久性,然而现在很多DOI背后的作品却已经无法找到。

伦敦伯克贝克大学文学、科技和出版研究员马丁·伊夫(Martin Eve)对超过70万篇带有DOI的数字学术论文进行调查,发现接近28%的论文没有出现在主要的数字档案库中,也就是说,超过200万学术论文没有得到保存。

或许是互联网并没有实体,保存互联网信息的成本很难直观看到,我们就有了互联网信息可以持续存在的错觉。实际上无论从成本还是工作量上,互联网内容的存储从来都是一个难题。互联网内容永远在持续的增长中,无论是归档还是存储都要花钱,问题是这些钱谁来付?

高质量信息更难找了

普通人切身感到的互联网信息的衰退,有时候未必是信息不存在了,而是我们搜不到了。

问题出在搜索引擎上,现在搜索引擎无法像过去一样在信息搜索上稳准狠。输入关键词得到答案,这种直观而清晰的互动体验正在减少。今天我们在搜索引擎输入关键词,得到的往往是内容同质、信息重复、挂着各式广告信息的软文。

2022年,一位工程师发布了一篇名为“谷歌搜索正在死亡”的博文(Google Search Is Dying),表示谷歌的搜索结果一团糟,如果搜索菜谱、健康内容或者商品评论,排在最前面的几个非广告结果都是格式一致、内容重复的软文,正文还是会有大量的广告和链接。

这是搜索引擎商业模式所不能避免的问题。让内容占据搜索引擎的黄金位置本身就是一项称为搜索引擎优化(SEO)的业务。这种业务不同于竞价排名,是利用搜索引擎算法漏洞,通过大量重复关键词、伪原创内容或不相关链接来提升网页排名。为人熟知的小编体,就是这种针对搜索引擎,刷关键词骗点击量的产物。

根据市场研究公司 IBISWorld 的数据,去年 SEO 业务价值 760 亿美元。搜索引擎优化已成为大多数网络营销的重要组成部分,出现在显眼位置的网站可以通过商品链接的返佣赚钱,其中一些甚至干脆就是诈骗网站。

为了保证内容的可靠,现在很多用户在搜索词后面加上了 “reddit”,来搜索reddit论坛里的用户真实看法。要不是reddit始终没有认真开发搜索功能,恐怕倒向reddit的用户会更多。

在今年的欧洲信息检索会议(European Conference on Information Retrieval)上,四位来自德国的研究者发布了一项名为《谷歌在变坏吗?》(Is Google Getting Worse?)的研究,回应了网民对于搜索引擎的质疑。这项研究的起点就是网民对于搜索引擎质量日渐下降的抱怨,结果说明,网民的直觉是对的。

研究团队利用一年时间,监测了Google、Bing和DuckDuckGo搜索结果的变化,发现所有搜索引擎在处理SEO内容上存在问题,远超过整个网络平均情况。越是靠前的内容,越是做了更多优化而且有更多返佣链接,链接越多内容的复杂性越差。其中联盟营销内容(为平台推广产品,获取点击或返佣的内容)仅占网络产品评论的小部分,但它却在搜索结果中占据主导地位。不仅是谷歌,所有搜索引擎均遭受垃圾信息的困扰。

搜索引擎运营商在尝试通过排名算法更新来打击SEO和联盟营销内容。从搜索结果上看,Google的更新产生了明显但短暂的效果,从实验开始到结束,Google的联盟垃圾量有所减少。高质量的杂志和社交平台通常在多次抓取中稳定出现在谷歌搜索结果的前列,而纯粹的产品评论农场和一些频繁的垃圾站点则相对短暂,常在Google排名更新后消失。

雅虎前CEO、谷歌早期员工玛丽莎·梅耶尔(Marissa Mayer)表示,如果说谷歌搜索变糟了,那是因为整个网络都变糟了。在她刚为谷歌工作时,互联网只有3000万个网页,对所有网页进行爬取和编制索引更为简单。而现在谷歌面对的可能是上万亿个网页。在经济诱因的驱动下,虚假信息、骗取点击量的内容以及广告链接不受监管地迅速增长。

AI技术进步后,互联网上这类垃圾信息越来越多。网络安全公司 Imperva 今年的一份“不良机器人”报告表明,去年所有互联网流量中近一半(49.6%)来自机器人,这是从2013年以来的最高水平。特别是不良机器人,占现在所有流量的三分之一。

Imperva应用安全总经理Nanhi Singh表示:“自动机器人将很快超过来自人类的互联网流量比例……随着更多人工智能工具的推出,机器人将变得无所不在。”

随着互联网内容的膨胀,谷歌只能像打地鼠一样追着隐藏在数十亿网站中的骗子们打。前述论文作者说,这是一场持久战,而搜索引擎输掉了这场“与SEO垃圾内容之间的猫鼠游戏”。

搜索引擎逐渐迷失是一个世界性的问题,对于中文互联网用户来说,高质量的数据更为受限,比如一些行政公开数据。

中国公开数据的透明度一度有着明显地上升。2013后的几年里,国家统计局的统计指标(如人口数据、经济统计数据等指标)数量增加了 673%。《中华人民共和国政府信息公开条例 》也在2019年进行了修订,强调了“坚持以公开为常态、不公开为例外”的信息公开原则。

然而2015年达到顶峰后,信息公开又出现了下降的趋势。

不同类型的信息公开程度不同。法律法规是公民和企业生计相关的事项,因此相对透明。相反,与内部工作流程相关的文件透明度较低。随着对安全的强调,普通人看到了越来越多健康、消费、价格、就业等相关数据,但是更少看到能源、科技、创新、金融等方面的公开信息。

尤其是科技创新方面的信息,从2017年之后公开文件的比例就逐步下降,到2022年的公开比例更是达到2009年来的低点。

文件的保存程度也很堪忧。只有78%的政策文件链接在发布两年后仍然可用。失效的文件大部分与网站无法访问或网站更新有关。其中一些可能在其他地方仍可获取,但这只是一部分。

对于生活,这种变化可能并没有带来什么显著的不便利。但对于相对严肃的用户,比如科技行业的投资者,这些信息的缺失仍然会带来很多不便。相比同样深受互联网垃圾和广告信息发达国家,这些高质量信息的差距,可能才是中文互联网真正的短板。