自ChatGPT发布以来,各种大型模型相继出现。绝对是各行各业文字、脑力劳动者的效率神器,产量大幅提升。
例如,在近期的研究成果中,清华大学、芝加哥大学、谷歌的研究人员利用AI工具(模型性能F1值为0.876)分析了六大学科的6790万篇研究论文。结果发现,使用AI工具的科学家发表的论文数量增加了67.37%,引用次数是未使用AI工具的科学家的3.16倍,并且提前4年成为团队领导者。
论文链接:
但一切都是有代价的。
“AI模型”的潘多拉魔盒一旦打开,意味着研究人员不再广泛探索科学领域,而是专注于某个小课题。大多数使用人工智能模型发表的论文都属于现有的、数据丰富的领域。 。
换句话说,大型模型不会帮助研究人员创建新领域。它们虽然提高了个体科研生产力,但却大大降低了整个科研集体的多样性和广泛参与性。
44 年,6800 万篇论文
人工智能工具与知识生产密切相关。例如,AlphaFold通过学习已知的蛋白质结构来准确预测未探索的结构,避免了传统结构推理中的资源消耗和劳动力成本,并因此获得了2024年诺贝尔奖。
经过深度强化学习改进的模型已经能够处理复杂的核聚变反应,并发现了新的硬件优化形式的矩阵乘法,加速了深度学习本身的发展。
此外,大规模语言模型可以很好地帮助研究人员修改和完善论文写作,促进研究成果的提炼和传播。
尽管人工智能模型越来越多地参与科学研究,但仍然没有对人工智能的科学影响进行大规模的实证评估。
因此,本文研究团队主要提出并回答一个问题:个别科研人员基于自身兴趣选择AI模型进行辅助时,对整个科学界有何影响?
研究人员使用 OpenAlex 数据集中 1980 年至 2024 年的 1.09 亿篇论文进行了大规模定量分析,这些论文选自六个学科(生物学、医学、化学、物理学、材料科学和地质学)。 ,覆盖主要自然科学学科,并刻意排除计算机科学和工程以避免AI相关从业者的影响,最终获得约6800万篇论文。
然后使用BERT语言模型根据“标题”和“摘要”内容来区分论文中使用的技术是机器学习、深度学习架构还是基于Transformer的大模型。
尽管各学科每年发表的论文数量总体上有所增加,但从1980年到2024年,地质学中AI论文的份额增加了21.39倍,材料科学中增加了241.36倍;同样,采用AI的研究人员比例增长更快,从地质学的42.36倍增加到物理学的307.40倍。
研究人员将过去几十年人工智能的发展分为机器学习(ML)、深度学习(DL)和大型语言模型(LLM)时代。三个时代的增长速度逐渐加快,这表明人工智能在科学上的普及。增长率,以及了解人工智能对科学研究和进步的影响的重要性。
人工智能是职业加速器
从引用统计数据中,研究人员注意到,从发表之日起到几十年后,人工智能(AI)论文的年被引用次数持续高于非 AI 论文,并且不同时期发表的AI论文也较高。
此外,研究人员还考察了 AI 辅助论文在不同期刊引证报告(JCR)分位数中的分布情况,发现在 Q1 期刊中,所有期刊中 AI 论文的比例比非 AI 论文的比例高出 18.60%; Q2期刊中AI论文占比仅高出1.59%,而Q3、Q4期刊中包含AI的论文比例相对较低。
结果显示,人工智能辅助论文在期刊之间分布不均,在高影响力期刊中更为普遍。
AI论文逐渐受到更多关注,AI研究者的影响力也显着提升。平均而言,使用 AI 的研究人员每年发表的论文比不使用 AI 的研究人员多 67.37%,而他们获得的引用次数则是后者。 3.16时代,这种趋势体现在各个学科领域。
为了研究人工智能采用对职业发展的影响,文章将科研人员分为两类:“初级”(尚未领导过研究团队)和“高级”(已领导过团队),并提取了3.51数据集中的百万条职业轨迹。
分析显示,人工智能研究将导致团队规模缩小,每个研究团队平均减少1.5名科研人员。其中,初级科研人员平均人数从非AI团队的2.31人减少到AI团队的1.47人(减少了36.45%),高级科研人员平均人数从4.14人减少到3.48人(减少了15.95%)。 %)。
在所有学科中,采用人工智能的初级科学家晋升高级科学家的概率为 49.92%,比未采用人工智能的同行高出 32.01%,这表明人工智能为初级科学家提供了更多领导研究团队的机会,并减少了留在学术界的风险,从而促进他们从初级科学家到高级科学家的职业转变。
为了进一步量化这种影响,研究人员使用了生死模型,并根据科学家的职业轨迹拟合了模型参数 λ。结果发现,采用人工智能的初级科学家成为高级科学家的预期时间比同龄人短大约四年;采用人工智能的初级科学家的预期过渡时间为 6.84 年,而没有采用人工智能的科学家的预期过渡时间为 10.90 年。
进一步分析显示,这种晋升时间缩短的现象在所有学科中都很普遍,而且在各个学科中,参与人工智能论文的资深科学家的平均年龄比参与非人工智能论文的资深科学家的平均年龄要年轻。
科学探索的范围缩小
随着人工智能(AI)在科学中的应用加速,及其在推动初级科学家成为高级科学家方面的作用,人们的注意力开始集中在人工智能对跨科学领域知识分配的潜在影响上。
为了评估人工智能如何影响跨科学领域的研究前沿,研究人员设计了一种衡量标准来描述一组研究论文所代表的“学术关注的广度”。
具体来说,我们首先使用在大量科学文献上进行预训练的文本嵌入模型 SPECTRE 2.0,在每个领域给定相同大小的样本量的情况下,计算代表人工智能和非人工智能论文的主题覆盖率;与传统研究相比,人工智能研究将跨科学知识的集体广度缩小了 4.96%,而且这种效应在六个学科中是一致的。
此外,当学科细分为200多个子领域时,可以观察到70%以上子领域的知识广度出现了萎缩;当比较各个领域的人工智能和非人工智能研究的知识分布熵时,结果显示,人工智能研究的知识分布熵明显较低,表明越来越关注具体问题而不是整个领域。
也就是说,个人和集体采用人工智能的动机之间存在冲突和矛盾:研究人员获得了更多的个人影响力,但整个科学领域的知识范围却缩小了,只关注那些最适合人工智能研究领域的领域,比如那些数据丰富。
虽然人工智能可能给个别科学家带来好处,但它也可能缩小整个科学探索的范围。
AI研究蜂拥而至,创新冗余
为了分析人工智能研究中个别论文与研究人员影响力不断增长和领域知识范围不断缩小之间的冲突背后的机制,研究人员研究了引用人工智能辅助和非人工智能工作的论文之间的关系。
首先,我们检查单篇论文“引文家族”的知识空间特征,即一篇原始论文及其所有后续引用。结果表明,与非AI论文相比,单篇AI论文的引文家族的知识空间更大。因此,多样性,领域知识空间的缩小并不是因为基于人工智能与非人工智能研究的论文范围缩小。
然后,研究人员通过测量后续论文的参与程度(即同一原始论文中相互引用的频率)来检查论文之间的关系。结果显示,人工智能研究产生的后续参与度比非人工智能研究少 24.40。 %,说明AI论文更倾向于延伸原创论文而不是相互互动,而互动恰恰是推动新兴领域发展的关键要素。
这种集中度的进一步证据可以在不同领域人工智能论文被引用的马太效应中找到:在人工智能研究中,少数超级明星论文占据主导地位,大约 20% 的顶级论文获得了 80% 的引用,而 50 篇顶级论文则获得了 80% 的引用。 % 的论文获得 95% 的引用。这种不平等的分布导致人工智能研究的引用模式的基尼系数为0.753,高于非人工智能论文的0.684,表明识别的不平等正在加剧。
最后,研究人员还检查了引用相同原创作品的论文对之间在向量空间中的距离,区分了相互引用的论文,发现科学界的人工智能更关注特定的热点话题,导致更多重复的想法。重复创新,与科学知识范围和多样性的减少有关。
参考:
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273477.html