New Bing 加成 ChatGPT 有点离谱啊

cnlhx · 发表于 2023-2-13 10:14:35

本帖最后由 cnlhx 于 2023-2-13 10:17 编辑

我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据？比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。我们看看 GPT-3的训练数据是什么。权重最大的数据集是 OpenWebText（开源版本）,数据是从 Reddit论坛上收集的URL，再把内容抓取下来。Common Crawl是一个开放的互联网数据存档（英文占一半，中文大概5%）。其他一些代表性的数据包括 wikipedia维基百科，Books 开放图书，Stack Exchange 技术问答社区，Github 代码，ArXiv论文，ReallNews 新闻存档，PubMed 医疗数据。可以看到，由中文互联网产生的数据，比例低到可以忽路。这也是困扰很多试图训练中文大模型的问题，但实际上，ChatGPT的用中文沟通的能力，已经远超那些专门的中文大语言模型了，背后原因是GPT隐式学到的翻译能力。没有好的中文数据，我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生，需要开放的社区，我们似乎无解。
转自tg频道：扫地僧笔记（https://t.me/lover_links）

		自动登录	找回密码
密码			注册

[经验] New Bing 加成 ChatGPT 有点离谱啊