全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1875|回复: 9
打印 上一主题 下一主题

[经验] New Bing 加成 ChatGPT 有点离谱啊

[复制链接]
1#
发表于 2023-2-13 10:14:35 来自手机 | 显示全部楼层
本帖最后由 cnlhx 于 2023-2-13 10:17 编辑

我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。 我们看看 GPT-3的训练数据是什么。权重 最大的数据集是 OpenWebText(开源版本),数据是从 Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中 文大概5%)。其他一些代表性的数据包括 wikipedia维基百科,Books 开放图书,Stack Exchange 技术问答社区,Github 代码,ArXiv论文,ReallNews 新闻存档,PubMed 医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽路。这也是困扰很多试图训练中文大模型的问题, 但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。 没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。
转自tg频道:扫地僧笔记(https://t.me/lover_links)
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2024-5-17 03:08 , Processed in 0.056931 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表