“意义匹配和“合理的延续并无二致

shafi987@gmail. · 發表於 2024-3-20 13:57:53

模型的目标是确保新生成的词不仅在语法上正确，而且要语义上与前文保持一致，情感上与整体语境相符，仿佛出自人类之手。文中的“合理意味着生成的文本应该是连贯的、有意义的，并且符合人类自然语言的表达习惯。那什么是“延续？所谓延续是指模型生成的文本应该能够自然的融入到已有的文本中，让读者感觉就像是人类作者所写，是对上下文语义的延续、情感的延续、风格的延续。 ChatGPT在接收输入文本，然后看看接下来出现的是什么词，以及这些词出现的概率是多少，然而它不是只看字面上的文本，而是寻找在某种程度上“意义匹配的事物。这里的，都是为了让读者感觉就像是人类作者所写。

值得一提的是，当chatgpt做一些事情，比如写一篇文章，它实冰岛手机号码数据质只是一遍又一遍的询问“根据当前文本，下一个词应该是什么，并且每次添加一个词。更准确的说，它每次都添加一个“标记token，而标记可能是一个单独的词，也可能是词组的一部分，这也就是它有时可以‘造词’的原因。需要说明的是，“每次添加一个词。更准确的说，它每次都添加一个“标记，这里的“每次添加一个词是ChatGPT在生成文本时的基本操作。这里的“词在中文中通常对应一个汉字或一个词组，而在英文中，由于单词可能有多个字母组成，所以这里的“词可能是一个完整的英文单词，也可能是单词的一部分，如“cats中的“cat，具体如何，取决于模型的训练方式和所使用的语言。

“标记token是自然语言处理NLP中的一个概念，它代表了文本中的一个基本单位。在英文中，一个标记可以是一个单词、一个标点符号，甚至一个字词单元，如“un来自“unversity或“ing来自“running。在中文中，由于汉字本身就是一个完整的词，所以一个标记通常对应一个汉字。在ChatGPT中，模型会根据这些标记理解和生成文本。那是否意味着，在使用中文和LLM模型对话时，每次都只会生成一个词或添加一个标记呢。答案也不尽然，在中文的自然语言处理中，由于中文的书写习惯和语言结构，一个汉字通常被视为一个基本的语言单位，也就是一个token。

		自動登錄	找回密碼
密碼			立即註冊