shafi987@gmail. 發表於 2024-3-20 13:57:53

“意义匹配和“合理的延续并无二致

模型的目标是确保新生成的词不仅在语法上正确,而且要语义上与前文保持一致,情感上与整体语境相符, 仿佛出自人类之手 。 文中的“合理意味着生成的文本应该是连贯的、有意义的,并且符合人类自然语言的表达习惯。 那什么是“延续?所谓延续是指模型生成的文本应该能够自然的融入到已有的文本中,让读者感觉就像是人类作者所写,是对上下文语义的延续、情感的延续、风格的延续。 ChatGPT在接收输入文本,然后看看接下来出现的是什么词,以及这些词出现的概率是多少,然而它不是只看字面上的文本,而是寻找在某种程度上“意义匹配的事物。这里的,都是为了让读者感觉就像是人类作者所写。


值得一提的是,当chatgpt做一些事情,比如写一篇文章,它实 冰岛手机号码数据 质只是一遍又一遍的询问“根据当前文本,下一个词应该是什么,并且每次添加一个词。更准确的说,它每次都添加一个“标记token,而标记可能是一个单独的词,也可能是词组的一部分,这也就是它有时可以‘造词’的原因。 需要说明的是,“每次添加一个词。更准确的说,它每次都添加一个“标记,这里的“每次添加一个词是ChatGPT在生成文本时的基本操作。这里的“词在中文中通常对应一个汉字或一个词组,而在英文中,由于单词可能有多个字母组成,所以这里的“词可能是一个完整的英文单词,也可能是单词的一部分,如“cats中的“cat,具体如何,取决于模型的训练方式和所使用的语言。


https://lh7-us.googleusercontent.com/J8kRrMq_xRqVmX2zf03wK92rBATnTdLQ0m92sLi3snrc40ufoE2plukEpbz0QAGbvpwuUd4E_8q7lTISBN6wWtNvd5r_qSK-nUcyP6Q-UCrTronjTFOmu0E6h9WnXEmF5umBdQCjOTl3keyL


“标记token是自然语言处理NLP中的一个概念,它代表了文本中的一个基本单位。在英文中,一个标记可以是一个单词、一个标点符号,甚至一个字词单元,如“un来自“unversity或“ing来自“running。在中文中,由于汉字本身就是一个完整的词,所以一个标记通常对应一个汉字。在ChatGPT中,模型会根据这些标记理解和生成文本。 那是否意味着,在使用中文和LLM模型对话时,每次都只会生成一个词或添加一个标记呢。 答案也不尽然,在中文的自然语言处理中,由于中文的书写习惯和语言结构,一个汉字通常被视为一个基本的语言单位,也就是一个token。

頁: [1]
查看完整版本: “意义匹配和“合理的延续并无二致

一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |