Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 3|回復: 0

“意义匹配和“合理的延续并无二致

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 2024-3-20 13:57:53 | 顯示全部樓層 |閱讀模式
模型的目标是确保新生成的词不仅在语法上正确,而且要语义上与前文保持一致,情感上与整体语境相符, 仿佛出自人类之手 。 文中的“合理意味着生成的文本应该是连贯的、有意义的,并且符合人类自然语言的表达习惯。 那什么是“延续?所谓延续是指模型生成的文本应该能够自然的融入到已有的文本中,让读者感觉就像是人类作者所写,是对上下文语义的延续、情感的延续、风格的延续。 ChatGPT在接收输入文本,然后看看接下来出现的是什么词,以及这些词出现的概率是多少,然而它不是只看字面上的文本,而是寻找在某种程度上“意义匹配的事物。这里的,都是为了让读者感觉就像是人类作者所写。


值得一提的是,当chatgpt做一些事情,比如写一篇文章,它实 冰岛手机号码数据 质只是一遍又一遍的询问“根据当前文本,下一个词应该是什么,并且每次添加一个词。更准确的说,它每次都添加一个“标记token,而标记可能是一个单独的词,也可能是词组的一部分,这也就是它有时可以‘造词’的原因。 需要说明的是,“每次添加一个词。更准确的说,它每次都添加一个“标记,这里的“每次添加一个词是ChatGPT在生成文本时的基本操作。这里的“词在中文中通常对应一个汉字或一个词组,而在英文中,由于单词可能有多个字母组成,所以这里的“词可能是一个完整的英文单词,也可能是单词的一部分,如“cats中的“cat,具体如何,取决于模型的训练方式和所使用的语言。





“标记token是自然语言处理NLP中的一个概念,它代表了文本中的一个基本单位。在英文中,一个标记可以是一个单词、一个标点符号,甚至一个字词单元,如“un来自“unversity或“ing来自“running。在中文中,由于汉字本身就是一个完整的词,所以一个标记通常对应一个汉字。在ChatGPT中,模型会根据这些标记理解和生成文本。 那是否意味着,在使用中文和LLM模型对话时,每次都只会生成一个词或添加一个标记呢。 答案也不尽然,在中文的自然语言处理中,由于中文的书写习惯和语言结构,一个汉字通常被视为一个基本的语言单位,也就是一个token。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|GameHost抗攻擊論壇

GMT+8, 2025-1-30 13:26 , Processed in 0.051262 second(s), 17 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |