切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
Karpathy大神问懵DeepSeek!一个emoji竟藏了53个Token ...
菲龙网编辑部7
有 744 人收听 TA
150468
主题
150485
回复
176689
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/44
农发行2024年投放超千亿元贷款支持水利建设
0/51
警惕身边金融新“陷阱”!别让黑手伸向你的“钱袋子”
0/50
一汽解放:拟使用不超100亿元自有资金进行委托理财
0/42
孙婉迪:“不专一”的投资该怎么做?|E起说·总决赛
0/48
中国太保:1月两家子公司累计原保险保费收入超762亿元
0/52
江西农商联合银行高管阵容出炉:省联社党委书记王东升、理事长梁卫华分获提名董事长、行长
0/43
马斯克质疑美国黄金储备量真实性
0/46
马斯克质疑美国黄金储备量真实性
0/31
冲刺“开门红” !有网点一天开卡80单
查看TA的全部帖子>>
Karpathy大神问懵DeepSeek!一个emoji竟藏了53个Token
时间:2025-2-15 10:29
0
306
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
白交 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
注意看,这个(笑脸emoji)竟然占了53个token!
Karpathy大神又带来他的新实验新发现了,结果直接问懵DeepSeek和ChatGPT。
思考过程be like:
DeepSeek硬是思考了十分钟也还是没有答上来,觉得要是“lol”这个答案就太简单了。
Karpathy表示:但其实就是这么简单。
随后他进一步解释了这背后的原因——
提示词注入
。将一些信息注入进字符中,表面上看没啥区别,但里面可以表达各种隐藏信息。对于善于思考的模型,就会很容易受到这个方法的影响。
来看看具体是咋回事。
一个emoji竟占53个Token
这一想法,源于Paul Butler的一篇博客。
他看到有人说,通过零宽连接符(ZWJ),可以把任意的文本藏在emoji符号当中。
结果一试发现真的可以,不过可以不需要ZWJ,隐藏信息的载体也不一定非得是emoji,任意Unicode字符都可以。
这背后的原理,涉及到了Unicode编码字符方式。
对于简单的字符(比如拉丁字母),Unicode编码点和字符之间有一对一的映射(例如u+0067表示字符g)。
但对于复杂一些的符号,就需要用多个序号连在一起的方式来表示了。
此外,Unicode当中还设置了VS-1至VS-256的变体选择符(Variation Selector),可以针对基础字符做出相应的变体,但本身却没有自己的“长相”。
并且只作用于极少部分字符,主要是Unicode中的中日韩统一表意文字(CJKUI),其他大部分的Unicode字符都不会有任何变化。
但当带有变体选择符的字符被复制粘贴时,选择符也会一起进入剪贴板。
而在Unicode当中,这样的变体选择符一共有256个之多,用来编码信息已经是绰绰有余了。
比如下面的这个a,只有U+0061表示的是其自身,剩下后面的10多个全都是变体选择符。
有了这一理论基础,接下来的事情无非就是建立正常字符和变体选择符之间的转换算法。
当然编码的内容越多,变体选择符也就越长,并且如果是汉字,还会产生更多的变体选择符。
比如我们试图将量子位的Slogan“追踪人工智能新趋势,关注科技行业新突破”藏在一个“100分”的emoji当中,产生的变体选择符数量达到了58个。
并且把解码算法告诉ChatGPT之后,原文本也可以被复原。
所以,看似是只有一个emoji,但实际上后面藏了多少字符,恐怕只有把文字装进去的人自己才知道了,甚至塞个《滕王阁序》进去也没问题。
而一个占53个Token的笑脸,相比之下就更加不足为奇了。
问懵DeepSeek
回到Karpathy的提示词注入,他测试了ChatGPT与DeepSeek。
ChatGPT回答在此:
DeepSeek-R1 花了10分钟思考差点就成功了。它认为隐藏的信息可能是Onli!n37e27i4h4he3ingle7odlol。因为觉得如果只是一个单词“lol”,那就是无稽之谈,所以就放弃了。
按照同样的提示词,我们也问了一遍DeepSeek-R1。
思考过程如下:
在思考了整整529秒之后,确实也是回答出来了lol的意思。
也有网友分享了相同的经历。Gemini无法解码,但Claude和GPT不仅识别出来,还能识别编码消息中的操作。
或者直接把这个表情包扔给模型,又该如何呢?
从网友的效果来看,ChatGPT察觉到了这背后可能有某些隐藏信息。
而DeepSeek-R1这次只花了153秒(有点进步)。它首先意识到这笔后跟着一系列Unicode字符。
并且还介绍了下:他们通常用于元数据,并且以不可见的方式呈现等等。。。
然后还试图给了下背后的信息应该是:
?^i Q^cgUb gYdX dXU cY^WU gbT
显然是回答错误的。
对于这一意外发现,Karpathy表示,原则上模型可以通过「变体选择器」variation selectors中找到隐藏的信息并按照说明进行操作。但由于这种编码界面方法可能过于具体,需要用提示来解释它。
他提到了一个方法,那就是将其收录到预训练中。这些知识注入到模型参数,模型就能够在没有提示的情况下解码这种特定的编码。
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部