百科问答小站 logo
百科问答小站 font logo



经验丰富的人有可能从文字乱码中直接读出信息吗? 第1页

  

user avatar   aee-ayu 网友的相关建议: 
      

會熟悉一些亂碼特徵,會較快反應出來原本是哪種語言以及被錯誤地用哪種編碼。

比如看到全篇簡體字且有大量「酒」(아)「胶」(스)「父」(만)「捞」(이)等字的亂碼,可以確定是EUC-KR韓文被以GB顯示了。遇見大量半角片假名夾雜著少量複雜漢字的,基本可以確定是GB中文被以Shift_JIS顯示了。

我到現在還清楚地記得「酒福力胶」。

早期跨語言遊戲玩家對於經常看到的短語會記得一些常見的對應,但是主動去記憶它們的對應完全沒有必要,程序員更是不會做這種無意義的事兒,編碼轉換是常識。且GB若被以Shift_JIS顯示,因爲每個字符使用的字節數不同,兩者顯示出來的字符無法一一對應。


user avatar   maigo 网友的相关建议: 
      

现在的 CJK 文字一般都使用 UTF-8 编码了,所以乱码已经比较少见了。

二○○几年的时候,日文编码主要有两种:EUC 和 Shift-JIS,(简体)中文编码主要就是 GBK。

EUC 编码和 GBK 编码中,假名的编码是相同的,所以把 EUC 编码的日文按 GBK 编码打开,只有汉字会乱码。大概就是这个画风:

この坤であなたの唉を 缄に掐れるもの
唾るライト斧つめて撕れない ahh 奇が豺けてゆく

矾はまだ 悼うことなく
艇茫と钙べた泣」 册ごし 海もずっと

无あふれ 贿まらなくて
己うことだけを 兜えてゆくつもり

警しでも帕えたくて 烬む看が
どんな沸赋しても やっぱり搪うのよ

この坤であなたの唉を 缄に掐れるもの
唾るライト斧つめて撕れない ahh 奇が豺けてゆく

如果文本中汉字的密度不高的话,根据假名就能猜出不少汉字,就跟完形填空一样;常见的汉字见多了,就连猜也不用猜了。EUC 里的汉字是按音读顺序排列的,它们的编码对应着 GBK 的一级汉字区,这个区里的汉字是按拼音顺序排列的。当你记住了一些常用字的对应关系后,还可以用二分法猜测不常见的字。总体而言,熟练的人能看懂相当一部分。

而 Shift-JIS 编码中的假名,按 GBK 编码打开后,则会变成一大堆单人旁的生僻字:

偙偺悽偱偁側偨偺垽傪 庤偵擖傟傞傕偺
梮傞儔僀僩尒偮傔偰朰傟側偄 ahh 撲偑夝偗偰備偔

孨偼傑偩 媈偆偙偲側偔
桭払偲屇傋偨擔乆 夁偛偟 崱傕偢偭偲

椳偁傆傟 巭傑傜側偔偰
幐偆偙偲偩偗傪 嫵偊偰備偔偮傕傝

彮偟偱傕揱偊偨偔偰 彎傓怱偑
偳傫側宱尡偟偰傕 傗偭傁傝柪偆偺傛

偙偺悽偱偁側偨偺垽傪 庤偵擖傟傞傕偺
梮傞儔僀僩尒偮傔偰朰傟側偄 ahh 撲偑夝偗偰備偔

看上去就有一种要晕的感觉,破解难度明显增加。不过,据说有些游戏玩家能背下来这些生僻字与假名的对应关系,这是真爱啊!


墙外的知友,可以来看 QuizKnock 的成员们人肉解读乱码:




  

相关话题

  给日本的女友寄东西,填收件人信息把姓氏写漏一个字母,正好是她爸爸收的件,她爸爸非常愤怒,怎么办? 
  31 省区市 2020 年平均工资出炉,信息传输、软件和信息技术服务业排前三,还有哪些信息值得关注? 
  中文、日文、韩文等从象形文字发展来的文字会不会最终被淘汰? 
  如何看待南京德云社的「德」字因为少一横遭游客怒斥? 
  近代以来汉字简化对普通大众识字读书,消除文盲有多大帮助? 
  你能写出哪些尽可能长的全是简繁同形字(传承字)或全是简繁异形字组成的句子? 
  你认为,哪个字、哪个词最能代表你的 2019 年? 
  如何评价二里头遗址陶簋上的考古修补符号,被国博李维明先生当成古文字研究并发表论文? 
  存在将「ə」引入字母表的正字法吗? 
  前任不回应分手信息,还需要去要个答案吗? 

前一个讨论
jQuery为什么还在发布新版本?
下一个讨论
面试官是怎么看出面试者不自信的?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利