"저작권", "등록 상표"및 "상표"기호가 이모티콘으로 간주되는 이유는 무엇입니까? [닫은]

Nov 17 2020

나는 지옥을 돌아 다니며 문자열에서 모든 이모티콘을 제거하는 방법을 알아내는 데 며칠을 보냈습니다. 제가 상상했던 것보다 더 많이 관여했습니다.

그러나 작동하게되면서 간단한 테스트를했고 거의 우연의 일치로 저작권 기호가 제거되었는지 테스트했습니다. 그랬다. 처음에는 시스템에 또 다른 버그가 있다고 생각했지만 목록에서 찾아 봤는데 실제로 이모 지로 간주됩니다.

00A9 FE0F; Basic_Emoji; 저작권 # E0.6 [1] (© ️)
00AE FE0F; Basic_Emoji; 등록됨 # E0.6 [1] (®️)
203C FE0F; Basic_Emoji; 이중 느낌표 # E0.6 [1] (‼ ️)
2122 FE0F; Basic_Emoji; 상표 번호 E0.6 [1] (™ ️)

출처: https://www.unicode.org/Public/emoji/13.1/emoji-sequences.txt

이 3-4 개를 제외하고는 다른 모든 것 (수천 개!)이 의미가 있습니다 ( "!!"는 나에게 회색 영역입니다).

공식적으로 "저작권", "등록 상표"및 "상표"기호를 이모티콘으로 간주하는 이유는 무엇입니까? 모든 종류의 "중요한 비즈니스"및 학술 논문에서 매우 형식적이고 일반적으로 사용되지 않습니까? 미친 다채로운 웃는 얼굴이 아닙니까?

답변

2 phuclv Nov 17 2020 at 10:13

유니 코드에서 "어리석은"것처럼 보이는 대부분의 것은 이전에 다른 인코딩에 존재했기 때문에 존재합니다. 유니 코드는 이전 인코딩 으로의 왕복 변환 이 가능 하도록 설계되었으므로 Nj, Dž, Ⅷ, ㎉, ㎓, ﷽ ...과 같은 "문자"에 대한 코드 포인트를 볼 수 있습니다. '텍스트

유니 코드 에는 이전의 표준화 된 레거시 인코딩과의 왕복 호환성이 있다는 원칙이 있으므로 문서를 유니 코드로 변환해도 정보가 손실되지 않습니다. 다시 변환 할 수 있습니다. 이를 위해 유니 코드 호환성 문자 가 도입되었습니다.

https://en.wikipedia.org/wiki/Round-trip_format_conversion#Character_encodings

이모티콘과 동일합니다. 이모티콘 소스 를 확인 하여 이모티콘이 유니 코드에 추가 된 이유를 알 수 있습니다.

이 파일은 유니 코드 코드 포인트와 시퀀스 간의 기록 매핑을 제공 하고 다른 한편으로는 휴대폰 통신사 기호에 대한 Shift-JIS 코드를 제공합니다. 각 매핑은 동등한 유니 코드 및 반송파 기호 또는 시퀀스에 대해 대칭 ( "왕복")입니다.

파일에는 4 개의 필드가 있습니다.

  • 0 : 유니 코드 코드 포인트 또는 시퀀스
  • 1 : DoCoMo Shift-JIS 코드
  • 2 : KDDI Shift-JIS 코드
  • 3 : SoftBank Shift-JIS 코드

© U + 00A9, ®️ U + 00AE,‼ ️ U + 203C 및 ™ U + 2122가 모두 목록에 있음을 알 수 있습니다.

00A9;F9D6;F774;F7EE
00AE;F9DB;F775;F7EF
...
203C;F9A9;F3F1;
...
2122;F9D7;F76A;FBD7

따라서 대답은 단순히 일본 이동 통신사에서 이모티콘으로 사용 되었기 때문입니다. 이 이동 통신사가 ©, ®️,‼ ️ 및 ™ 이모티콘을 추가 한 이유는 다른 질문입니다.