"저작권", "등록 상표"및 "상표"기호가 이모티콘으로 간주되는 이유는 무엇입니까? [닫은]
나는 지옥을 돌아 다니며 문자열에서 모든 이모티콘을 제거하는 방법을 알아내는 데 며칠을 보냈습니다. 제가 상상했던 것보다 더 많이 관여했습니다.
그러나 작동하게되면서 간단한 테스트를했고 거의 우연의 일치로 저작권 기호가 제거되었는지 테스트했습니다. 그랬다. 처음에는 시스템에 또 다른 버그가 있다고 생각했지만 목록에서 찾아 봤는데 실제로 는 이모 지로 간주됩니다.
00A9 FE0F
; Basic_Emoji; 저작권 # E0.6 [1] (© ️)
00AE FE0F
; Basic_Emoji; 등록됨 # E0.6 [1] (®️)
203C FE0F
; Basic_Emoji; 이중 느낌표 # E0.6 [1] (‼ ️)
2122 FE0F
; Basic_Emoji; 상표 번호 E0.6 [1] (™ ️)
출처: https://www.unicode.org/Public/emoji/13.1/emoji-sequences.txt
이 3-4 개를 제외하고는 다른 모든 것 (수천 개!)이 의미가 있습니다 ( "!!"는 나에게 회색 영역입니다).
공식적으로 "저작권", "등록 상표"및 "상표"기호를 이모티콘으로 간주하는 이유는 무엇입니까? 모든 종류의 "중요한 비즈니스"및 학술 논문에서 매우 형식적이고 일반적으로 사용되지 않습니까? 미친 다채로운 웃는 얼굴이 아닙니까?
답변
유니 코드에서 "어리석은"것처럼 보이는 대부분의 것은 이전에 다른 인코딩에 존재했기 때문에 존재합니다. 유니 코드는 이전 인코딩 으로의 왕복 변환 이 가능 하도록 설계되었으므로 Nj, Dž, Ⅷ, ㎉, ㎓, ﷽ ...과 같은 "문자"에 대한 코드 포인트를 볼 수 있습니다. '텍스트
유니 코드 에는 이전의 표준화 된 레거시 인코딩과의 왕복 호환성이 있다는 원칙이 있으므로 문서를 유니 코드로 변환해도 정보가 손실되지 않습니다. 다시 변환 할 수 있습니다. 이를 위해 유니 코드 호환성 문자 가 도입되었습니다.
https://en.wikipedia.org/wiki/Round-trip_format_conversion#Character_encodings
이모티콘과 동일합니다. 이모티콘 소스 를 확인 하여 이모티콘이 유니 코드에 추가 된 이유를 알 수 있습니다.
이 파일은 유니 코드 코드 포인트와 시퀀스 간의 기록 매핑을 제공 하고 다른 한편으로는 휴대폰 통신사 기호에 대한 Shift-JIS 코드를 제공합니다. 각 매핑은 동등한 유니 코드 및 반송파 기호 또는 시퀀스에 대해 대칭 ( "왕복")입니다.
파일에는 4 개의 필드가 있습니다.
- 0 : 유니 코드 코드 포인트 또는 시퀀스
- 1 : DoCoMo Shift-JIS 코드
- 2 : KDDI Shift-JIS 코드
- 3 : SoftBank Shift-JIS 코드
© U + 00A9, ®️ U + 00AE,‼ ️ U + 203C 및 ™ U + 2122가 모두 목록에 있음을 알 수 있습니다.
00A9;F9D6;F774;F7EE
00AE;F9DB;F775;F7EF
...
203C;F9A9;F3F1;
...
2122;F9D7;F76A;FBD7
따라서 대답은 단순히 일본 이동 통신사에서 이모티콘으로 사용 되었기 때문입니다. 이 이동 통신사가 ©, ®️,‼ ️ 및 ™ 이모티콘을 추가 한 이유는 다른 질문입니다.