On Encoding URI with Non-ASCII characters

History of Standards concerning URI with Non-ASCII characters

1994ëì URIë¥¼ ì ìíë RFC1630 ëë URLì ì ìíë RFC1738ì ë³´ë©´ ì ì ìë¯ì´, ì´ê¸°ë¶í° URIë Non-ASCII ë¬¸ìë¥¼ í¬í¨í ì ìë¤. íì¬ ì°ë¦¬ê° Percent Encodingì´ë¼ê³ ë¶ë¥´ë escaping ë°©ìì ë¨ì§ ê³µë°±ì´ë ì ì´ ë¬¸ìë¤ ê·¸ë¦¬ê³ 7bit ë²ìë¥¼ ëì´ìë unsafe ë¬¸ìë¤ì íííê¸° ìí´ ì ì ëì´ììì¼ë, ì´ë¤ ë¬¸ì ì¸ì½ë©ì ì¬ì©í´ì¼íëì§ë ì ìëì§ ììì¼ë©°, I18Nì ëí´ì ëªííê² ì¸ê¸íì§ë ììë¤.

1998ë, IETF Policy on Character Sets and Languages (RFC2277)ìì I18Nì ìí´ ëª¨ë íë¡í ì½ìì ëª¨ë ë¬¸ì ë°ì´í°ë ë¬¸ìì(charset)ì ëªìí´ì¼íë©°, UTF-8 ë¬¸ìì§í©ê³¼ ì¸ì½ë©ì ì¬ì©í ì ìì´ì¼ íë¤ê³ ëªìë¨ì¼ë¡ì¨ ì¸í°ë· íë¡í ì½ë¤ì ëí ê¸°ë³¸ì ì¸ I18N ê°ì´ëë¼ì¸ì´ ë§ë¤ì´ì¡ë¤. ê·¸ë¼ìë ë¶êµ¬íê³ , ì´íì ìë°ì´í¸ë URIë¥¼ ì ìíë 1998ëì RFC2396ì Escaped Encodingì ê´í´ì ì¢ ë ìì¸íê³ ì ë°íê² ì¤ëªíê³ ìì§ë§ ìì Escaped Encodingì ì ì©í ë ì´ë¤ character encodingì ëí ì¸ê¸ì ììë¤. ë¤íí 1999ëì W3Cìì ì¶íí HTML 4.01ì Appendixììë Non-ASCII ë¬¸ìë¥¼ UTF-8ë¡ íííëë¡ ‘ê¶ì¥’íê² ëìë¤. 2001ëì ìì W3Cìª½ ë©¤ë² í ì¬ëì´ 19th IUC(International Unicode Conference)ìì Non-ASCII ë¬¸ìì ëí UTF-8ê³¼ Percent Encoding ì¬ì©ì ê³µìííë IRI (Internationalized URI)ì ê´í ë°íë¥¼ íê³ , ì´ë IRI specification ììì¼ë¡ ì´ì´ì¡ë¤. IRIì ê²°ê³¼ê° RFCë¡ ê²°ì¤ì ë§ºì ê²ì 2005ëì RFC3986ì´ìë¤. ì´ ëììì¼ scheme-specificí ë¬¸ì ì¸ì½ë©ì ê´í ì¸ê¸ê³¼ í¨ê» ìë¡ì´ schemeì´ UCSë¡ ë íì¤í¸ë¥¼ ì ìí ëë UTF-8ê³¼ Percent Encodingì ì¬ì©í´ì¼íë¤ë ì¸ê¸ì´ ë¤ì´ê°ê² ëìë¤. (http schemeì Generic URIë¥¼ ì¬ì©íë¯ë¡ UTF-8ë¡ ì¸ì½ë©ëì´ì¼í¨ì ìë¯¸íë ê²ì¼ë¡ í´ìíë ê²ì´ ì ì í ê²ì´ë¤.)

Web Browser’s Perspective

Non-ASCII ë¬¸ìë¤ì ì¹íì´ì§ì ì¸ì½ë©ëë¡ ì¸ì½ë©ë ì± (ê·¸ëë¡ í¬í¨í ì±) URLë¥¼ ì¹ìë²ë¡ ë³´ë¸ë¤.
Non-ASCII ë¬¸ìë¤ì ì¹íì´ì§ì ì¸ì½ë©ì ì¬ì©íì¬ Percent Encodingí í ì¹ìë²ë¡ ë³´ë¸ë¤.
Non-ASCII ë¬¸ìë¤ì ì í´ì§ ì¸ì½ë© (e.g. UTF-8) ì ì¬ì©íì¬ Percent Encodingí í ì¹ìë²ë¡ ë³´ë¸ë¤.

1ë²ìì ë°©ìì Non-ASCII ë¬¸ìê° URIì ë¤ì´ê°ìë ìëë¤ë íì¤ì ì§ì ì ì¼ë¡ ë°°ì¹ë ë¿ë§ ìëë¼,

ì¹ìë² ëë CGI ë±ì ì¹ ì´íë¦¬ì¼ì´ìì´ ì¹íì´ì§ì ë¬¸ì ì¸ì½ë©ê³¼ ê°ì ë¬¸ì ì¸ì½ë©ì ì¬ì©í´ì URIë¥¼ ëì½ë©íëë¡ ì¤ì ëì´ ìê±°ë,
ì°ì°ì°®ê²ë íì¼ìì¤í ë±ììë ê°ì ì¸ì½ë©ì ì¬ì©íê³ ìì´ì¼íë¤ë ì ì½ì´ ìë¤. (ì¦, ëì½ë©ì ìì íì§ ìì)

One Character Encoding To Rule Them All

Internet Explorer 7 vs. mod_url

Internet Explorer ìµìì ì¸ì¬íê² ë¤ì¬ë¤ë³´ì§ ììëë¼ë, Internet Explorerê° URIë¤ì UTF-8ë¡ ì¸ì½ë©íëë¡ íë ìµìì´ ì¡´ì¬íë¤ë ì¬ì¤ì íêµì¸ë¤ìê²ë ì ìë ¤ì ¸ìì ê²ì´ë¤. ìë§ë, ëë¶ë¶ì ì¬ëë¤ì ì´ ìµìì êº¼ì¼ íêµì ì¹íì´ì§ë¤ì ì ìì ì¼ë¡ ë¸ë¼ì°ì§í
ì ììë ê²½íì ê°ì§ê³ ìì ê²ì´ë¤. ë¬¼ë¡ , í¹í URIìì Non-ASCII ë¬¸ì, ì¦ íê¸ì ì¬ì©íë ê²½ì° ë§ì´ë¤. ì´ì ë ììì ì¤ëªí 1ë² ë°©ìì´ë 2ë² ë°©ìì í´ë¹íë ì¹ë¸ë¼ì°ì , ì¹ìë²ë¤ì´ ì¹ì ì§ë°°íê³ ììê¸° ëë¬¸ì´ë¤. ì ì´ë Internet Explorer 5 ë¶í° ì´ ìµìì´ ìì§ë§, Non-ASCII ë¬¸ìë¥¼ í¬í¨íë URIë¤ì ìí´ìë ì´ ìµìì ëëë¡ ê¶ì¥íê³ ìë¤.

ë´ ê¸°ìµì¼ë¡ë ì´ ìµìì´ ì²ì ë±ì¥íì ëë (ìë§ë íê¸íììë§?) ê¸°ë³¸ì ì¼ë¡ êº¼ì ¸ììë ê² ê°ë¤. ê·¸ë°ë° ì¸ì ê°ë¶í°ì¸ê° ì´ ìµìì´ ê¸°ë³¸ì ì¼ë¡ ì¼ì§ë©´ì ë§ì íêµ ì¬ì´í¸ë¤ì ë¬¸ì ê° ë°ìíê³ ì´ ë mod_urlì´ ë±ì¥íë¤. mod_urlì UTF-8ë¡ ì¸ì½ë©ëì´ ì¹ìë²ë¡ ë¤ì´ì¤ë URIë¥¼ ìíë ì¸ì½ë© (e.g. EUC-KR)ë¡ ë³ííì¬ redirect ìí´ì¼ë¡ì¨ ì¹ ë¸ë¼ì°ì ê° ê°ì ë¡ í¹ì ì¸ì½ë©ì ì¬ì©íëë¡ ë§ëë ì¼ì¢ì í¸ë¦ì´ìë¤. ì´ë¬í ë°©ìì´ Internet Explorer 6ê¹ì§ë ì ëìíì§ë§, Internet Explorer 7ê° redirectë URIë UTF-8ë¡ ì¸ì½ë©íê² ëë©´ì ì´ í¸ë¦ì ëìíì§ ìê² ëìë¤. ê²°êµ, mod_urlì ì¬ì©í´ ë¬¸ì ë¥¼ í´ê²°íë ì¹ìë²ë¤ì ë¤ì ë¬¸ì ê° ë°ìíê² ëìë¤. (mod_urlì ìì¸í ëì ë°©ìì´ë IE 7ê³¼ ê´ë ¨í ë¬¸ì ì ëí´ìë mod_urlê³¼ IE7ì´ë¼ë ê¸ê³¼ ie7 utf-8 bug íê¸ì£¼ì ìì² ë²ê·¸ë¼ë ê¸ì ì°¸ê³ íë¼.) Internet Explorer 7ì ì´ë¬í ë³ê²½ì ‘ë²ê·¸’ë¡ ë¶ë¥´ë ê²ì ìëª»ë ê²ì´ë¤. Internet Explorer 7ì ì¢ ë íì¤ì í¸íëë ì¡°ì¹ë¥¼ ì·¨íì ë¿ì´ê³ , ê¸°ì¡´ì ë¬¸ì ë¥¼ í¸ë¦ì¼ë¡ í´ê²°í ê³³ë¤ë§ ë¬¸ì ê° ë°ìí ê²ì´ë¤.

Internet Explorer 7 vs. Firefox

íì¬ Internet Explorer 7ì ê¸°ë³¸ì ì¼ë¡ URIë¥¼ UTF-8ë¡ Percent Encodingíë¤. Firefoxë Percent Encodingì íì§ë§, UTF-8ë¡ íë ê²ì´ ìëë¼, ì¤íëë íê²½ì ê¸°ë³¸ ì¸ì½ë© (ìë¥¼ ë¤ì´, íêµì´ Windowsë¼ë©´ EUC-KR, íëì ë¦¬ëì¤ íê²½ì´ë¼ë©´ UTF-8)ì¼ë¡ Percent Encodingì íë¤. ë°ë©´ì, Percent Encodingì íë ë¶ë¶ììë ë ë¸ë¼ì°ì ë ì°¨ì´ê° ëë¤. Firefoxë URI ì ì²´ë¥¼ Percent Encodingíì§ë§, Internet Explorer 7ì ? ì´íì ë¶ë¶ ì¦ query ë¶ë¶ì Percent Encodingíì§ìê³ ê·¸ëë¡ ë³´ë¸ë¤. ê²°êµ, íê¸ì´ queryì í¬í¨ëê³ , ì´ì ëí ì¸ì½ë©ì EUC-KRë¡ ê°ì íê³ ê°ë°í ì¹ì íë¦¬ì¼ì´ìì´ ìë¤ë©´, ë¦¬ëì¤ìì ì¤íë Firefoxììë ì¤ëìí ê±°ë ìê¸°ë¤. ë¬¼ë¡ ë ë¸ë¼ì°ì ëª¨ë ì ì´ì ì ëë¡ ì¸ì½ë© ëì´ìë URLì ê·¸ëë¡ ì²ë¦¬íê¸° ëë¬¸ì, ì´ ë¬¸ì ë¥¼ í¼íê¸° ìí ë°©ë²ì ì ì´ì ë§í¬ë¥¼ Percent Encodingíë ê²ì´ì§ë§, ê·¸ë° ì ëë¡ ì ê²½ì ì´ë¤ë©´ ì ì´ì ì´ë° ë¬¸ì ê° ë°ìíì§ë ììì ê²ì´ë¤. ê²°êµ, Internet Explorerì ì°¨ê¸°ë²ì , IE8ì´ë IE9 ì¦ììì ì´ ëìë íì¤ í¸íëê² ë³ê²½ëë©´ ê·¸ì ìì¼ ì¬ëë¤ì IEë¥¼ ìíë©´ì ì ëë¡ ëì²í ê²ì´ë¤.

Representing URIs as Decoded Form

ì¬ì´í¸ ë´ì íê¸ì í¬í¨í URIë¤ì UTF-8ë¡ ì¸ì½ë©íë ììì íê²ëë©´ ì¬ì©ìë¤ì ê²°êµ ì½ê¸° íë URIë¤ë§ ë³´ê² ëë¤. Internet Explorerì ìííìì¤ìë ëì½ë©ë ííì URIë¥¼ ë³´ì¬ì£¼ê¸´ íì§ë§, ìë¬´ë ê·¸ê³³ì ë³´ì§ ìëë¤. ë§ì½ ì¹ ë¸ë¼ì°ì ë¤ì´ ì¬ëë¤ì´ URIë¥¼ ê°ì¥ ìì£¼ ì íë ì£¼ìíìì¤ì ëì½ë©ë ííì URIë¥¼ ë³´ì¬ì¤ë¤ë©´, ë¸ë¼ì°ì§ ê²½íì ìë¹í í¥ìë ê²ì´ë¤. http://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%ADë³´ë¤ë http://ko.wikipedia.org/wiki/ëíë¯¼êµì´ ì¢ì§ ììê°. ì´ë¯¸ êµ¬ê¸ê³¼ ê°ì ê²ììì§ììë ê²ì ê²°ê³¼ë¥¼ ë³´ì¬ì¤ ë ëì½ë©ë ííë¡ ë³´ì¬ì£¼ê³ ìë¤. (ê²ì ê²°ê³¼ anchorì URIë ì¸ì½ë©ë íí)

Closing