]> sipb.mit.edu Git - ikiwiki.git/blob - doc/todo/should_use_a_standard_encoding_for_utf_chars_in_filenames.mdwn
web commit by buo: More comments on mercurial use.
[ikiwiki.git] / doc / todo / should_use_a_standard_encoding_for_utf_chars_in_filenames.mdwn
1 It seems that I can't use Polish characters in post title.
2 When I try to do it, then I can see error message: "Błąd: bad page name".
3
4 I hope it's a bug, not a feature and you fix it soon :) --[[Paweł|ptecza]]
5
6 > ikiwiki only allows a very limited set of characters raw in page names,
7 > this is done as a deny-by-default security thing. All other characters
8 > need to be encoded in __code__ format, where "code" is the character
9 > number. This is normally done for you, but if you're adding a page
10 > manually, you need to handle it yourself. --[[Joey]]
11
12 >> Assume I have my own blog and I want to send a new post with Polish
13 >> characters in a title. I think it's totally normal and common thing
14 >> in our times. Do you want to tell me I shouldn't use my native
15 >> characters in the title? It can't be true ;)
16
17 >> In my opinion encoding of title is a job for the wiki engine,
18 >> not for me. Joey, please try to look at a problem from my point
19 >> of view. I'm only user and I don't have to understand
20 >> what the character number is. I only want to blog :)
21
22 >> BTW, why don't you use the modified-UTF7 coding for page names
23 >> as used in IMAP folder names with non-Latin letters? --[[Paweł|ptecza]]
24
25 >>> Joey, do you intend to fix that bug or it's a feature
26 >>> for you? ;) --[[Paweł|ptecza]]
27
28 >>>> Of course you can put Polish characters in the title. but the page
29 >>>> title and filename are not identical. Ikiwiki has to place some limits
30 >>>> on what filenames are legal to prevent abuse. Since
31 >>>> the safest thing to do in a security context is to deny by default and
32 >>>> only allow a few well-defined safe things, that's what it does, so
33 >>>> filenames are limited to basic alphanumeric characters.
34 >>>>
35 >>>> It's not especially hard to transform your title into get a legal
36 >>>> ikiwiki filename: 
37
38         joey@kodama:~>perl -MIkiWiki -le 'print IkiWiki::titlepage(shift).".mdwn"' "Błąd"
39         B__197____130____196____133__d.mdwn
40
41 >>>>> Thanks for the hint! It's good for me, but rather not for common users :)
42
43 >>>>>> Interesting... I have another result:
44 >>>>>>
45 >>>>>>        perl -MIkiWiki -le 'print IkiWiki::titlepage(shift).".mdwn"' "Błąd"
46 >>>>>>        B__179____177__d.mdwn
47 >>>>>>
48 >>>>>> What's your locale? I have both pl\_PL (ISO-8859-2) and pl\_PL.UTF-8,
49 >>>>>> but I use pl\_PL. Is it wrong? --[[Paweł|ptecza]]
50
51 >>>> Now, as to UTF7, in retrospect, using a standard encoding might be a
52 >>>> better idea than coming up with my own encoding for filenames. Can 
53 >>>> you provide a pointer to a description to modified-UTF7? --[[Joey]]
54
55 >>>>> The modified form of UTF7 is defined in [RFC 2060](http://www.ietf.org/rfc/rfc2060.txt)
56 >>>>> for IMAP4 protocol (please see section 5.1.3 for details).
57
58 >>>>> There is a Perl [Unicode::IMAPUtf7](http://search.cpan.org/~fabpot/Unicode-IMAPUtf7-2.01/lib/Unicode/IMAPUtf7.pm)
59 >>>>> module at the CPAN, but probably it hasn't been debianized yet :( --[[Paweł|ptecza]]
60
61 [[wishlist]]