5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

EUCボクメツ委員会

1 :モ・ク・ヘ・ケ菽ヲッ:01/10/16 00:18 ID:ZujZqkcr
Javaとかのマルチプラットフォームなアプリでも文字コードをいじらないと化けるし。
ICQクローンで Shift_JIS<=>EUC の相互変換をするように加工とか小細工して使ってるのには泣けたYO
せっかく多言語対応の環境で作られたソフトでも日本ローカルのパッチ作んなきゃいけないんじゃ
意味ないじゃん!
Winに比べて少ないアプリがさらに選択肢が狭まっちゃってどうしようもないYO
Linuxにおける日本語の標準コードはWinに倣いShift-JISをメインにすべきである。

2 :login:Penguin:01/10/16 00:24 ID:2cXXFpCZ
EUCでもSJISでもUNICODEでもいいから
はよ統一して欲しいね。

3 :login:Penguin:01/10/16 00:24 ID:9B4PVJPA
みんなutf-8に移行したら幸せになれます

4 :login:Penguin:01/10/16 00:27 ID:NZ0m+3Nq
シフト JIS 氏ネ。欠陥コンコーディング。

5 :モ・ク・ヘ・ケ菽ヲッ:01/10/16 00:29 ID:ZujZqkcr
現在の会員数 :3人

6 :login:Penguin:01/10/16 00:32 ID:oDnFuGnj
そうそう、SJISが死んでeuc or JISになればよい。

7 :login:Penguin:01/10/16 00:42 ID:uxyGYFYO
SJISアボーンに一票。

8 :login:Penguin:01/10/16 00:47 ID:rUwtIh7k
jis x 0208
jis x 0201
ISO-2022-jp/kr

9 :login:Penguin:01/10/16 00:56 ID:W0yrYiw7
UTF-8 は言わば文字コードの一枚岩カーネル。世界中の文字をひとつの体系に。
EUC は言わばマイクロカーネル。言語ごとにモジュール化。
SJIS は言わば日本語だけの一枚岩。日本語と英数字が世界のすべて。

10 :login:Penguin:01/10/16 00:58 ID:+wbgAKJH
>>1はヒッキー

11 :login:Penguin:01/10/16 00:59 ID:SUWKfT51
>>9
中国語(繁体字)はUTF-8で網羅できるんだっけ?

12 :login:Penguin:01/10/16 00:59 ID:TsMc1BOC
>>9
日本そのものって感じだね>SJIS

13 :login:Penguin:01/10/16 01:01 ID:0iRzhq4a
どうでも良いけどSJISはメーカや環境ごとに違うので糞です。
>>1はWindowsだけずっと使ってください。

14 :9:01/10/16 01:03 ID:W0yrYiw7
オレが特に強調したいのは SJIS は「切り替え」の余地が残されてないこと。
UTF-8 もそうだから根強い反論がある。

15 :login:Penguin:01/10/16 01:04 ID:SUWKfT51
よく考えてみると
Shift-JIS - Windows,Dos,OS/2,Mac
JIS - TRON?
EUC - Linux,HP-UX,Solaris,AS/*,FreeBSD,BSD/OS,NetBSD
どれが多いだろうか?
あと、>>13の言う通り。

16 :9:01/10/16 01:05 ID:W0yrYiw7
Windows は特に NT 系で UTF-8 に統一されつつある傾向だがな。
1 はそれを知ってるのかな。

17 :login:Penguin:01/10/16 01:05 ID:yZY6sng4
同じくSJISアボーンに一票。
俺はeucでイイ。

18 :login:Penguin:01/10/16 01:10 ID:W0yrYiw7
Java も UTF-8 だぞ。
何で 1 みたいなのが Linux 板にいるんだ。

19 :login:Penguin:01/10/16 01:11 ID:rUwtIh7k
>>18
ソースとかリソースのことじゃないの?

20 :UCS4キボンヌ:01/10/16 03:14 ID:4zfTGCvs
>Windows は特に NT 系で UTF-8 に統一されつつある
UCS2でしょ。COleStringの内部で盛んにUCS2.
将来、負の遺産になりそ。

21 :login:Penguin:01/10/16 03:38 ID:aWaNxseP
tron-codeってのはどーだ?
出ない字がないんだろ?たしか

22 :login:Penguin:01/10/16 03:42 ID:W81ZfPKp
SJIS なんつーメンドーなエンコーディングはステ

23 :login:Penguin:01/10/16 03:53 ID:devEzPX4
>>21
同じ文字とは何か?定義してないから、
databaseやgrepで困ると思われ

24 :login:Penguin:01/10/16 04:23 ID:4zfTGCvs
>同じ文字とは何か?定義してないから、
>databaseやgrepで困ると思われ
2ちゃん見てるとわかるけど、富士通→富士痛といった
あえて検索性の悪い表現を狙って行うのが人間というも
のだろう。政治家の「善処する」が「何もしない」を意
味する国の人間としてはおそらく逸脱の速度が定義の作
業スピードを追い越すだろうと思われる。

25 :login:Penguin:01/10/16 04:44 ID:N1gEmB5d
>>24
>2ちゃん見てるとわかるけど、富士通→富士痛といった
>あえて検索性の悪い表現を狙って行うのが人間というも

ただのあほ。

26 :login:Penguin:01/10/16 05:34 ID:W81ZfPKp
>>24
それは単なる2ちゃん用語だろ

27 :login:Penguin:01/10/16 06:19 ID:4zNPHE9n
そもそもなんで Shift_JIS なんつー
うざいものができたんだ?
誰か教えてくれ。

28 :login:Penguin:01/10/16 07:02 ID:xR9dpqTG
半角カナ使いたかったから。

29 :login:Penguin:01/10/16 07:51 ID:XM6EXXtB
>>27
EUCとJISに欠陥があるからって言ってた気がする。

30 :login:Penguin:01/10/16 08:02 ID:0RDEkWSQ
つーかEUCにしろSHIFT_JISにしろ、計算機資源の乏しかった
ころの規格だろ。
富豪的コンピューティングでTRONでいいじゃん。
UNICODEもステだな。

31 :login:Penguin:01/10/16 09:15 ID:10niM3hA
っていうか、なぜEUCにこだわる人ってなぜそんなものにこだわる?
理想を求めるならTRON-CODE
今現に多く使われているという現状を追認するならS-JIS
EUCにはどっちの利点も無い。

32 :うひひ:01/10/16 09:21 ID:so9BFYxc
むずかしいことイイからよ
shift_jisバリバリのLinuxあっても良いんじゃねーか?
shift_jisのUnix使ってると連携わりーんだよな実際。

33 :login:Penguin:01/10/16 09:37 ID:Gyb/MKxi
>>31
人生に妥協は必要だよ。

34 :login:Penguin:01/10/16 09:43 ID:devEzPX4
>>31
> っていうか、なぜEUCにこだわる人ってなぜそんなものにこだわる?

m17nに有利だからだろ。

35 :login:Penguin:01/10/16 11:47 ID:W81ZfPKp
>>29
ハァ? 逆だろ。
まず ISO-2022-JP があって、モード付きのエンコーディングだと
プログラムが書きにくいから ShiftJIS が作られた。
でも ShiftJIS は半角カナを 1 バイトの領域に入れてしまったために
一部の記号と日本語のコードがダブってしまって、それを例外として
処理する必要があった。
その辺を教訓として EUC-JP が作られたから、日本語と英数字の
領域は完全に分離されていて最も扱いやすく、I18N に有利である。

36 :続き:01/10/16 12:51 ID:7rh/WYyT
結果、半角カナは2バイトで、外字は3バイトである。
文字コードの何たるかを考えた事もない
ヘタレプログラマにはただただうっと惜しいだけであった。

37 :login:Penguin:01/10/16 12:50 ID:uARHilua
>>35
なんか違うぞ

ISO-2022-JP はそれまで慣習として通信で使われてた7bitJISコード
(ISO-2022にそこそこ準拠)を、fj.* と Internet Mail で使うものとして、
制限つけてRFCとして書き起こしたものだ。名前に反して実は ISO-2022 に
正確には準拠してないのは有名だ。7bit JIS としてなら歴史はあるが、
まとまったのは一番新しい。

まあ、たぶん言いたいことは「ISO-2022 が先にある」ってことなのだろう。
それなら正しい。

ShiftJIS は、Microsoft社が MS-DOSに日本語を導入するにあたって、
半角カナを残しつつ漢字コードをわりこませるためにASCII社に作らせた
もんだ。変態的な変換で気持ち悪いことと、当時既にあった国際規格の
ISO-2022を全部無視したこと以外はそんなに悪いコードじゃない。
いってる通り、不幸の文字があるので、ASCII処理前提でかかれていた
コードは全部書き直しの憂き目にあったのはそのとおり。

んで、EUC-JP は別にそのあたりを教訓にしたのではなくて、
UNIX の国際化を行うにあたって、普通に 8bit 版 ISO-2022
の使い方を日本語用に確定しただけのものだ。これは当時国内でUNIXを
作ってたメーカが、既に同等の手法で自社UNIXを国際化してたのが
細部が異なってたのを統一する形でつくられた。

ISO-2022 のままだと、ステートが爆発するので扱いにくいのは事実。
でも、SJIS と EUC-JP では、正しくまじめに国際化するのなら、質的
には有利/不利の差は存在しない。

ただ、世の中には、「ascii依存」なソースがあまりに多い。で、EUC-JP の
場合、コードが重ならない関係で、8bitスルーにさえなれば、日本語が
壊れず通ってしまう。こういった「手抜き国際化」は EUC-JP のが
やりやすいのは確か。

ちなみにこの条件は UTF-8 も同じだ。だから、最近のあちらさんの
アプリケーションはこれで処理したがってる。ソースをあんまり
修正しなくて良いってことね。

UTF-8 は、互換性は目をつぶるとしても、日本語だけを扱うとしたら
パフォーマンスが悪くなるのと、通信量が膨れ上がるのが欠陥
(漢字は6byteになる)。まあ、マシンパワーの向上が全て解決すると
いわれればそこまでやね。

38 :21:01/10/16 14:42 ID:aWaNxseP
>>23
>同じ文字とは何か?定義してないから、
>databaseやgrepで困ると思われ

これは運用の問題だろ?
斎藤と斉藤と齋藤を区別したいときもあれば同じに扱いたい時もある。
なら別々にして必要に応じて変換ライブラリーみたいなの使えばいいと思うぞ。

しかし37読むとEUC-JPかUTFがいいような気がする

39 :login:Penguin:01/10/16 15:21 ID:pLM2+efM
不治痛だろ?

40 :37:01/10/16 15:33 ID:uARHilua
結局のところ、マルチバイトキャラクタな状態ってのは、
文字の区切りがよくわからんところが最大の問題で、SJIS で \ を
誤認してしまうのもこれによる。EUCも、結局頭からおいかけないと、
文字の区切りはやっぱりわからん。

てっとりばやくこれを処理するには、ワイドキャラクタ化してから処理
してしまえばよいことになる。この場合、EUCだろうがSJISだろうが関係なくなる

ただ、これをするにはアプリケーションを全部 wchar 用に書き直す必要が
あって、めんどくさがられてる。その点、UTFは、EUCとかと違って、文字の
区切りが一発でわかるようなエンコーディングなんだな。
今見てる場所から、「前の文字」「次の文字」がわかるようになっている。
基本は char のままで、文字処理するとこだけ細工いれればよいので好まれるわけ。

ちなみにこれには罠があって、Unicode がホントに Unicode なら
問題なかったんだけど、Unicode って Unicodeだけでマルチバイト文字
になるので (UCS2/UTF-8 で複数のコードで1文字になる複合文字がある)
そういった文字を扱おうとすると一瞬で破綻してマルチバイト時代に逆戻り。

まあ、欧米の人はこれでこまらんのだ。そんな複合文字なんてつかわんから。
日本人は無縁じゃないぞ。濁音は、処理次第では2つのコードに分離するのだ…

41 :login:Penguin:01/10/16 17:54 ID:dew/Ir09
マルチバイト文字なんか使ううちらが悪い。
外人から見れば英語最高!で国際化なんかやってらんないよ
外人に感謝しよう

42 :名無しさん@お腹へった。:01/10/16 18:09 ID:h02cohTC
SJISを完全に捨てているVineは糞。
って今はどうなの?

PJEの頃は少しましだった気がするが..

43 :login:Penguin:01/10/16 18:48 ID:Gyb/MKxi
>>41は微妙にスレ違いだな・・・

>>42
完全に捨てているというtと、具体的には?

44 :>>41:01/10/16 19:21 ID:OnoFABDw
>>41
誇りを持て

45 :login:Penguin:01/10/16 19:38 ID:q4n1GyJy
情報交換符合と内部表現、
文字セットとエンコーディング、
コードとグリフ、

区別してしゃべってくれ。

46 :login:Penguin:01/10/16 20:35 ID:VUO+BV9r
>>37 が微妙に無知だと思うのは俺だけ?

47 :login:Penguin:01/10/16 21:25 ID:0bJyD8nh
>>46
ただの「言ってみるテスト」か?
そう思うなら、違ってるところを指摘しろよ。

48 :login:Penguin:01/10/16 22:28 ID:kO566Fcx
>マルチバイト文字なんか使ううちらが悪い。
>外人から見れば英語最高!で国際化なんかやってらんないよ
漏れもそう思う。で、外人に日本語を入力してもバグの出ない
ソフトを書かせるためにはクラスライブラリでワイド、UCS4を
積極的に使用するのがおすすめ。
ソフトはクラスの定義と入出力関数だけ変更して、
処理ロジックはそのままで手を触れない。
これ日本語や中国語を知らん外人が楽なので現実的な解。

49 :login:Penguin:01/10/16 22:43 ID:x0duUuO3
1byte=32bitにすれば、全世界で幸せになれるよなー

50 :login:Penguin:01/10/16 22:43 ID:D0nvonPu
外人が楽できるように外人に合わせるノカー。
みんなガンバレヨ!

51 :login:Penguin:01/10/17 00:02 ID:FRYHV9JH
IPv6みたいに当分大丈夫だと思われる広大な領域を取った文字コードが
出てきてもいいと思う。
Unicodeみたいに word単位なんぞケチくさいことは言わずに、
qword ぐらい固定長で占有。これで宇宙人と出くわしても大丈夫。
すべてのプログラマに痛みがともなうが、構造改革なので許せ。

52 :login:Penguin:01/10/17 00:26 ID:cC5QpbAl
>>51
それってUTF-32か?
普通の目的には4バイトじゃなくても
サロゲート無視のUTF-16(とは呼べんが)でもよさそげな気もする。

個人的にはUTF-8でいいかなと思うけど、
ISO-2022-JPもShift_JISもEUC-JPももうこれだけ広まったらまとめるなんて無理だ
と思うので我慢する、と。

53 :login:Penguin:01/10/17 00:30 ID:YQKlNfNV
>>38
TRONコードは、誰かが新しい文字が必要だと思い、申請したら、
例え点を一個追加するだけでも、それは追加される。だから、

> なら別々にして必要に応じて変換ライブラリーみたいなの使えばいいと思うぞ。

は、日々変化する。それは「いい」か?
文字の同定の基準が存在し、かつ無闇に文字集合が変動しない、
という取り決めがなかったら、大変だぞ。

> これは運用の問題だろ?
> 斎藤と斉藤と齋藤を区別したいときもあれば同じに扱いたい時もある。

文字集合が固定されている環境でのみ、その要求は満たされる。
新しい「齊」や「藤」が次々に生まれる環境では、それらを「同じに扱」うことは、
原理的には可能だが、現実問題としては難しい。

> しかし37読むとEUC-JPかUTFがいいような気がする

だと思う。まあ、TRONコードも印刷用途だけならまだましだけど。

54 :49:01/10/17 01:13 ID:BOPoQ/5Y
>>51
いや、複数byte列が必要な時点で終ってる。
結局、英語圏の人間は「ASCIIで十分じゃん」ということになる。
例えば、プログラミング言語を作るにしたって、わざわざ
マルチバイトのハンドリングをして「hogecode対応!」なぞと
するより、単一byteを相手にした方が楽に決まってる。

だから、単一byteのビット数を上げるしか道はないんだ!!!

55 :login:Penguin:01/10/17 02:20 ID:ZtT6Vz1v
>だから、単一byteのビット数を上げるしか道はないんだ!!!

bit増やしても、自分の国で使われることしか考えない奴は
減らないので一緒。
昔よくいたよね下位7bitでマスクかけちゃう奴。

56 :login:Penguin:01/10/17 10:51 ID:mpfavLge
そんな事より1よ、聞いてくれよ、
昨日、www.unicode.org 行ったんです。www.unicode.org。
そしたらなんかファイルがめちゃくちゃでかくてダウンロード終わんないんです。
で、13MB もある PDF ファイルよく見たら、なんかみんな漢字ばっかりなんです。
もうね、アホかと。馬鹿かと。
お前らな、9万字入りのフォント如きで長々文字表打ち出すために
Unicode 3.1 作ってんじゃねーよ、ボケが。
9万字だよ、9万字。
2バイト固定を信じて作ったアプリもあるのに、よく平気で文字増やせるな。
おめでてーな。
むりやり2万字にCJKまとめながら4万字とか足してるの。もう見てらんない。
お前らな、中華大字典やるからそのコードポイント空けろと。
Unicode ってのはな、漢字は Unify するべきなんだよ。
「桟」の横画が2本か3本かで分けてるのに「浅」は統合されてもおかしくない、
刺すか刺されるか、そんな雰囲気なんだよな。
字を知らなくて単なるデザイン差もわからねーような奴は、すっこんでろ。
で、やっと探してる文字を見つけたかと思ったら、隣のワードと、前のと併せて
1文字なんですよ。
そこでまたぶち切れですよ。
あのな、空き領域でシフトコードなんてきょうび流行んねーんだよ。ボケが。
得意げな顔して何が、UTF-16 だ。
お前は本当に Extension B の字が読み書きできるのかと問いたい。問い詰めたい。
小1時間問い詰めたい。
お前、surrogate したいだけちゃうんかと。
多漢字通の俺から言わせてもらえば今、多漢字通の間での最新流行はやっぱり、
今昔文字鏡、これだね。
今昔文字鏡 単漢字10万字版。これが通の頼み方。
文字鏡ってのは漢字が多めに入ってる。そん代わりラテン文字が少なめ。これ。
で、それに西夏文字、梵字。これ最強。
しかしこれを使うとフォントに依存するから文字鏡買わないとデータが編集
できないという危険も伴う、諸刃の剣。
素人にはお薦め出来ない。
まあお前ら初心者は、Mac OS X で JIS X 0213 でも使ってなさいってこった。

57 :37:01/10/17 11:08 ID:6wv4UuNs
>>46
何も資料参照せずに書いたにしてはそれなりにできたと思てるがどうよ?
完璧な情報を集めて考えたければ2chに頼るのが間違いだろうて。

あ、次何も見ずに書くときに参考にするから、すこっと抜けてそーな事項を
列挙しといてくれるとうれしい。

>>56
なにげに通やね(笑)

58 :logon:01/10/17 11:25 ID:G2XZ5+M2
>>56
ヨシギュウネタワラタ!

59 :名無しさん@Emacs:01/10/17 15:37 ID:rj14CtXF
emacs で iso-2022-7bit 使って多国語やってますが, これって
国際標準じゃないですよね. iso-2022 で多言語やらないでわざわざ
Unicode 作ったのは, escape 入れなくても一文字見たら何だか
わかるようにするため?

60 :login:Penguin:01/10/17 15:41 ID:XqIjgTGZ
>>59
ISO 2022 のフル実装は無理というアメリカ人の妄想のため。

61 :login:Penguin:01/10/17 16:42 ID:3ILRMCNZ
>>48
支那人も外人なんだけど

62 :logon:01/10/17 17:22 ID:5T5C0ttM
つか、EUCよかS-JISのが腐ってるだろ。
なんだよ、半角かなって。腐ってるじゃねーか。
WinがJISなりUnicodeなりに文字コードをかえればすむこと。

63 :logon:01/10/17 17:31 ID:5T5C0ttM
あ、ちなみにEUCとJISは1ビット違うだけなので上の発言には含めてないだけね。
M$ってEUCしそうにないし。

64 :login:Penguin:01/10/17 18:29 ID:XqIjgTGZ
>>62
ハァ?

文字集合とエンコーディングを区別しろ。アホか。

65 :login:Penguin:01/10/17 19:21 ID:YthITvX3
> iso-2022 で多言語やらないでわざわざ
> Unicode 作ったのは, escape 入れなくても一文字見たら何だか
> わかるようにするため?

それだけだったら、DIS10646.1 (DIS ってのは、ISO のドラフト仕様ね) で良
かったわけだろ。
DIS10646.1 (こいつは、文字集合としては mule の考え方に近い) が潰されて、
Unicode ベースの ISO10646.1 になったのは、16bitに納まらないと都合が悪
いと考えた Unicode コンソーシアムと、それに押し切られたボンクラのせい
だよ。

66 :Anonoymous:01/10/17 19:46 ID:YAa2k7T0
>>56
ネタに乗せてかなりコアなことを、かなりうならせられるのう
TORONコードをxfsなどで配信できたら良いと思うのだが
実際、古文書を解析している方々は超漢字を愛用しているそうな(w

67 :名無しさん@Emacs:01/10/17 21:48 ID:YBwfYzjL
すべての文書を画像の形式でやりとりするようになれば、
文字コードなどというものは必要なくなる。

ファイル名やコマンドの認識もすべて画像 vs 画像のマッチングにするのだ。
とうぜんソースコードは全部手書きね。

68 :login:Penguin:01/10/17 23:48 ID:bGZ6eUEA

   @ノハ@ 三○ アタタ!
   ( ‘д‘) 三○<なんでもいいから統一しろ! >>67以外で
        三○

69 :login:Penguin:01/10/17 23:55 ID:+4YHdf3b
>>68 いや、67 はいいセン行ってる。
TRON がおバカなのは文字じゃないモノまで文字として扱ってる所。

70 :login:Penguin:01/10/18 01:18 ID:jQdiwMFy
>>67
絵がヘタな私は、永久にファイルのコピーもできそうにありません...

71 :login:Penguin:01/10/18 02:59 ID:d914pY0P
>>67
面白いね!!
で、仮名漢字変換やソートはどうするの?

72 :login:Penguin:01/10/18 05:24 ID:qKFuLJNE
ひそかにいいかなと思ってるのは CID だな。
adobe が統一管理してるから混乱ないし、異体字検索問題も対応できる。
新しいコードの追加もそれなりにできる。
コード表とグリフも adobe が提供してくれるしな。合字問題とかどうなってるか知らんが、きっと adobe サマが解決しとるだろう。

内部コードとしてはちょっと複雑すぎる気がするが。

73 :login:Penguin:01/10/18 05:41 ID:IKIIFWmq
>>56
> お前、surrogate したいだけちゃうんかと。
コレ ワラタ.

74 :login:Penguin:01/10/18 07:13 ID:2ftNibmN
手っ取り早く済ます仕事には今も EUC 使っちまうよ。

75 :59:01/10/18 16:15 ID:zQ3uDx9i
結局 iso-2022 で多国語というのはすたれゆく運命ですか?
僕は Unicode よりイイと思ってるんだけど.

76 :login:Penguin:01/10/18 16:33 ID:YWCxX3Ha
mb/WCの区別をしなくてよくなるのならUnicodeがイイ!に決まってるが、
それは幻想だったことが決定してるので2022でよい(よかった)。

77 :login:Penguin:01/10/18 17:17 ID:gPhXvV4t
>>75
内部コードとしては一定以上高度な多言語処理ではどっちも使わん
でしょ。Emacs もオリジナルだし。

プログラマの苦労は結局かわらんので、76のいってる通り
2022でよい(よかった)ではあるんだけど、サポートの現状を考
えると、今や、Unicode が圧倒的に有利かな。Unicodeの文章が
とりあえず読み書きできる環境を持つ人はもうざらだから。

専門用途ではオリジナルコードも十分ありと思われ。というか、
実際、現在のDTPでは、最終的には adobe のコードが物を言うし。

78 :login:Penguin:01/10/18 21:01 ID:o4Mc8Bmx
現実の話、UTFとかワイドキャラクターの導入って
あくまでもクラスライブラリとか
ウインドウシステムのインターフェースとか
ファイルシステムのファイル名の内部形式とか
そこら辺の話に終始してる。
ディスク上のテキストに関しては移行できる
と考えている人はあんまりいない。
ISO-2022が妥当だろう。

79 :login:Penguin:01/10/18 21:14 ID:YWCxX3Ha
UTFってUTF-16のこと?UTF-8を内部形式で使う奴はおらんだろう。

>ディスク上のテキストに関しては移行できる
>と考えている人はあんまりいない。
XML文書は?普通UTF-8で書くと思うのだが。

>ISO-2022が妥当だろう。ISO-2022系の多言語非対応のエンコーディング(EUC-JP他)、
という意味ならまぁそうかも。

80 :79:01/10/18 21:16 ID:YWCxX3Ha
>>79

改行抜けた。mozillaたんしっかりしてくれハァハァ…

>ISO-2022が妥当だろう。

ISO-2022系の多言語非対応のエンコーディング(EUC-JP他)、
という意味ならまぁそうかも。

81 :login:Penguin:01/10/18 21:31 ID:o4Mc8Bmx
>UTFってUTF-16のこと?UTF-8を内部形式で使う奴はおらんだろう。
Ruby

82 :79:01/10/18 21:33 ID:YWCxX3Ha
うお、rubyか。じゃ結構普通のことなのかな?
すみません。

83 :_:01/10/18 23:03 ID:Hq3ecu1b
>>79
次期 GTK+ の GTK+2 も内部は基本的に UTF-8 ですな。

84 :login:Penguin:01/10/19 00:31 ID:Kw5tPojH
そりゃ、(EUC-JPと同じく)UTF-8は、ASCIIで済む人はASCIIと変わらんdata量で、
過去のcode資産も活用できるから、移行し易いだろ。ISO 8859-1ででもそうだし。

Unique "wchar_t"は幻想だったという事で。

85 :名無しさん@Emacs:01/10/19 02:06 ID:fpLOIwDH
名スレ化あげ

86 :login:Penguin:01/10/19 02:33 ID:QKiQs1/Q
>>84
でもRubyは国産なのに意外。なんでUCSじゃないのでしょうか?
質問age

87 :login:Penguin:01/10/19 03:23 ID:Kw5tPojH
>>86
処理系内部で使うprintf(3)からRuby用にかき直すんかい?
2byte目に'%'や'\'のあるcoding system(e.g. Shift_JIS)用は書き直しだぞ。

88 :86:01/10/19 04:51 ID:QKiQs1/Q
>>87
ごめん、ちょっと意味がわからない。
(なんでprintfが使えることが重要なのか?という点が)
もし暇なら説明をお願いしたいです。

89 :login:Penguin:01/10/19 11:39 ID:wq307Z9h
87じゃないけど…

基本としては、「アプリケーションはなるべくシステムのlibcを使うべき」
ってことだろね。きちんと整備されてるOSなら、libcを使うのが
パフォーマンス的にも、開発効率上も有利。それが標準の存在意義。
それから「アプリケーションの互換性重要」ってのが背景にある。

printfとかに代表される標準Cライブラリの昔からあるものってのは、
ASCII以外は設計の想定外。だから、SJISとかUCSのような、ASCIIと干渉する
エンコーディングをそれで扱おうとするとまず間違いなく誤動作する。
本来これを避けるための Wide Character なんだけど、残念ながら、
この部分は実装依存度がやたら高い。無いOSも多いし、内部構造もOS毎に
ばらばらだ。もちろん過去のコードはもちろんこんなもの使ってないわけで、
使うとしたらかなり書き直しに陥るはめになる。

そうなると、選択肢としては、なんとか char のまま、普通の libc で
扱えるようにしちゃおうって考えが浮上してくるわけだ
(技術的には逃げなので退化)

必要要件は
 1. ASCII に干渉しないマルチバイト(char の配列)きぼんぬ
 2. 文字区切りが確実容易なほうがイイ!
3. 何か標準に沿ってるほうがイイ!
こんなところで、それを満たす UTF-8 になるのは自然な流れだろう。

やっぱでかいのは互換要因のほうかな。完全に1から書くのなら、
UCSだろうがオリジナルだろうが好きなのを採用すればよろし。

90 :77:01/10/19 13:05 ID:wq307Z9h
>>78
79もいってるけど、「非多言語対応」なら、ISO-2022系が
妥当だろう。実際そっちのが多いと思うし。

話の流れは「多言語用」だよね。ISO-2022-JP-2 とかを扱える環境(emacsとか)
をそろえてる人は、UTF-8 扱える環境をもってる人より少ないよねって
のがオレの指摘。

今はWinいれたらそれだけでとりあえず日常用途で使う範囲なら、読むのも
書くのもできるからね > UTF-8

91 :login:Penguin:01/10/19 13:10 ID:LpodI9Q2
>>45
> 情報交換符合と内部表現、
> 文字セットとエンコーディング、
> コードとグリフ、

これらの区別が説明されているサイトはありますか?
出来れば日本語d

92 :login:Penguin:01/10/19 18:32 ID:mx7DeiuF
欧米の人たちが ASCII や ISO-8859-x で足りてるなんてのは
わりと誤解で、文字をもっと増やしたいと思っている人が多いです。
XFree86 で強硬に Unicode を推進している人たちはそんな感じ。

JIS X 0208 の記号とかを使った英語のプレゼン資料とか見せると
羨ましがられるよ。

93 :login:Penguin:01/10/19 18:42 ID:mx7DeiuF
>>15
Solaris や NetBSD は SJIS ろけーるもあったかと。
Solaris だと ja_JP.utf8 とかもできるんじゃなかったかな。

Linux (つーか glibc) は内部 Unicode なんだっけ?

94 :login:Penguin:01/10/19 18:56 ID:+gP9D3Wa
>>93
linuxでもできる。KondaraではUTF-8なロケール使って、
X上でximを切り替えてCJK混在な文書とかも作れたはず。
Debian sid でもutf-8なロケール作ってやればできるでしょ?
まあアプリ全てがちゃんと動くわけではないが。
(ATOK X のメニューが化けて鬱だった記憶が)
ほかのディストリとかは知らない。

95 :login:Penguin:01/10/19 19:03 ID:Y1kLvlVv
>>91
そんなに難しい話じゃないよ。
「文字」の定義が甘いのをとりあえず横に置いとけば。

文字セット:「この文字を扱う」という範囲。各文字を識別する ID つき
エンコーディング:上の文字セットをコンピュータで表現するための数値化の方法
情報交換符合:通信、ファイルなど、外部とやりとりするための文字セット+エンコーディング
内部表現:OS やアプリケーションでの文字の内部表現
コード:数字。文字コードね。
グリフ:形。目に見えるものね。
この手のお話だと、必ずこのあたりがごっちゃになった議論になってわけわかになるので、釘さしてみただけ。

96 :login:Penguin:01/10/19 20:53 ID:PkKT5Zqx
>printfとかに代表される標準Cライブラリの昔からあるものってのは、
>ASCII以外は設計の想定外。だから、SJISとかUCSのような、ASCIIと干渉する
>エンコーディングをそれで扱おうとするとまず間違いなく誤動作する。
>本来これを避けるための Wide Character なんだけど、残念ながら、
>この部分は実装依存度がやたら高い。無いOSも多いし、内部構造もOS毎に

だから俺はCやめざろう得なかった。
Standard C++ならば標準ライブラリは全部マクロなんで
自動的に展開されて解決。
C++を嫌うならばKylixがある。
KylixはCのようなポインター操作もできるし、
GUIなしのデーモンプロセスも書ける。
ヘッダーさえなんとかすればドライバも書ける可能性あり。
Cユーザーにとって、字面以外は抵抗なしに受け入れられる。

>ばらばらだ。もちろん過去のコードはもちろんこんなもの使ってないわけで、
>使うとしたらかなり書き直しに陥るはめになる。

過去の資産に関しては同意。

97 :login:Penguin:01/10/19 20:58 ID:QKiQs1/Q
へ??

>Standard C++ならば標準ライブラリは全部マクロなんで
>自動的に展開されて解決。
ここだけでいいから、なにが解決されるのか具体的に書いて。

98 :login:Penguin:01/10/19 21:09 ID:PkKT5Zqx
C++のstringというのはbasic_string<char>という
テンプレートマクロ。
ワイドはbasic_string<wchar_t>とするだけ。
そうすると、stringと同一の機能をwstirngが受け継ぐ。
printf("%s%d\n", s, d)は
cout << s << d << endl;
wcout << ws << d << endl;
型の定義だけでほとんどを解決し、ロジックはいじらない。
うまくいくと変数の宣言文を触れるだけで全部解決。

99 :login:Penguin:01/10/19 21:14 ID:QKiQs1/Q
>>98
ああそういう意味か。了解。
でも、話の流れは、wchar_tじゃぁ駄目って事だったんじゃ…。

#個人的にはふつ〜のアプリはWC使って書くのが好きですが。

100 :98:01/10/19 22:30 ID:dckKBkBJ
>Unique "wchar_t"は幻想だったという事で。
wchar_tイコールUCS2でないよ。
MSの2バイトwchar_tは幻想だが。

http://www-6.ibm.com/jp/developerworks/unicode/000616/j_uniwchar.html
C 規格では、wchar_t に対して厳密にどれというタイプを指定していません。

101 :login:Penguin:01/10/19 22:58 ID:Kw5tPojH
>>100
> >Unique "wchar_t"は幻想だったという事で。

Uniqueというのは、

> wchar_tイコールUCS2でないよ。
> MSの2バイトwchar_tは幻想だが。

などから一つを選択してそれのみでやっていく事を目指す、というつもりで、書きました。

> http://www-6.ibm.com/jp/developerworks/unicode/000616/j_uniwchar.html
> C 規格では、wchar_t に対して厳密にどれというタイプを指定していません。

はもちろん知っています。
ただ、上のようにUniqueになろうと"UNI"codeは目指したと思います。少なくとも当初は。

102 :login:Penguin:01/10/19 23:03 ID:dckKBkBJ
4バイトでUniqueになればいいじゃないか。

103 :login:Penguin:01/10/20 06:16 ID:g2GqcdkH
どうやら、このスレには、ちゃんと理解しているのが3人しかおらず、
それ以外はコード表(どれか1つでも)も見たことがない奴らだけの
ようだ
まだ、青木光恵の旦那の方が38倍ましって感じ

104 :ななしさん@おなかいっぱい:01/10/20 07:28 ID:a3ky6FMM
>>103
「ちゃんと理解している」のが3人もいれば2ch的には充分のような気も。
あと、そーいうことをいう人には、どのポストに正しいことが書いてあるの
か指摘してもらえると嬉しいかな、とか。

105 :login:Penguin:01/10/20 11:51 ID:mRQL8QGY
>>56
やっぱり謎の中国人に「アイヤー、漢字特盛りにしちゃうアルヨー」
と言わせてほしかったな。

106 :login:Penguin:01/10/20 13:09 ID:2B2NfqxB
>>102
それについては、>>65の言う通りで、>>56が詳しい(w
「もうUnicode捨てたいんと違うんか?」と小1時間問い詰めたい。

http://euc.jp/i18n/ucsnote.ja.html
Unicodeの安易さが持ち込んだ問題で、10646が腐るのは困る。

<!-->>102はHan Unificationの問題「だけ」を言っているのかな?-->

107 :login:Penguin:01/10/20 16:11 ID:8ZJLlTqR
このスレッド面倒だから読んでいない。
重複する内容だったら失礼。

シフトジスになぜしないかというとシフトジスには欠点があるから。
その代表的なものは0x5c問題。
0x5cはダブルコーテーションという記号だがシフトジスの漢字はこれを含む
漢字もある。
アスキーコード0x5cが文字列に入っているとシフトジスはおかしくなる。
プログラムでこの問題を回避する処理を入れないといけないがそれは大変だ。
実際、WINDOWS版のソフトでこの問題を回避できていないソフトは多い。
EUCだと、8ビット目を殺さないようにするだけで無変更でコンパイラなどが
日本語をソースに入れても問題なく使える。
それによってgccなどは英語版そのものを使ってもEUCなら日本語を入れたソース
をコンパイルできる。
しかしシフトジスだと0x5c問題にかかるので改造しないと使えない。
改造しても行の先頭から順番に読んでいかないと半角か全角か判断できないと
いうシフトジスの大きな欠点のため速度が遅くなるという欠点が出る。
仮にシフトジスに変えてしまうとほとんどのLinuxソフトが日本語使えなくなる。
かといってシフトジス対応という膨大な作業を誰がするというのだろう。
シフトジス対応すると本家と英語版とソースが分岐するので古いバージョンを
使わざる得ないとか不都合がたくさんでる。
結果的にシフトジス標準は不可能だ。こんなことはプログラマーならわかると思うが 1 はユーザー専門なんだろう。

108 :login:Penguin:01/10/20 17:52 ID:cvBqh8vR
このスレ案外詳しいよ. スレッド名に反して役に立った.

109 :login:Penguin:01/10/20 17:53 ID:n/co2nXu
文字の割り当ての正当さなんぞ気にしていたら
あと何百年かかるかわからんだろ。
「てめーら勝手にしろ」でコード領域広く取って
各地域24ビットぐらい割り当てちまえばよい。
で日本では従来のJISを突っ込んで終わり。
グリフだのなんだのとわめいていたら、孫の代まで
に完成しねえぞ。

110 :login:Penguin:01/10/20 19:04 ID:2B2NfqxB
>>109
それで解決するのは、Han Unificaionだけで、
http://euc.jp/i18n/ucsnote.ja.htmlの問題はどんどん拡大する。
# 各国内での互換性を維持できたわけだし、>>109はそれでもいいと言っているのだろうが。

しかし、以下は妥当な文字非統合だろうか?(上のURLから一部だけ抜き出した)
U+002D HYPHEN-MINUS (ASCIIのマイナス)
U+00AD SOFT HYPHEN 語中の折り返し可能個所、表示されないかもしれない
U+2011 NON-BREAKING HYPHEN (右端でも折り返されないハイフン)
U+2010 HYPHEN 複合語などの一般的なハイフン
U+2212 MINUS SIGN マイナス
:
互換性を求めて既存のを無制限に突っ込んだ挙げ句がこれ…

111 :login:Penguin:01/10/20 19:11 ID:DsyBUQBQ
>>110
それでもいい。
それは子孫の時代に解決する問題。
現状では再コンパイル一発で将来の文字コードに
対応できるインフラの整備が大事だと思う。

112 :login:Penguin:01/10/20 19:48 ID:XktlMTUg
>>107
>このスレッド面倒だから読んでいない。
>重複する内容だったら失礼。
こういっちゃなんだが、すでに、ビット並びの字面(とでもいうのか?)の話はし
てないです。

ワイドキャラクタを使用しない、m17nな独自内部コードとしては、開発効率の観点
からビットの字面が大事(UTF-8を使わざるをえない)なんていう話はでたけど話
のレイヤがかなり違う。

>シフトジス対応すると本家と英語版とソースが分岐するので古いバージョンを
>使わざる得ないとか不都合がたくさんでる。
localeとはなにか?と、mbstowcs関数をはじめとした、ワイドキャラクタを
利用したプログラムの書き方でも覚えてくれ。

すると、分岐せずに(=localizeせずにinternationalizeすることで)Shift_JIS
に移行できなくはないことがわかる。ソースコードは改変する必要はあるかも
しれんし(本家に統合は可能だろう)、OSのlocaleまわりもいじらないとい
かんかもしれないが。

蛇足だが、
何度か言われているが、character set と encoding を区別してくれ。
ISO 2022 とはなにかを理解してくれ。暇があれば UCS, UTF とはなにか
を学んでくれ。書籍もいくつかでてるが、まずは http://euc.jp/ を読む
とよい。

理解した上の発言ならすまん。

113 :login:Penguin:01/10/20 21:03 ID:7W8DCi3g
>>110
文字コードと文字集合を世界で統一しようという
アイデア自体には大賛成だが、ここまで致命的な問題点を
見せられると困るな。
日本だけを見てもこの状況だから、他の諸外国でも
いろんな問題があるんだろうな。
ほんと孫の代になるまで解決しそうにないな。
漏れが現役の間は EUC-JP で頑張るしかないかな。

114 :login:Penguin:01/10/21 01:58 ID:3nI2LT/o
Flashの日本語が読めないのは誰のせい…

115 :login:Penguin:01/10/22 00:36 ID:vff311A1
結局, 中国語と日本語を両方ともまともに使う人から見て,
Unicode の CJK Unified は満足できるものなんでしょうか?

結局どっちかをメインとして使わないと文面の字面がキモくなる
ような気がするんですが.

それなら Emacs で ISO 2022 で違う font を使って表示した方が
ましのような.

116 :login:Penguin:01/10/22 07:46 ID:EJ6V2X5S
16bitに無理矢理収めたくてUnifyしたのに、
>>56にあるように9万(>2^16)字になっちゃったんです。意味ないんですぅ
Unifyの意味ないのに、UnifyされたのがISO 10646.1(>>65)になっちゃったんですぅ
しかも>>110にあるように漢字以外のUnifyの基準が使いものにならないですぅ
Unicodeは文字コードの世界に新しく増えた負の遺産なんですぅ

//最近のtechnical reportは面白いのあるけど。

117 :login:Penguin:01/10/22 08:00 ID:RZQUGhKz
Emacsの内部コードって何つかってんの?

118 :login:Penguin:01/10/22 09:01 ID:7trpRy3z
HTMLってSJISは論外としてEUCとJISのどっちで書くのがいいの?

119 :login:Penguin:01/10/22 09:08 ID:Pupx5KWC
>>118
あんまり考えずに全文検索とかするためにはバッティングしない
EUCの方が楽なんじゃない?

120 :login:Penguin:01/10/22 13:05 ID:U0CK64Pe
iso-2022-jpでしょ。>>118

121 :login:Penguin:01/10/22 13:28 ID:w9iNU5fE
ネスケの 4.x だと
たまに ISO-2022-JP を認識できないことがある。
ネスケのバグ?

122 :login:Penguin:01/10/22 15:33 ID:cV0J5a3p
charset= が間違ってるとかじゃなくて?

123 :login:Penguin:01/10/22 15:54 ID:dRSBo2ui
>>120
根拠は?

124 :login:Penguin:01/10/22 17:12 ID:uLX7lQZs
surrogate して使う文字は utf-8 で encoding すると普通の
漢字より byte 数を食いますか?

あまりかわらないんだったらそっちにいろいろ文字入れれば
Han Unification も救いようがあると思うんですけど.

125 :login:Penguin:01/10/22 18:36 ID:WlYpkgCt
>>118
ちゃんとコード指定するならSJISでも全く問題ないよ。
俺は各種処理が楽なので、今のところ EUC-JP 使ってる。

126 :login:Penguin:01/10/22 18:52 ID:+lMZ2zFA
>>125
ちょっと問題あるかもね。
charset=Shift_JIS は文字セットが曖昧だから:)

とはいえ、Windows-31J とか書いても理解してくれるブラウザは…
>>123
漢字コードの自動判別がしやすいからでしょ。
そもそも charset 書かないのがよろしくないんだけどさ。

127 :login:Penguin:01/10/22 21:30 ID:WlYpkgCt
>>115
RTF とか HTML とか XML とかマークアップ言語使って
ラッピングして使うってのがもう実用的につかわれてるよん。
さらばプレーンテキスト。一回 Outlook とか使ってみそ。よくできてるから。

あ、プレーンテキスト用の「言語タグ」ってのも一応表にはのっかってる
けど使うなって書かれてます。わはは。

Solairs の UTF版 Motif の実装も似たようなことしてるはず
だけど使ったことないから詳細不明。あと、GTK で pango が UTF-8
ベースなんだけど、こいつもオリジナルのマークアップかけることで、
ちゃんと「多言語」処理できるようになってるね。

もう世の中の流れ的には、少なくとも新しいものを実装する上では、
困ったところをうだうだ言うフェーズは終わってるといえるかもね。

128 :login:Penguin:01/10/23 12:54 ID:CcIiXv/t
>>124
RFC 2044 からいんにょー:
UCS-4 range (hex.) UTF-8 octet sequence (binary)
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx

つまり、BMP 内だったら最高でも 3 オクテット、
surrogate pair が必要な文字(U+10000〜U+10ffff)は 4 オクテット。

129 :124:01/10/23 15:41 ID:ODoryf+d
>>128
したらやっぱり surrogate pair に jisx0208 をまるごと入れて
使うというのは実用的じゃないですね.

130 :UNIFYダメ:01/10/23 21:36 ID:TioyS6YQ
http://news.2ch.net/test/read.cgi/news/1003826777/

統合など不可能。
できもしないことを高望みしないほうが良い。

131 :login:Penguin:01/10/24 01:13 ID:eNcfec5S
>>118
wget でwebページを取得するとき、ISO-2022-JPでHTML書いてあると
うまく取得できない。 wgetがASCII前提のソフトだからだけど。
EUC-JPで書いてあるのがいちばんいいと思う。

132 :login:Penguin:01/10/24 02:14 ID:mCLLGjB8
>>131
んなこたーないだろ

133 :login:Penguin:01/10/24 03:14 ID:crtkuShb
>>130
ごめん. そのスレがどう関係するのかわからないんだけど.

134 :login:Penguin:01/10/24 03:30 ID:SXmLmgbB
もし Unicode 3.x をフル実装できるのならば、ISO-2022 は楽勝でフル実装でき
るだろうなぁ。

結局、statefull かつ可変長コードな体系がもうひとつできただけか…。

135 :131:01/10/24 04:00 ID:eNcfec5S
>>132
実際できないよ。たとえばここ。
wget -r -l0 -np kanji.zinbun.kyoto-u.ac.jp/~yasuoka/JavaScript/
とやっても、取得できないページがある。
そもそも ISO-2022-JP って、Shift_JIS の 0x5cどころじゃなく
2byte文字の中にASCII領域が出てきまくる、というかASCII領域だけ使ってるからなぁ。
ASCIIやISO-8859-1前提のソフトとは非常に相性わるい。
8bit目を使わないことで転送データ量は増えるし、ISO-2022-JPにする利点は
今となっては少ないんじゃないかな。

136 :login:Penguin:01/10/24 04:11 ID:SXmLmgbB
>>135
wget 1.7 で何の問題もないんだけど。robots.txt を読みにいって失敗している
のを気にしているの?

137 :131:01/10/24 04:33 ID:eNcfec5S
wget 1.6での話でした...でなおしてきます

138 :login:Penguin:01/10/24 05:05 ID:Rq945OPL
wget なんて中身がなにかなんて気にしてないだろ。
バイナリだってとれるんだから。ふつーに。

139 :login:Penguin:01/10/24 05:22 ID:osZWRGWi
>>138
-rを使ったことないアフォ発見。

140 :131:01/10/24 05:23 ID:JalIbsLX
いやそうじゃなくて、HTMLを解析してリンク先のファイルも取得するよう指定 ( -rオプション) したとき、HTMLの解析に失敗していた、ということ。
wget1.6のHTML解析ルーチンは、ISO-2022-JPと相性がわるかった、と。

141 :login:Penguin:01/10/24 09:14 ID:TG+/cFwo
>ごめん. そのスレがどう関係するのかわからないんだけど.
誤用によって日本語が日々変化していると見るけど。
最初は誤用→やがて一般化と思える。

142 :login:Penguin:01/10/24 13:01 ID:kWLrrN8M
>>140
あー確かに <> が入ってナニなことになる可能性はあるかもねー

143 :login:Penguin:01/10/24 20:00 ID:4dNCtF18
eucってなに?

144 :login:Penguin:01/10/24 20:06 ID:XZp0N0cm
>>143
EUC isn't Useful Code

145 :login:Penguin:01/10/24 21:24 ID:mCLLGjB8
>>144
ウマイ

146 :login:Penguin:01/10/25 01:50 ID:xeHLuFXc
EUC is Useful Code.

45 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)