1:名無しさん@涙目です。:NG NG


コンピューターで全漢字使用可に 6万字コード化

日本語の漢字は、戸籍などに使われているものも含めると6万字あるのに対し、コンピューターは、実は1万字しか
扱うことができません。これに対し、このほど15年越しの作業の末、6万字すべてが統一の規格にまとめられて、
コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。

コンピューターで文字を扱うには、1つ1つの文字に、「コード」と呼ばれる世界共通の番号を割りふる必要がありますが、
日本語の漢字で、コードが割りふられているのは1万字だけで、コードが無く、コンピューターが扱えない「外字」は、
戸籍で使われているものをはじめおよそ5万字に上っています。

中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、
データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を
充てたものと略字を充てたものの2つのデータがあった場合、コンピューター上では、別の人と認識されてしまったり
するなどの問題が起きていました。

このためIPA=情報処理推進機構は平成14年から、経済産業省とともに外字を含めたおよそ6万字の漢字1つ1つに、
コードを割りつける作業を進めた結果、このほど15年越しでようやく完了し、国際規格として登録されました。

この結果「日本語の壁」の1つが取り払われ、外字が使われた名前を正確に表示できたり、地名を含むビッグデータを
正確に分析できたりするなどの効果が期待されています。

IPAの田代秀一参与は「日本人にとって、名前は大事なアイデンティティーで、戸籍では尊重されているがコンピューターが
追いついていなかった。文字を正確に扱えるようにすることは、今後ますます重要になる」と話しています。

■漢字とコンピューターのこれまで

戸籍で使われている文字のうち例えば「渡辺」の「ベ」は「辺」「邊」「邉」など11種類、「斉藤」や「斎藤」の「サイ」は
「斉」「斎」「齊」「齋」などおよそ60種類ありますが、このうちコンピューターが扱えるのは「べ」は3文字、「サイ」は
15文字ほどです。

また「吉田」の「ヨシ」のつくりが「土」になっている漢字も外字です。日本で初めて漢字のコードが作られたのは
昭和53年のことで、当時はコンピューターの能力が低く大量のデータを扱えないことなどから登録された漢字は、
およそ6000字でした。

その後、昭和54年に世界初の日本語ワープロが発売されるなど家庭や企業でパソコンが普及して、さまざまな
漢字を扱う必要が出てきましたが、コードの整備は進まず、コードのない漢字は、それぞれのメーカーがばらばらに
作っていました。

現在は、およそ1万字の漢字にコードが付いていますが、いまだに特定のソフトでなければ表示できない漢字もあり、
対応が急がれていました。

■企業や自治体も一苦労

(略)

■IT企業でも…

(略)

https://www3.nhk.or.jp/news/html/20171224/k10011270111000.html


4:名無しさん@涙目です。:2017/12/24(日) 19:34:06.87 ID:ADdgEuTl0.net
その前にsjisとeucとutfを何とかして
7:名無しさん@涙目です。:2017/12/24(日) 19:35:11.20 ID:eG4oDqE90.net
フォントは誰が用意するんだ?
19:名無しさん@涙目です。:2017/12/24(日) 19:37:27.36 ID:yFdZ8/Xz0.net
>>7
なんか大変そうだよな
22:名無しさん@涙目です。:2017/12/24(日) 19:38:16.42 ID:a7y1PqvO0.net
>>19
フォントはIPAフォントってのがすでに作成済みだったはず。
44:名無しさん@涙目です。:2017/12/24(日) 19:47:20.23 ID:KGHpsw+70.net
>>7
用意してるだろ。
じゃなきゃ、さすがにコード割り振りだけで6万語に15年もかからん。
69:名無しさん@涙目です。:2017/12/24(日) 20:02:20.97 ID:ZHixxYyk0.net
>>44
6万人のデザイナー雇えば数ヶ月で終わったんじゃ?
91:名無しさん@涙目です。:2017/12/24(日) 20:16:35.68 ID:KWMb+dnn0.net
>>69
出来がバラバラになるぞ
デザイナーに免許とかないから
247:名無しさん@涙目です。:2017/12/25(月) 01:52:50.91 ID:9MZxk5DW0.net
>>69
一人でやったら15年間年休120日で約3万人時だから
30分に1文字デザインだな
8:名無しさん@涙目です。:2017/12/24(日) 19:35:17.23 ID:FMfFaCUQ0.net
もうUTF8だけで良くね?
208:名無しさん@涙目です。:2017/12/24(日) 23:00:50.23 ID:53B2XxAY0.net
>>8
unicodeとutf-8みたいな文字コードは違います

こういうのはunicodeの異体字セレクタ使うんだけど、
エンコードはまた別の話で関係ない
233:名無しさん@涙目です。:2017/12/25(月) 00:53:10.94 ID:O7NNyeel0.net
>>208
ソースの記事読むとユニコードの事を言ってるね

にしてもIPAのフォント入れないと文字化けするだろうし、
フォント入れると殆ど使わない漢字の為に従来の6倍のメモリが必要になるし、ニッチな需要のために15年もかけて税金投入してやる事かね
250:名無しさん@涙目です。:2017/12/25(月) 03:02:41.25 ID:6ntf3IJ30.net
>>233
フォントは各ベンダーが切他社にり替えられない既得権みたいなもんだからね。
正直統一してくれた方が凄く助かる。
統一規格ならフォントの配信もしなくて助かる。
ただ、ホントに切り替えられるかは疑問あるけどね。
9:名無しさん@涙目です。:2017/12/24(日) 19:35:26.21 ID:a7y1PqvO0.net
UTF-8じゃなくて独自キャラクタセット?
10:名無しさん@涙目です。:2017/12/24(日) 19:35:33.26 ID:PKItkQ0h0.net
中国の漢字は何文字あるの?
17:名無しさん@涙目です。:2017/12/24(日) 19:37:12.49 ID:M5EhgwlT0.net
>>10
当然といえば当然だけど総数自体はたいして変わらん
98:名無しさん@涙目です。:2017/12/24(日) 20:23:19.50 ID:ae9LcN+O0.net
>>10
86000字ほど
138:名無しさん@涙目です。:2017/12/24(日) 21:00:30.70 ID:PKItkQ0h0.net
>>17
>>98
向こうの漢字は全部使えるのかな。
しかしこれって凄く地味な作業なんやろうね
11:名無しさん@涙目です。:2017/12/24(日) 19:35:46.70 ID:iPWlb7CZ0.net
苗字旧字体だから助かるわ
12:名無しさん@涙目です。:2017/12/24(日) 19:35:48.31 ID:M5EhgwlT0.net
それ以前に常用漢字とかいう糞制度を根本的に考えなおせ
14:名無しさん@涙目です。:2017/12/24(日) 19:36:08.47 ID:Rvu7LWqJ0.net
84画のこれもコード化したんか?

87:名無しさん@涙目です。:2017/12/24(日) 20:14:07.91 ID:OUrTXgjD0.net
>>14
いつ使うんだよコレwww
102:名無しさん@涙目です。:2017/12/24(日) 20:28:47.31 ID:TIRMvdu20.net
>>14
それコピペして書き込もうとしたら空白だってエラーが出たわ
139:名無しさん@涙目です。:2017/12/24(日) 21:01:35.82 ID:dWszBWt80.net
>>14
wiki見たらちゃんとunicodeで今後出る予定になってて、超漢字だとすでに登録済みってのに驚いた
150:名無しさん@涙目です。:2017/12/24(日) 21:30:23.67 ID:IHDKX1D30.net
>>14
「雲龍形(くさん)」って読むのか
24:名無しさん@涙目です。:2017/12/24(日) 19:39:38.03 ID:zI17Wdf70.net
>>14
シューティングのキャラでしょ
これが3つずつヒューって落ちて攻めてくるんだよね?
59:名無しさん@涙目です。:2017/12/24(日) 19:56:37.49 ID:ofcPRJma0.net
>>24
www
99:名無しさん@涙目です。:2017/12/24(日) 20:25:15.45 ID:N8RaGJQq0.net
>>24
ギャラクシアンかよ
175:名無しさん@涙目です。:2017/12/24(日) 22:03:17.47 ID:524Q+s380.net
>>99
ギャラガじゃない?
15:名無しさん@涙目です。:2017/12/24(日) 19:36:39.73 ID:wemqGe0N0.net
Unicode埋め終わったんだ
18:名無しさん@涙目です。:2017/12/24(日) 19:37:24.37 ID:w2368IcE0.net
Unicodeのユの字も出てないけどバカが書いた記事かな?
30:名無しさん@涙目です。:2017/12/24(日) 19:41:21.53 ID:eG4oDqE90.net
>>18
NHKの一般人向けニュースだぞ
20:名無しさん@涙目です。:2017/12/24(日) 19:37:51.25 ID:aBrzcYD90.net
>>1
戸籍を簡単な漢字に直せば良いだろwww
サイトーとかワタナベとか面倒臭すぎ
コイツラが変な拘り捨てりゃ良いんだよ
54:名無しさん@涙目です。:2017/12/24(日) 19:52:47.18 ID:FUprDAwy0.net
>>20
コンピュータに人間が合わせろというのは昭和50年代の思想だぞw
21:名無しさん@涙目です。:2017/12/24(日) 19:37:53.04 ID:Au1+Vg0i0.net
漢検一級に出てくるような漢字は廃止しろよ
変換したくても読めねーから面倒くせーよ
23:名無しさん@涙目です。:2017/12/24(日) 19:38:29.39 ID:LfXOtTaM0.net
どうせデータ連携で化けるんだから余計な事しなくても
なきゃないで終わりなのに
26:名無しさん@涙目です。:2017/12/24(日) 19:39:59.94 ID:RrvIlUnz0.net
しょうもない事に予算使うな
27:名無しさん@涙目です。:2017/12/24(日) 19:40:02.47 ID:QUrXN0bm0.net
あれ、、1日15文字くらいのお仕事?
28:名無しさん@涙目です。:2017/12/24(日) 19:40:21.49 ID:Jp6EfYB50.net
こんなバカげた文字に付き合わされる欧米人も大変だな
29:名無しさん@涙目です。:2017/12/24(日) 19:40:48.37 ID:7lk4EkvqO.net
>>1
マジか漢字ROM増設だな!
160:名無しさん@涙目です。:2017/12/24(日) 21:48:35.88 ID:IHDKX1D30.net
>>29
それが別売だと知ったときの絶望感
31:名無しさん@涙目です。:2017/12/24(日) 19:41:35.96 ID:7yqUuuIy0.net
草なぎも変換できるな
34:名無しさん@涙目です。:2017/12/24(日) 19:43:13.95 ID:BvKtoIHE0.net
最近認印で正しい苗字のものが見当たらなくなってきた
35:名無しさん@涙目です。:2017/12/24(日) 19:44:05.42 ID:ezxnPrY90.net
フォントデザイナーの災厄
38:名無しさん@涙目です。:2017/12/24(日) 19:44:45.24 ID:d8yYWPJq0.net
2バイトに収まって良かったね
39:名無しさん@涙目です。:2017/12/24(日) 19:45:08.03 ID:AAVKFMki0.net
よし、次はプログラムが認識してくれる1バイトの半角漢字を搭載してくれ
なおかつ見た目は細長くなくて、全角と同じように表示される奴な!
41:名無しさん@涙目です。:2017/12/24(日) 19:45:48.77 ID:WlhUghpj0.net
え?
これ既存データどうすんの?
やるの?
ヤダよヤダヤダヤダ
46:名無しさん@涙目です。:2017/12/24(日) 19:49:35.83 ID:a7y1PqvO0.net
>>41
問題はそれだよな
SJIS外字領域で作った外字全部を
コード割り当てしなきゃいけないの気が遠くなるわ
49:名無しさん@涙目です。:2017/12/24(日) 19:51:07.69 ID:KGHpsw+70.net
>>46
もちろん、コンバートライブラリも作っただろ。15年も税金使ったんだぜ?
62:名無しさん@涙目です。:2017/12/24(日) 19:58:26.32 ID:a7y1PqvO0.net
>>49
だ、騙されないぞ!!
それにどうせコンバーター使ったって検証作業で泣くんだから…
42:名無しさん@涙目です。:2017/12/24(日) 19:46:51.44 ID:KGHpsw+70.net
これは良くやった!と褒めてあげたい
45:名無しさん@涙目です。:2017/12/24(日) 19:48:56.15 ID:oeIk+ncu0.net
それでいつから使えるようになるんだ?
47:名無しさん@涙目です。:2017/12/24(日) 19:49:56.51 ID:j0feavu10.net
昔TRONというのがあってだな…
163:名無しさん@涙目です。:2017/12/24(日) 21:50:58.06 ID:IHDKX1D30.net
>>47
今でもあるぞ
Windows上で動くものにされちまったらしいけど
(Windows10でも動くのかな…)
48:名無しさん@涙目です。:2017/12/24(日) 19:50:02.29 ID:GEDJ9G/x0.net
それより半角カナとかいう人類悪を早く根絶して欲しい。
あんなものは人道に反する罪で裁かれるレベルだ
53:名無しさん@涙目です。:2017/12/24(日) 19:52:18.97 ID:ira+X7J/0.net
>>48
全角英数字はいいの?
50:名無しさん@涙目です。:2017/12/24(日) 19:51:19.20 ID:kKWrYEwV0.net
馬鹿じゃねえの
55:名無しさん@涙目です。:2017/12/24(日) 19:53:00.66 ID:4KD4IWXw0.net
超漢字がないとは
57:名無しさん@涙目です。:2017/12/24(日) 19:55:22.90 ID:53TLoaEA0.net
やったぜ!名前も常用漢字以外も付けられるようにして
58:名無しさん@涙目です。:2017/12/24(日) 19:56:21.42 ID:awSHZnB80.net
4万文字格納している第4水準に+2万字?
第5水準になるの?
60:名無しさん@涙目です。:2017/12/24(日) 19:56:53.20 ID:5gE6HO8y0.net
その点26文字で済むアルファベットは優秀だな
61:名無しさん@涙目です。:2017/12/24(日) 19:57:01.51 ID:5YvbZiqz0.net
中国は漢字を簡略化する方向に進んでいるのに日本は逆行するのか?
姓は全部旧字で書く動きになって余計ややこしくなりそう。
元号と一緒、害悪でしかない。
152:名無しさん@涙目です。:2017/12/24(日) 21:35:57.27 ID:eA8uJCVK0.net
>>61
中国も元素増えるたびに創字してるぞ
元素番号118の漢字は未登録
https://zh.wikipedia.org/wiki/Og
64:名無しさん@涙目です。:2017/12/24(日) 19:59:29.85 ID:HZCapToz0.net
常用漢字とか人名漢字とかの制限の方をきつくしてくれればそんな大事業は要らなかったんじゃないのか
164:名無しさん@涙目です。:2017/12/24(日) 21:52:40.03 ID:IHDKX1D30.net
>>64
当用漢字復活か
65:名無しさん@涙目です。:2017/12/24(日) 19:59:51.23 ID:SaxS7Jg00.net
ついに三国志ヲタの苦労が報われる日が来たか
66:名無しさん@涙目です。:2017/12/24(日) 20:01:09.85 ID:Nfv5rN2i0.net
草なぎは?
67:名無しさん@涙目です。:2017/12/24(日) 20:01:18.58 ID:ypgukzXC0.net
そもそもIMEが対応していないと変換できないに一票
コードの中にあっても候補として呼び出されないよね
70:名無しさん@涙目です。:2017/12/24(日) 20:02:25.40 ID:9n3iNsiR0.net
外字登録いらないの?
ぃまさらかよ
71:名無しさん@涙目です。:2017/12/24(日) 20:03:23.93 ID:YZWDIxfn0.net
結局JIS第一、第二以外を使うと読めないので迷惑でしかない
78:名無しさん@涙目です。:2017/12/24(日) 20:08:22.58 ID:awSHZnB80.net
>>71
それは第4水準までを使えないフォントを使ってるバカが悪い
MSゴシック、游ゴシック、メイリオ、ヒラギノはJIS X 0213に対応してんだよバカ
109:名無しさん@涙目です。:2017/12/24(日) 20:37:35.86 ID:q8CY00+S0.net
>>78
おまえは現場を知らなすぎる
72:名無しさん@涙目です。:2017/12/24(日) 20:03:30.78 ID:wc81z2Ql0.net
普通の人が使えるようになるのは何時だろう?
75:名無しさん@涙目です。:2017/12/24(日) 20:05:12.06 ID:wc81z2Ql0.net
これで厨二臭い文章が捗るねw
76:名無しさん@涙目です。:2017/12/24(日) 20:06:02.99 ID:xCfLLm8X0.net
努力だけ評価する
79:名無しさん@涙目です。:2017/12/24(日) 20:08:25.10 ID:g5M9KQDZ0.net
ついに大漢和辞典オンライン版が発行可能になるのか
80:名無しさん@涙目です。:2017/12/24(日) 20:09:33.99 ID:PTc95fiA0.net
これは簡単な方に統一すべきでは?
高と梯子高、浜と濱と賓と眉浜とか斉藤とか種類がありすぎて困るから簡単なのにしろよ
でなきゃ手間が掛かりすぎて困る
103:名無しさん@涙目です。:2017/12/24(日) 20:32:10.27 ID:TEJGrfiL0.net
>>80
過去に遡る、データベース化した史料を出してくるときの一致性とかね
「ネ司」とかは、戸籍統一文字、住民基本台帳、入管管理あたりでは使えるけど、一般標準の環境にはない

こないだは「ユ藤」ってのを見た、まぁ「工藤」なんだけど
公文書や資料レベルでは安易に置き換えてしまうと、見えなくなってしまう情報が含まれてる
該当文字に変更があったら、それがいつ変わったのか? つーのも、大事な情報なの

江戸や明治の過去帳に目を通してたら、「絶対こんな文字ねーだろw」ってのが出てくるよ
まぁこっちは活字じゃなくて筆で描くから、まだ字画トレースできるけどさ
81:名無しさん@涙目です。:2017/12/24(日) 20:10:12.28 ID:hZTBNa4k0.net
サイトウとワタナベいい加減にせえよ
88:名無しさん@涙目です。:2017/12/24(日) 20:14:54.52 ID:ezxnPrY90.net
>>81
渡辺は漢字の組み合わせも多いうえ、わたなべ、わたべ、わたのべ、わたりべとか読み方も数種類あって本当に迷惑
82:名無しさん@涙目です。:2017/12/24(日) 20:11:27.15 ID:UGdYqCKX0.net
クソIMEに入ってないと使えないけどな
83:名無しさん@涙目です。:2017/12/24(日) 20:11:38.86 ID:uUlXb0qA0.net
そういや漢字って新しい奴増えないの?
略字とかじゃなくて
94:名無しさん@涙目です。:2017/12/24(日) 20:20:31.45 ID:M5EhgwlT0.net
>>83
江戸時代でもアクロバットな読み方は続々考え出されたけど新しい漢字は数えるほどだな
必要に応じて作られてきたもんだから外来語をそのまま表記するようになった今
新しい熟語はできても字は滅多なことじゃできないだろ
86:名無しさん@涙目です。:2017/12/24(日) 20:12:35.56 ID:21sZGhhe0.net
マイナンバーとか推進する前にこれ終わらせとけよ無能
89:名無しさん@涙目です。:2017/12/24(日) 20:15:06.57 ID:d8yYWPJq0.net
超漢字OSとは何だったのか
90:名無しさん@涙目です。:2017/12/24(日) 20:16:13.39 ID:G2OT0vrN0.net
一方ユニコードコンソーシアムはどうでもいい絵文字を増やしていた
96:名無しさん@涙目です。:2017/12/24(日) 20:22:11.25 ID:z8sryiQB0.net
漢字は94x94=8836文字で全てと思って生活すれば問題なし
101:名無しさん@涙目です。:2017/12/24(日) 20:27:03.83 ID:XTBhpnum0.net
Googleに頼めば半月でできたのに
104:名無しさん@涙目です。:2017/12/24(日) 20:34:31.00 ID:e3HOAcWG0.net
フォントがねぇから結局使えないだろ
106:名無しさん@涙目です。:2017/12/24(日) 20:36:34.23 ID:e3HOAcWG0.net
「俺はこんな字じゃねぇ!」とかって郵便物を受け取らないアホのせいで
数千万かけて外字を使えるようにするんだぜ?アホくさい
111:名無しさん@涙目です。:2017/12/24(日) 20:38:57.95 ID:q8CY00+S0.net
フォント買い替え&変更作業とか嫌すぎる
113:名無しさん@涙目です。:2017/12/24(日) 20:39:40.93 ID:TmcKCGwb0.net
こんなあほな作業AIにやらせとけ
115:名無しさん@涙目です。:2017/12/24(日) 20:43:48.99 ID:6Ovy967r0.net
斉は種類多いなとは思ってたけど60種類もあるんかよ…
引用元:http://hayabusa3.2ch.sc/test/read.cgi/news/1514111550
人気サイト更新情報
人気記事ランキング
人気記事ランキングを全て表示する