パスワードを忘れた? アカウント作成
10631001 story
SNS

KDDIが個人情報を自動で伏せ字にするソフトを開発 47

ストーリー by hylom
日時もアウトなのか 部門より
Hamo73 曰く、

KDDI研究所は2月4日、SNSなどの書き込みから個人情報を自動検出するツールを開発したと発表した。ツールには検出した個人情報部分を自動的に伏せ字化する機能もあり、サイト運営者の管理業務の効率化に役立つとしている。ツールは月内にも販売を開始し、価格はカスタマイズ内容により応相談だが約80万円とのこと(プレスリリースPDFITmedia日経新聞)。

識別対象は電話番号、人名、氏名、メールアドレス、日時の5種。ツールに書き込みのテキストを入力すると、Webブラウザ上に検出結果と伏せ字処理結果を1件ずつ表示する。処理速度は毎分1200件。検出精度は約94%。管理者による最終確認は必要だが、従来の目視確認で1件あたり約30秒かかっていた作業が3分の1の10秒まで短縮可能という。また、単語を登録することで、個人情報以外のキーワードの検出も可能。

なお、人名については「一般的」と注釈がある。ハンドルやアカウント、珍名などは検出困難なのだろう。

この議論は賞味期限が切れたので、アーカイブ化されています。 新たにコメントを付けることはできません。
  • by lcc (46023) on 2014年02月06日 13時05分 (#2540475) 日記

    検出できるのかな?

  • by miyuri (33181) on 2014年02月06日 12時56分 (#2540468) 日記

    ツールに書き込みのテキストを入力すると、Webブラウザ上に検出結果と伏せ字処理結果を1件ずつ表示する。

    伏字済みのテキストを監視オペレータに渡す方が楽そうな。

    • by Anonymous Coward

      その監視オペレータが使うんじゃね?

  • by ymasa (31598) on 2014年02月06日 13時28分 (#2540488) 日記

    > 識別対象は電話番号、人名、氏名、メールアドレス、日時の5種。

    元には 電話番号、住所、人名(一般的)、メールアドレス、日時(契約日等) と書いてある。

    なぜ住所がなかったり、氏名があったりするの?

  • 値段&使いまわしがどこまで可能かによるけれど、個人情報を扱う金融、保険や物流系の
    システム開発では、実際

    開発「調査用データがないと…」
    顧客「伏字にするので時間くださいね」

    なんてやり取りがありました。結構大変な作業だったので、ああいうのが軽減されたら
    お互い楽だな、とかまじめに思ってしまいました。

  • > SNSなどの書き込みから個人情報を自動検出するツールを開発したと発表した。
    > ツールには検出した個人情報部分を自動的に伏せ字化する機能もあり

    これまんま読んだらだと、検出した個人情報が伏字で報告されるな。

  • by Anonymous Coward on 2014年02月06日 12時58分 (#2540470)

    ■■■■■■、■■■■■。
    ■■■、■■■■■■■■■■■。

  • by minet (45149) on 2014年02月06日 18時15分 (#2540685) 日記

    価格はカスタマイズ内容により応相談だが約80万円とのこと

    また、単語を登録することで、個人情報以外のキーワードの検出も可能。

    もちろん禁止単語帳は完全受注生産ということは無く、ある程度の分野別リストの用意があるものと推察されますね。(卑語、差別語、特定団体名、犯罪、猥褻…)
    アップデート契約とかもあるんでしょうか。
    最新の性表現を追加しました! とか、ちょっと気になります。

  • by Anonymous Coward on 2014年02月06日 12時55分 (#2540466)

    人名と氏名が重複してますよ。

    >電話番号、住所、人名(一般的)、メールアドレス、日時(契約日等)
    ってことですね。

  • by Anonymous Coward on 2014年02月06日 12時57分 (#2540469)

    地名にも人名にも存在する単語ってあるけど、その辺もうまく処理してくれるのかな?
    地名のつもりで渋谷って書いたのが全部伏せ字にされたり、人名のつもりで渋谷って書いたのが伏せ字にされなかったりなど。

    • by Anonymous Coward

      流石に文から類推するんじゃない?

    • by Anonymous Coward

      ゆえに「検出精度は約94%。管理者による最終確認は必要」なんじゃないかなあと

    • by Anonymous Coward

      ただの grep は 80万円じゃ売れないだろ

  • by Anonymous Coward on 2014年02月06日 13時24分 (#2540484)

    > 人名については「一般的」と注釈がある。ハンドルやアカウント、珍名などは検出困難なのだろう。

    ソースは?

    • 何このコメント。自動投稿?

      親コメント
    • by Anonymous Coward

      いいえ、私はソース派ではないです。

      • by Anonymous Coward

        (#2540534) とか(#2540523) とか、ほんっとくだらない。

        • by Anonymous Coward

          脊髄反射コメントから投稿ボタン押下までに一片の躊躇も無い御仁が増えましたよね。

          • by Anonymous Coward

            俺が知らないだけで、みんなは2ch専用ブラウザみたいな
            至れり尽くせりのクライアントに下書きしてボタン押すだけで書き込める環境にいるのかも

    • by Anonymous Coward

      どう考えても人名じゃなくて製品名として扱われるんじゃないですかね。
      まぁ人名として使った場合は“珍名”に分類されるのがオチでしょう。

  • by Anonymous Coward on 2014年02月06日 13時43分 (#2540499)

    チャットでよろしくない文言が***に変換される事から「何がよろしくない文言か」を探す遊びがあったりする。

    このシステムも「何が個人情報か」を探す事に使われたりして。

    • by Anonymous Coward

      >このシステムも「何が個人情報か」を探す事に使われたりして。
      ダダ漏れなのを隠しているだけなんで、それであってもダダ漏れよりもマシだろう。
      流石にその遊びで書かれていない個人情報まで引き出されない限り。

    • by Anonymous Coward

      伏せ字にすることで別の個人情報が浮かび上がる高度な遊びが出てくるかも。

      • by Anonymous Coward

        なるほど、アニメ「生徒会役員共*」の最後の文字は個人情報だったのか

  • by Anonymous Coward on 2014年02月06日 17時53分 (#2540670)

    これで「某」とか妙な言い換えとかわざとらしい誤変換とかにまみれた、頭悪そうな書き込みだらけになるわけか。

    • by Anonymous Coward

      もう素手に層だから名にも代わらん

  • by Anonymous Coward on 2014年02月06日 20時14分 (#2540773)

    なんJ民のチンフェ絡みの書き込みに伴う大規模規制を回避できるな。もっとも、2ch運営は意図的に大規模規制を発動して●買わせて飯食ってる疑惑があるから甘い期待はできんが。

    • by Anonymous Coward

      2chが規制回避のために80万費やすとでも?
      大規模規制すればむしろ金が入ってくるのに…

  • by Anonymous Coward on 2014年02月07日 4時38分 (#2540975)

    「私の友達の安部」を「私の友達の○○」とする一方で「総理大臣の安部」は伏字にしないように判定するのだろうか?
    個人名らしき綴りは一律にすべて伏字にしてしまう検閲システムなのではないか?
    本質的に検閲は機械的にできるようなものなのだろうか?
    日本式の検閲といえば、性に関する動画や画像などの検閲があるが、極めて機械的で、
    西欧で芸術とされるものまで検閲にかかり、仕方なく、著名すぎるもののみを例外的に救済しているのが実情だ。
    ただでさえ、マイナス情報が出てきづらいのに、検閲で強制的にマイナス情報を刈り取るべきなのか?

typodupeerror

UNIXはシンプルである。必要なのはそのシンプルさを理解する素質だけである -- Dennis Ritchie

読み込み中...