仲見満月の研究室

元人文学系、現・文理総合学系の「真っ白」博士が大学院とその周辺問題を考える

文字などの言語情報を扱う工学系情報学者から見た「文章フィルタリング研究」~情報学の研究と文化人類学的な調査手続きに関する話 Part6~

<本記事Part6no内容>

1.今までのお話と本記事の内容について

本記事は、以下の目次にまとめた「情報学の研究と文化人類学的な調査手続きに関する話~「文章フィルタリング研究」案件に関する私的メモ~」シリーズのPart6に当たる記事です: 

naka3-3dsuki.hatenablog.com

 

シリーズの中心である「文章フィルタリング研究」案件って何だろう?という読者の方は、少し長めですが、Part3の冒頭「1.これまでのあらましと本記事の内容について」をお読みください。案件の経緯と現在の状態、および私がこの問題を取り上げ、シリーズ記事において、主に「異文化コミュニティ同士のエンカウント」という切り口で、どういった話をしてきたのか、大まかな内容が把握できると思います。 

 

f:id:nakami_midsuki:20170531162252j:plain

(イメージ画像:漢字のイラスト文字、出典:漢数字のイラスト文字 | かわいいフリー素材集 いらすとや、*このイメージ画像は、本記事の内容とは直接、関係するものではありません)

 

 

一応、ここではどのような研究で、どういう点が問題とされたのかだけ、見ます。

人工知能学会の全国大会(第31回)のサイト内にて、学会員外の一般の人でも見られる形で、発表報告のレジュメ=梗概と思われるPDFファイル「ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング」でした。

 

この発表の研究は、イラストや漫画、文章作品の投稿を中心とするSNSサービスpixivに公開された、BLを含む二次創作*1の小説でR-18指定ものについて、「青少年にとって有害な情報,特に猥褻な意味を持つ言葉は直接記述されず暗喩により表現」を含む文章を、ドメインごとに、人工知能機械学習をさせ、「表現の分類器を作り」、フィルタリングする手法の提案だったようです*2。この研究発表は、立命館大学の情報理工学部および大学院情報理工学研究科の学生と大学教員によって行われたとのことでした。

 

【2017.5.28_1710更新】情報学の研究と文化人類学的な調査手続きに関する話 Part1~「文章フィルタリング研究」案件に関する私的メモ~ - 仲見満月の研究室 )

 

 

さて、Part6の本記事では、言語情報を扱う工学系情報学者が「文章フィルタリング研究」案件をどのように見ていたんだろうか、ということを取り上げます。

 

この案件に関して、私はPart2の記事のはてなブックマーク(以下、はてブ)に、「コーパス*3を作る際の然るべきプロセスを踏まず、「やってしまった」という言語学系の研究における文脈に沿って見るのが適当だと思います」というような内容のコメント*4を頂きました。

 

はてブのこのコメントを読み、「そういえば、今回の研究案件は、研究対象を小説という文字テキストとしており、工学系の情報学だけでなく、言語情報を扱う言語学系の知識や技術も必要になってくる研究テーマだな」と気がつきました。Part5まで書く間、文字などの言語情報を扱う研究を行い、かつ今回の案件のオーサーたちと同じ工学系の情報学分野でキャリアを積んでいらっしゃる研究者の方が、今回の案件に言及していないか、フォロワーさんからも情報を頂き、調べました。

 

その結果、スラド -- アレゲなニュースと雑談サイトに、次の2つの記事にたどり着きました:

srad.jp

srad.jp

本記事では、筆者である安岡孝一さんのこちら2件の日記を引きつつ、文字などの言語情報を扱う工学系情報学者から見たこの案件について、考えていきます。

 

 

  

2.言語情報を扱う工学系情報学者から見た「文章フィルタリング研究」

 2-1.安岡孝一について

スラドの『yasuokaの日記』の筆者である安岡孝一さんは、現在、京都大学人文科学研究所(以下、京大人文研)附属東アジア人文情報学研究センターで教授として勤務されている方です*5 。安岡さんの経歴を安岡 孝一 - 研究者 - researchmap京都大学 教育研究活動データベース で拝見すると、京都大学工学部情報工学科をご卒業後、同大学(大学院)工学研究情報工学科に進学され、博士(工学)の学位を取得されたとあります。詳しい職歴は、ネットで出てきたAmazonの著者ページによると、

安岡 孝一
1965年2月、大阪府堺市に出生。1983年4月、月刊『ASCII』でデビュー。当時はZ80機械語プログラマーだった。1990年4月、京都大学大型計算機センター助手に就任。文字コード研究のパイオニアとして活躍し、さらにコンピュータ周辺の歴史研究に手を染める。文字コード規格JIS X 0213の制定および改正で委員を務め、その際に、人名用漢字の徹底調査をおこなった。現在、京都大学人文科学研究所附属東アジア人文情報学研究センター教授。http://srad.jp/~yasuoka/journal/ で、断続的に「日記」を更新中。

(Amazon.co.jp: 安岡 孝一:作品一覧、著者略歴)

とあり、京都大学大型計算機センター助手から、京大人文研の東アジア人文情報学研究センターのほうに移られているようです*6一応、大型計算機センター助手までは、工学系の情報学分野のキャリア一本という感じです。その間、「文字コード研究のパイオニアとして活躍」したり、「人名用漢字の徹底調査をおこなった」りし、漢字などの文字を含む言語情報を研究で扱うようになったのかもしれません。

 

Amazonに挙がっていた著作で、ご研究と関係がありそうで、私が関心を持ったのは、次のご著書です。文字書きの記録魔として、かなり気になります。

 

ところで、京大人文研の東アジア人文情報学研究センターと言えば、全国漢籍データべース協議会の幹事機関のひとつであり、どうも安岡さんが技術的な面で関わっておられそうな雰囲気があります。

 

このように、工学系の情報学分野で途中までキャリアを重ねられた後、 漢字などの文字を含む言語情報を積極的に研究されるようになったようです。安岡さんは、工学系の情報学分野と人文科学系の言語学との境界領域に立っておられると言ってもいい方でしょう。違う分野の境界領域をゴリゴリ、研究していた私には、興味を非常にそそられるご研究者と感じました。

 

そのような境界分野研究者と私が勝手に考える安岡さんは、「文章フィルタリング研究」について、どのようにお考えになったのでしょうか。

 

 2-2.「書写言語研究におけるサンプルデータの重要性と妥当性 」(『 yasuokaの日記 』)

ここでは、書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 |の内容を紹介しながら、安岡さんの注目されているところについて考えてみます。なお、安岡さんの記事を引用するにあたりまして、研究当事者の方に対する配慮をして、お名前を伏せさせて頂きました*7

 

yasuokaの日記: 書写言語研究におけるサンプルデータの重要性と妥当性

日記 by yasuoka 2017年05月25日 15時45分

私(安岡孝一)の2016年2月26日の日記の読者から、(中略)『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)という論文を読んでほしい、との御連絡をいただいた。読んでみたのだが、書写言語研究におけるサンプルデータの重要性を全く理解していない論文で、正直、頭が痛くなった。

本研究では猥褻な表現に関する文を集めるために,pixivに投稿されているR-18小説を用いた.R-18小説に分類される小説の中から,2016年10月のウィークリーランキングTop10の小説を選択し,分析に用いた.

そんな偏ったサンプルデータ10本で、まともな結果が出るわけが無いだろう。しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書かれていない。pixivは本来「イラストコミュニケーションサービス」のサイトであり、イラストならまだしも、R-18小説を抽出しなければならない理由は無い。もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう。

 

というか、(今回の「文章フィルタリング研究」を行った研究者たちは)、以前、キラキラネームの研究に際しても、かなりおかしなサンプルデータを使っており、私自身こっぴどく指摘した(これとかこれとかこれとかこれ)はずだ。インターネットでお手軽にサンプルデータを拾ってきたい気持ちは、まあ、理解できなくもないが、それでも研究を始める前に、そのサンプルデータの妥当性を検討しておくべきだ。サンプルデータをpixivのR-18小説に限定する妥当性があるのなら、その妥当性をぜひ明らかにしてほしい。

(書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド(中略)および(今回の「文章フィルタリング研究」を行った研究者たちは)の部分は、仲見満月による改編箇所です)

 安岡さんが今回の研究PDF文書をお読みになって、問題として言及されているのは、

 

  1. 書写言語研究におけるサンプルデータの重要性を全く理解していない論文である点
  2. 偏ったサンプルデータ10本で、まともな結果が出るわけが無いだろうという点
  3. しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書かれていない点
  4. pixivは本来「イラストコミュニケーションサービス」のサイトであり、イラストならまだしも、R-18小説を抽出しなければならない理由は無い点
  5. もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう点

書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラドをもとに仲見満月が再構成)

の5つの点です。

 

書写言語研究におけるサンプルデータの重要性を全く理解していない論文である点」は、私は言語情報を扱う研究者ではないので、コメントは控えますが、2~5の点については、「以前、キラキラネームの研究」で常用漢字人名用漢字異体字や音訓の特性が理解されてないらしきこととと合わせて、私が考えると、上の日記記事で安岡さんが最後にされているコメントは、的確なものでしょう。

研究を始める前に、そのサンプルデータの妥当性を検討しておくべきだ。サンプルデータをpixivのR-18小説に限定する妥当性があるのなら、その妥当性をぜひ明らかにしてほしい。

 (書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド)

 

「予稿」を含む広い意味での「論文」に書かれた、研究背景・目的・手法および使用する研究サンプル、それらによって導き出された結果を妥当性を見極めるにあたっては、2017.5.31_1400追記】「文章フィルタリング研究」案件の大学院の現場とその周辺の話~情報学の研究と文化人類学的な調査手続きに関する話 Part4~の「2ー1.この案件の研究はAIをどのような方向で活用できるものだったのか」で私自身がPart2で引いた松谷創一郎さん、Part3で引用したみわよしこさんの各論説文の一部を引かせて頂きつつ、注意すべきことをと書きました。

拙記事のPart3までで引用した各論説文やニュース記事において、研究のタイトルや本文で使われた言葉や、研究対象について、問題として指摘されている点は、次の2つです。

 

  1.何が青少年にとって「有害」、「猥褻」だというのかは、研究PDFでは定義をされていなかったこと*8

  2.わざわざ会員制SNSであるpixivにおいてもR-18指定によって公開範囲を制限していた二次創作の私的な小説を、研究サンプルに使ったこと

 

研究を進めるには、研究発表で使うPDF文書では執筆者なりに、きちんと「何が青少年にとって「有害」、「猥褻」か」という定義をするなど、読者に向けて示さなければなりません。きちんと「宣言」をしなければ、研究を行い、提示された結果に対して妥当かどうか、第三者には判断することが困難だからです。

【2017.5.31_1400追記】「文章フィルタリング研究」案件の大学院の現場とその周辺の話~情報学の研究と文化人類学的な調査手続きに関する話 Part4~ - 仲見満月の研究室

 

言語情報を扱う研究に限らず、どんな分野であっても、研究発表やその内容を書いた文書を読んだ読者に、その研究を行った人は、その研究をジャッジする側が的確な判断ができるよう、開示すべき情報は開示し、伝えなければなりません。ただ、今回の「文章フィルタリング研究」は、様々な分野にまたがるテーマであったため、そのあたりの開示すべき情報の出し方が困難だったと私は認識しました。

 

「文章フィルタリング研究」のセカンドおよびサードオーサーの二名は、安岡さんの他の日記を 読むと、『日本感性工学会論文誌』に(おそらく査読を通過して)掲載された人名に関する研究は、漢字特有の読みや文字コードの面から厳しく批判されていました。Part2あたりでふれたように、セカンド・サイードオーサーの二名は、工学系の情報学分野で研究職までキャリアを経験されてきた方々であり、途中で漢字などの言語情報を扱う研究に携わるようになった安岡さんほど、言語情報の扱いは適切にできなかったと推測できます。

 

ちなみに、書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 |には、「どうしてpixivを小説サイトとして選んだのか?」について推測をされた方のコメントが詳細に載っていました。それに対し、安岡さんは「アヤシゲな「推測」」を避けるためにも「もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう」と、研究対象を選んだ基準と理由を研究PDF文書に書くべきだった、と繰り返されておられました。

 

 2-3.「Re: 書写言語研究におけるサンプルデータの重要性と妥当性」(『yasuokaの日記 』)

続いて、2-2の日記の読者の方のリクエストを受けた安岡さんは、立命館大学の研究者による「pixiv論文」の論点とは──“晒し上げ”批判はどれほど妥当なのか(松谷創一郎) - 個人 - Yahoo!ニュースを読まれたことについて、書かれました。ここでは、その記事を取り上げます。

 

yasuokaの日記: Re: 書写言語研究におけるサンプルデータの重要性と妥当性
日記 by yasuoka 2017年05月27日 11時48分

 

一昨日の日記の読者から、松谷創一郎『立命館大学の研究者による「pixiv論文」の論点とは──“晒し上げ”批判はどれほど妥当なのか』(Yahoo!ニュース、2017年5月27日)を読んでほしい、との御連絡をいただいた。読んでみたのだが、この記事の問題意識が、私(安岡孝一)にはサッパリ理解できなかった。特に以下の部分。

この一件を俯瞰してみれば、オタクコミュニティ(SNS)と人工知能の研究者(理工系)という、まったく異なるコミュニティ(領域)の衝突と言える。

私には、そうは思えない。少なくとも、(中略)『ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング』(人工知能学会第31回全国大会論文集, 2M2-OS-34a-1, 2017年5月24日)は、人工知能の研究者というコミュニティを代表している論文ではなく、それを「理工系」の「領域」などと一括りにするのは、あまりに議論が雑すぎる。また、

もちろん今回のケースは、参与観察とは明確に異なり、どちらかと言えば文献調査に近い。よって、参与観察と同じではない。

という点を、松谷創一郎が理解できているなら、

最後に、筆者が友人の研究者5名(すべて社会学系)とやり取りして、さまざまに考えたことを書いておく。

社会学系の研究者に限定してヒアリングする意味が、私には理解できない。松谷創一郎の友人には、計量言語学の研究者が一人もいないのかしら?

 

書写言語研究は、その本質において、他人の書いた文章等を対象にせざるを得ない。だからこそ、著作権法第三十条の四において、公表された著作物を広く集めて全文利用することが許されているのだ。その「公表された著作物なら何でもOK」といういわば特権があるにも関わらず、あえてサンプルデータをpixivのR-18小説に限定したのなら、その限定の妥当性を(今回の「文章フィルタリング研究」を行った研究者たち)は説明する必要がある。と私個人は考えるのだが、さて、松谷創一郎は違う考えなのだろうか?

 

(Re: 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド(中略)および(今回の「文章フィルタリング研究」を行った研究者たち)の部分は、仲見満月による改編箇所です)

 

真面目に安岡さんの指摘や疑問に答えていくと、まず「人工知能の研究者というコミュニティを代表している論文ではなく、それを「理工系」の「領域」などと一括りにするのは、あまりに議論が雑すぎる」の部分は、正直、私も雑だと思います。このあたり、今回の案件をPart6まで続け、主に様々な学術領域、二次創作を含む同人活動者にもいろんなコミュニティがあるわけで、その微妙にずれたところをお互いに知らず、「炎上」してしまったという姿勢で、私は案件のバックグラウンドを掘り下げるテーマを区切ってきました。

そういうわけで、工学系の情報学分野で研究職まで経た「文章フィルタリング研究」のPDF文書の執筆者の後ろ二名と、出身大学・大学院と助手までは工学系のキャリアだけど、途中から漢字などの言語情報を扱う研究に関わり出し、現在は京大の人文科学分野の中心の一つ・京大人文研の東アジア人文情報学研究センター勤務の安岡さんとは、異なるコミュニティにいると認識して、本記事を書いております。

 

次の

また、

もちろん今回のケースは、参与観察とは明確に異なり、どちらかと言えば文献調査に近い。よって、参与観察と同じではない。

という点を、松谷創一郎が理解できているなら、

最後に、筆者が友人の研究者5名(すべて社会学系)とやり取りして、さまざまに考えたことを書いておく。

社会学系の研究者に限定してヒアリングする意味が、私には理解できない。松谷創一郎の友人には、計量言語学の研究者が一人もいないのかしら?

Re: 書写言語研究におけるサンプルデータの重要性と妥当性 | yasuokaの日記 | スラド

以降については、安岡さんは言語情報を扱う工学系情報学の研究者だから、分野的にピント来なかったのではなかろうかと邪推しました。

 

その前に、松谷さんはライターでもあり、この論説文はYahoo!ニュースというwebメディアにある、個人オーサー記事のカテゴリで配信されるオピニオン的な記事という位置づけけだと、私は捉えております。それ故、どうしても学術論文に比べると、分析や考察が浅く、雑になりがちなのは否めません。安岡さんの「社会学系の研究者に限定してヒアリングする意味が、私には理解できない」という疑問は、松谷さんの周囲にたまたまpixivのユーザーを含めた社会学の研究者がいて、その人たちに聞いてみたよ、くらいのヒアリングだったのではないでしょうか。

 

ところで、安岡さんが「文章フィルタリング研究」について、松谷さんの

「もちろん今回のケースは、参与観察とは明確に異なり、どちらかと言えば文献調査に近い。よって、参与観察と同じではない」の部分だけに注目されておられ、

ただし、研究対象が「私人のプライベートな趣味」であることには留意が必要だろう。よってこの研究対象は、参与観察と文献調査の中間のようなところに位置すると捉えられるかもしれない。

立命館大学の研究者による「pixiv論文」の論点とは──“晒し上げ”批判はどれほど妥当なのか(松谷創一郎) - 個人 - Yahoo!ニュース

より下の、参与調査的な手続きや配慮が必要なpixivに関する事情を一切、考慮されていないところが、私は気になります。この部分は、そもそも「文章フィルタリング研究」の研究PDF文書の執筆者が、研究対象をpixivに限定しなければなない意図を示していなかったことに起因するわけではあります。

 

実は、この研究案件で、pixivにおいてもR-18指定限定公開の二次創作小説が研究対象とされた必然性、および理由については、松谷さんもみわさんも疑問を持たれているようで、お二方とも、市販のコンテンツを研究対象として使えばよかったのではないか、と言う点を指摘なさっておられました:2017.5.31_1400追記】「文章フィルタリング研究」案件の大学院の現場とその周辺の話~情報学の研究と文化人類学的な調査手続きに関する話 Part4~ - 仲見満月の研究室の「2ー1.この案件の研究はAIをどのような方向で活用できるものだったのか

 

それでは、研究対象をあえて「SNSへに限定公開したコンテンツ」とし、件の研究PDF文書と同じ「文章フィルタリング」の方向で活用する研究として、プライバシーの絡むSNSのコンテンツの書き込み者に対して、参与調査的な手続き(調査の目的や方法の説明や許諾をとること)や得られたデータに対す配慮が必要なタイプの研究には、具体的にどういった目的が考えらるでしょうか。つまり、SNSへに限定公開したコンテンツ」を書写言語研究の文献ではなく、フィールドワーク等の参与調査に近い形で扱う研究を行うということです。

 

詳細はPart4の「2ー1.この案件の研究はAIをどのような方向で活用できるものだったのか」の後半で書きましたが、かいつまんで言うと、「文章フィルタリング」を人工知能による「自動検閲」として使う研究です。TwitterYoutubeFacebook等のコメントに自動検閲AIがアクセスし、あらかじめ機械学習で取得した「有害」なワードを検知し、それらのコメントを削除していく。そういった機能が実装されると、「言論の自由」は 狭まっていくおそれが考えられます

f:id:nakami_midsuki:20170531223632p:plain

 

これに対して、next49さんの逆転の発想をもとに私が考えたのは、

ソーシャルメディアに書き込み途中で、AIがヘイトスピーチに含まれるワードを感知し、「ヘイトスピーチに含まれやすいワードが投稿に含まれています。このまま、コメントを投稿してもよろしいでしょうか?」という忠告・警告のウィンドウメッセージが出るようにすれば、ヘイトスピーチ的な書き込みや投稿を間接的に抑制することはできるかもしれません。

【2017.5.31_1400追記】「文章フィルタリング研究」案件の大学院の現場とその周辺の話~情報学の研究と文化人類学的な調査手続きに関する話 Part4~ - 仲見満月の研究室

というものです。

 

ここから、言語情報を扱う研究者ではない、素人の考えを一例として書きます。

 

 

<題目>あるSNSにおける誹謗やネガティブワードの書き込みシチュエーションに機械学習をつかった試みーーーーーーーーーーーーーーーーーーーーーーーーーーーー

 

<研究背景や目的>

SNS上には、ヘイトスピーチ等を含むの特定の人たちの心を傷つけ、精神的なダメージを与える誹謗やネガティブな言葉を含むコメントが書き込まれることがあります。本研究では、AIによって検閲し、web全体に公開されているSNSに書き込もうとする人を思いとどまらせ、SNS上の誹謗やネガティブワードを減らすことを目的としてAIによる機械学習の活用を試みました。

(研究の背景および、特定のSNSを選んだ理由について、会員として利用する層や年代等を調べて置き、それらを書く。などする)

 

<研究の手順および実験のプロセス>

文章のフィルタリング研究を行うにあたり、事前に、人を軽蔑する時に使う俗語を、自分が実際に言われた記憶やインターネット書き込み、ヘイトスピーチに関する資料を読むいくつか選んでおき、特定のネガティブワードや蔑称の昨今の使われ方、ネット独特の表記をまとめます。

 

web全体に公開されているソーシャルメディアに書き込もうとする人を思いとどまらせ、SNS上の誹謗やネガティブワードを減らす」というのは、最終目標として設定します。今回は、その前段階として、事前に選定したネガティブワードや蔑称について、その言葉を含む文章や使われる場所・シチュエーションをAIによって拾わせ、その結果を明らかにすることを、当座の目標とします。

 

AIには、選定した言葉ごとの定義やネット独特の文字表記、その言葉を含む例文を用意して、機械学習をさせて、実験時に研究対象のエリアのネガティブワードや蔑称の状況データを収集するように設定。研究対象は、参与調査的なプロセスを経て、承諾が得られたSNS(会員制でログインした者のみ会員の一般公開コンテンツを閲覧できるサービス)とします。実験前、そのSNSの運営側に会員(フォロワーを一定数抱えて、発信コンテンツに対する一定のコメント書き込みが得られる人が対象)を募ってもらい、またこの実験調査の実施について、SNS運営側から広く会員全体に告知してもらうようにします。一定期間の間、実験に協力する会員のホームに公開されたコンテンツに書き込まれたコメントを、機械学習させたAIに読み込ませます。

 

(実験終了後、AIが収集したネガティブワードや蔑称のデータについて、その言葉を含む文章や使われる場所・シチュエーションごとに分析して、得られた結果を考察する。)

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

 

以上の研究案は、pixivと同じく、web上に会員制の半オープンの形で存在するSNSを想定し、そのSNSの場で機械学習をさせたAIに指定のネガティブワードや蔑称を含み文章やシチュエーションのデータを集めさせる実験調査です。この研究には、調査の場としてSNS、協力する会員のホームを得るため、両者に研究の主旨と方法を説明し、許諾を取った上で、その他の会員のコメントもデータとして取得する可能性があることから、SNS運営側にその旨を会員全体に広く告知してもらう必要があります。会員全体に広く告知した段階で、会員側から反対やクレームが出た場合、プライバシーの観点から、やむを得ず実験を中止とするか、改定した実験案を研究対象のSNS運営側と会員に伝え、ここで承諾が得られれば、実験調査を実行します。また、 AIが集めたコメントについては、会員のプライバシーと密接に結びついたデータですから、最大限に配慮をします。

 

以上、「SNS上の誹謗やネガティブワードを減らすこと」を最終目的として、AIの機械学習を使って指定のネガティブワードや蔑称を含み文章やシチュエーションのデータを収集する研究案を出してみました。私の案では、特定のSNSのフォロワーを一定数抱える会員のホーム上のコンテンツに対するコメントを研究対象とし、それは文字による言語情報を想定しました。書き込み者は、ホームを持つ会員の発したコンテンツに対し、書き込み者本人との個人的な繋がりを背景とする言葉をコメントすることが予想され、そのコメントはプライバシー性の高い文脈にもとづく文章が残されるかもしれません。

 

f:id:nakami_midsuki:20170531223510p:plain

 

もっとも、このような実験や情報収集については、先に示しましたように、行き過ぎると「言論の自由」を制限するという危険が高まります*9とはいえ今のところ、こういった「言論の自由」を狭めていき、SNSの利用者を委縮させるような実験調査に、積極的に協力する運営会社や利用者はいない、と私は考えています。

 

そういったことから、研究対象に向き合う方法は、私の研究案は文献調査というより、むしろ文化人類学社会学といった参与調査に近い手続きや配慮が必要だと考えました。もし、私の研究案をご覧になった安岡さんをはじめ、言語情報を扱う工学系情報研究者の皆さまは、どのようにお考えになるでしょうか。

 

pixivの中で半公開状態にされているR-18作品の二次創作の小説が、ログインしてはじめて閲覧できる特定の会員のホーム上に書き込まれたコメントという、プライバシー性の高いコンテンツに置き換わったら、参与調査のアプローチの研究がとられるべきではないかと。 

 

 

3.まとめ

本記事も長々と書いてしまいましたが、今回の案件を文字などの言語情報を扱う工学系情報学者である安岡孝一さんが、どのように捉えていらっしゃったか、ご自身の日記記事を引用して、見てきました。

問題として言及されているのは、

  1. 書写言語研究におけるサンプルデータの重要性を全く理解していない論文である点
  2. 偏ったサンプルデータ10本で、まともな結果が出るわけが無いだろうという点
  3. しかも、なぜpixivに限定しなければいけないのか、pixivに限定する意図は何なのか、この論文には全く書かれていない点
  4. pixivは本来「イラストコミュニケーションサービス」のサイトであり、イラストならまだしも、R-18小説を抽出しなければならない理由は無い点
  5. もし、どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかにすべきだろう点

でした。1は、以前に研究案件の人たちによる「キラキラネーム」関する研究、『日本感性工学会論文誌』に掲載された人名に関する研究は、漢字特有の読みや文字コードの面から厳しく批判されていたこととも、重なってくるでしょう。漢字を含む言語情報の扱いが難しいのは、漢字テキストの言語情報の研究に携わって来た安岡さんと異なり、工学系の情報学分野で当事者の方々がキャリア一本で来られたことと、関係があると思われます。安岡さんの視点では、言語情報の扱いができていないのに、なぜ当事者のセカンドオーサーとサードオーサーがそのあたりの研究を続けるのか、疑問に思われるかもしれません。そこには、研究業界での人間関係や、研究費を取りやすいテーマであるとか、関わらざるを得ない事情があるかもしれません。

 

2~5の点については、言語情報を扱う研究に限らない問題であり、どの分野でも、研究を行った人は、研究背景・目的・手法および使用する研究サンプル、それらによって導き出された結果をきちんと聴衆に届けなければならないという話でした。その研究をジャッジする側が的確な判断ができるよう、開示すべき情報は開示すべきです。しかし、この研究案件では、「どうしてもpixivに限定しなければならないのなら、少なくともその研究意図を、論文の中で明らかに」されることがありませんでした。

 

続いて、松谷さんの論説文を読まれ、2つ目の日記記事を書かれた安岡さんは、

  • 人工知能の研究者というコミュニティを代表している論文ではなく、それを「理工系」の「領域」などと一括りにするのは、あまりに議論が雑すぎる」と指摘
  • 松谷さんは「参与観察とは明確に異なり、どちらかと言えば文献調査に近い。よって、参与観察と同じではない」と言いながら、知人の社会学者にしかヒアリングしかなったのか
  • pixivに研究対象を限定しなければならなかった研究意図を、論文の中で明らかにされることがなかったせいで、今回の案件は、参与調査的だったのか、文献調査的だったのか、判断ができなかった

ということを述べられました。一つ目については、私は同意し、2つ目については松谷さんの論説文はライターがwebメディアに投稿するオピニオン的な記事であって学術論文ほどの精度のない気軽さで書かれている可能性からくる内容の「大雑把さ」を示唆しました。

 

そして、最後の指摘については、安岡さんが書写言語研究をされているが故、漢字や文字コードを厳密に扱うタイプの言語情報学をされているからこそ、2つ目の日記で松谷さんの「問題意識が、私(安岡孝一)にはサッパリ理解できなかった」のでしょう。どうして、文献調査に近いと言っているのに、参与調査をする分野の社会学者に話を聞いたのか。そのあたりは、一つ目の日記記事についたコメントで、創作系ソーシャルメディアSNSの事情を踏まえた上で、研究案件においてサンプルがpixivに限定された理由を説いた「アヤシイ推測」や、松谷さんが長く書いたpixiv内外のシステムやそれを取り巻く文化に根差したシステムのあり方と関わっているからでしょう。言語化できたとしても、こういった目に見えない文化的な部分は、おそらく安岡さんがなさっている、カチッとした厳格なタイプの言語情報学では扱いにくいでしょう。そして、SNSを使ったり、自分と同じ分野にいるユーザーに理解できる言葉で説明したりしてもらわなければ、「分かる」ものではないと私は思いました。

 

それ故、私は2-3で、SNS上の誹謗やネガティブワードを減らすこと」を最終目的的に据え、実験調査への協力の承諾を得たSNSでAIの機械学習を使い、指定のネガティブワードや蔑称を含み文章やシチュエーションのデータを収集する研究案を出し、自分なりに伝わるよう、研究案を提示致しました。この暗は文献調査というより、むしろ文化人類学社会学といった参与調査に近い手続きや配慮の必要性を想定したプランですが、読者の皆様、いかがでしょうか。

 

なお、この研究案は、私がnext49さんの記事にヒントを得て、試しに組み立てたものであり、とてつもなく、稚拙なものと自覚しておりますし、私自身は実行するつもりは一切ございません。それ以前に、私はプログラミングや数学的なものと相性が非常に悪い自覚がある為、人工知能や情報学の研究に携わることはないでしょう。その点、ご安心ください。

 

書いているうちに、日付をまたいで、6月1日になってしまいました。「文章フィルタリング研究」案件の動向を見守りつつ、安岡さんの本記事に対する言及も期待して、本記事を閉めさせていただきます。ここまでお読みくださり、お疲れさまでした。 

*1:「これは既存のマンガやアニメなどの設定を用い、ファンが二次的な創作をした作品のことだ。それらのほとんどは、原作者の許諾を得ずに勝手に創っているものばかりだ。
二次創作は、オタク文化の根幹をなす表現活動だが、著作権法的にはグレーの状況にある」という:立命館大学の研究者による「pixiv論文」の論点とは──“晒し上げ”批判はどれほど妥当なのか(松谷創一郎) - 個人 - Yahoo!ニュース

*2:jsai2017:2M2-OS-34a-1 ドメインにより意味が変化する単語に着目した猥褻な表現のフィルタリング

*3:コンピュータによる検索が可能になっている大量の言語データのこと:コーパスとは - はてなキーワード参照

*4:http://b.hatena.ne.jp/entry/339140472/comment/ytn

*5:京都大学 教育研究活動データベース

*6:ちなみに、著者近影の背景は、おそらく京都市左京区の白川にある東アジア人文情報学研究センターの建物ではないかと思われます。研究会か何かでここにお邪魔した時、こういう感じの建物だった記憶があります。

*7:念のため、記録目的でほぼ全文転載させて頂きますこと、どうかお許し下さい。

*8:「学会の全国大会」って、なんだ? - BL作品を題材とした人工知能研究が炎上した件から(みわよしこ) - 個人 - Yahoo!ニュースの終盤では、みわよしこさんは「「もうちょっと価値判断を含まない用語を選んだ方が良かったんじゃないか」とは思います。「青少年に有害」と対象を限定しても、その「有害」という価値判断を論文の書き手が下して良いものなのかどうか、疑問は感じます。」と仰っています。

*9:もっとも、個人投資家・作家の山本一郎さんによれば、既にこういった投稿者の個人情報は利用規約に基づき、事業者間でやり取りされ、使用されている可能性が指摘されています:人工知能学会全国大会で立命館大学の学生の論文発表が炎上した件(訂正あり)(山本一郎) - 個人 - Yahoo!ニュース

↓いいね!だったら、ポチッとお願いします。

にほんブログ村 大学生日記ブログ 博士課程大学院生へ
にほんブログ村