イベントから学ぶ最新技術情報

イベントから学ぶ最新技術情報

生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会

2019年1月30日

2019年1月1日施行の「著作権法30条の4」により、日本ではAIの学習済みモデルの生成にネット上の情報が(ほぼ)自由に使用できるという。DEEP LEARNING LAB 勉強会で説明された、その内容を紹介する。

一色政彦 デジタルアドバンテージ 一色 政彦

 日本マイクロソフト主催の勉強会「DEEP LEARNING LAB: AI開発を円滑に進めるための契約・法務・知財」が1月25日に開催された。

 AIに関する法的な課題となる事例や、AIを「発注するユーザー」と「作るベンダー」はどう契約を結べばよいのか、について、具体的にガイドラインを示しながら説明された。実際にAIを取り組もうとしている企業にとっては参考になる話が多く、筆者自身も大いに参考になった。

 その内容をすべてお伝えしたいところだが、3時間ほどの長丁場であり、しかも残念ながら動画配信などもなかったことから、勉強会全体の内容を書き起こすことはあきらめた(一部の内容がカットされたスライド資料だけは公開されているいるので、本稿の最後で紹介している。興味がある人はそちらも参考にしてみてほしい)。

 この記事では、セッションの中で筆者が衝撃を受けた「日本は機械学習パラダイス」という話題に絞って、簡単に内容を紹介したい。発表者はSTORIA法律事務所の弁護士、柿沼 太一 氏だ。経産省の「データ契約ガイドライン検討委員会」の委員を務めた経歴を持つ人物である。

「日本は機械学習パラダイス」

図1 日本=機械学習パラダイス(セッションスライド p.34)

 柿沼氏の話の中で、筆者が一番興奮したのは図1のパートだった。

 その内容とはつまり、

日本においては、
第三者が著作権を有している生データから、
学習用データセットや学習済みモデルを、
適法に、生成できる

ということである。要するに、一部例外はあるにせよ基本的には、インターネット上に公開されている情報を自由に活用してAIの学習済みモデルを作成できる、ということだ。

 これは、AIの機械学習モデルを作る立場である筆者にとっては朗報であり、機械学習が非常にやりやすくなったと感じる。一方で、筆者自身や筆者の所属会社にとっては、インターネット上で公開している著作権コンテンツがAIの生成で勝手に使われるかもしれないという立場でもあり、それに不満を感じる、というのも本音だ。

 立場によって、賛否両論が起こり得る内容ではある。しかし、機械学習やAIの分野で日本の技術者が活躍するためには有効な内容であることは間違いないだろう。AIや機械学習に関連する人に向けて、ぜひ今回の内容を紹介したい。

 この内容の根拠となっているのが、最近の2019年1月1日から施行された著作権法30条の4である。この法令の内容について、ポイントだけコメントを入れながら、順を追ってスライドを示していく(なお、筆者自身は著作権法について詳しいわけではなく、本稿の厳密性や、本稿により発生したいかなる損害やトラブルなどにおいても筆者や本サイトは責任を一切負わないので、その点はあらかじめご了承いただきたい)。

解説:著作権データからの学習済みモデルの生成についての課題と現状

 図2のように「第三者が著作権を有している生データから、適法に学習用データセットや学習済みモデルを生成したい」という課題があるとする。

図2 課題(セッションスライド p.23)

 一般的に機械学習は、図3のフローに従って、作業を行う。具体的には、生データを収集してデータベース(DB)を作成し、何らかのデータ処理後の学習用データセットを準備する。そのデータセットを使って機械学習やディープラーニング(DL)を行い、学習済みモデルを構築し、それを公開したり販売したりする。

図3 機械学習の一般的なフロー(セッションスライド p.24)

 その生データは、インターネット上から収集されるケースが多々ある。そのコンテンツの著作権の取り扱いをどうすればよいか、と悩んでいる人は多いだろう。確かに著作権には、私的複製や引用といった一定の例外(=権利制限規定)が設けられている。機械学習の生データは、そういった例外に含まれるのかどうか、という点が問題となる。

 例を挙げよう。図4は、AIでアニメキャラクターを自動生成する「MakeGirlsMoe」というサービスである。

図4 AIのサービス(セッションスライド p.25)

 このAIサービスの学習済みモデルの生成は、美少女ゲーム・アニメの情報&通販サイト「Getchu.com」の画像が生データとして用いられたと考えられている(図5)。

図5 著作権コンテンツの生データ(セッションスライド p.26)

 そこで、MakeGirlsMoeには図6の論点が提起される。一番重要なのは、「MakeGirlsMoeはGetchu.comに対する著作権侵害ではないのか?」ということである。

図6 論点の提起(セッションスライド p.27)

 ここであらためて、機械学習の一般的なフローを振り返ってみよう。図7に示すように、生データ学習用データセット学習済みモデルという流れの間には、それぞれAIサービス側による作業が発生している。

図7 機械学習の一般的なフロー(セッションスライド p.28)

 その作業とは、具体的には「作業1: 複製(=データ収集)」「作業2: 翻案(=データ処理)」「作業3: 過程の中で複製や翻案(=機械学習やディープラーニング) 」である(図8)。これらのいずれの作業も、著作権者の承諾なしでは行うことができないはずだ。

図8 機械学習の一般的なフロー(セッションスライド p.29)

 しかし、これでは機械学習が簡単にできずに、日本のAIを取り巻く産業は他国から後れを取ってしまうだろう。そこで決まった権利制限規定の法令が著作権法30条の4である。

図9 著作権法30条の4(セッションスライド p.30)

 この法令の内容は図10のように定義されている。定義内容を理解するのは簡単ではないが、要するに、上記で示した3つの作業を「著作権者の承諾なしで」行えるようにするための条項である、といえる。

図10 著作権法30条の4の定義(セッションスライド p.31)

 そして、AIの機械学習モデルを生成する者にとって非常に重要な、この「著作権法30条の4」は、2019年1月1日よりすでに施行済みである、という点に注目してほしい。この法令が、世界に先駆けて日本でのみ施行されている(ちなみに、欧州やイギリスでも同様の規定があるが、全て非営利目的である。それに対して、日本の場合は、営利目的でも機械学習モデルを生成できるという点が異なる)。といった「著作権法30条の4」の注目ポイントを、図11にまとめている。

図11 著作権法30条の4のポイント(セッションスライド p.32)

 図11の最後に記載されている「複製行為(=データ収集)などが、日本の国外で行われた場合に、著作権法30条の4は適用されるのか」については、どうだろうか?

 これは「適用されない」となる。必ず、日本国内に存在するコンピューターやクラウド、サーバーにおいて「データ収集」「データ処理」「機械学習やディープラーニング」といった作業を行う必要があることに注意してほしい。逆にいうと、機械学習の作業をする所在地が国内にありさえすれば、世界中のインターネットから生データを集めて、それによって学習済みモデルを生成し、それを使ったAIサービスを構築できるというわけである(厳密な内容は、図12をしっかりと読み込んでほしい)。

図12 作業環境の所在地で変わる適法・違法(セッションスライド p.33)

 ここで疑問に思うのが、日本国内でAIの学習済みモデルを作成して、それをアメリカに持っていった場合である。

 これに関しては、みなし侵害(=簡単にいうと、著作権侵害によって作成されたものが輸入されたという考え方)と見なされる可能性が否定できない。つまり、確かにアメリカの法律によって著作権上の違反になる可能性があるということだ。ただし通常、みなし侵害は、海賊版のようなものに適用されるものであり、機械学習モデルについては、そもそも著作権侵害の対象となる生データは残っておらず、本当に著作権法が適用されるかどうかは微妙で、グレーゾーンだという見方がある。

 リスク回避のためには、世界各国で日本と同じような著作権法に対する権利制限規定が採用されるまでは、日本国内だけでAIの学習済みモデルを用いる方がよいだろう。

まとめ: 著作権法30条の4によってできること、できないこと

 まとめると、冒頭に示したとおり「日本=機械学習パラダイス」ということだ(図13)。

図13 結論(セッションスライド p.34)

 具体的には、冒頭で示した課題に関しては、「著作権法30条の4」によって図14のことができるようになっている。

図14 著作権法30条の4によってできること(セッションスライド p.35)

 図14の最後にある対訳コーパスとは、翻訳エンジンで使われるデータである。この対訳コーパスは、これまで著作権法に阻まれて事業者間で共有できなかった。つまりこれまでは、事業者別に対訳コーパスを作成していたのだ。それがこれからは、事業者共通の対訳コーパスを作成できようになる。共通化されれば、翻訳エンジンの精度を業界全体で底上げできると期待される。

 ただし、注意点もある。図15に示すように、当然ながら契約による縛りがある場合は契約違反になるようなことはできないし、創作性がある著作物として認められたデータベースは無断で利用できない。言うまでもないが、例えば手塚治虫の漫画をすべてデジタル化して、そのまま「手塚治虫風キャラ生成用データセット」として販売する場合も、当然、著作権法違反である。

図15 著作権法30条の4の注意点(セッションスライド p.36)

 他にも、細かな疑問や質問があると思うが、筆者が書ける範囲を超えているので、本稿はここまでとする。これをきっかけに、ぜひ以下のスライドやガイドライン全体にも目を通してもらえるとうれしい。

セッションスライド

公開されているセッションスライド

 今回の勉強会のベースともなっているガイドラインについては、下記のリンク先を参照してほしい。

  • このエントリーをはてなブックマークに追加

※以下では、本稿の前後を合わせて5回分(第8回~第12回)のみ表示しています。
連載の全タイトルを参照するには、[この記事の連載目次]を参照してください。

イベントから学ぶ最新技術情報
8. 企業から見たデータサイエンティストの採用と育成(パネルディスカッション)― データサイエンティスト協会 調査・研究委員会セミナー

データサイエンティストの採用で使われている3つのスキルセットや、人材育成のためのインターンシップと各スキルの育て方、データサイエンティストが満足する職場環境や評価制度などについての意見が聞き出された、データサイエンティスト協会主催セミナーのパネルディスカッション内容を紹介する。

2018年6月13日(水)
イベントから学ぶ最新技術情報
9. MSやPFNのAI技術最新情報からPost Kまで ― DLLAB DAY 2018 基調講演レポート

MSのAI技術の最新情報として「Windows MLアーキテクチャ」や「Azure Sphere」「Project BrainWave」など、PFNの事例や「Chainer MN」「Menoh」など、さらにABCIや「Post K」など、基調講演の注目ポイントをまとめる。

2018年6月29日(金)
イベントから学ぶ最新技術情報
10. グーグルのAI技術、2018年9月最新情報 ― Google Cloud Next ’18 in Tokyo 基調講演レポート

2018年現在、グーグルはAI分野でどんな技術やサービスを提供しているのか? Google Cloud Next ’18 in Tokyoの基調講演から、AIに関する部分を書き起こした。

2018年9月19日(水)
イベントから学ぶ最新技術情報
11. 【現在、表示中】≫ 生データ使い放題?! 「日本は機械学習パラダイス」になった ― DEEP LEARNING LAB 勉強会

2019年1月1日施行の「著作権法30条の4」により、日本ではAIの学習済みモデルの生成にネット上の情報が(ほぼ)自由に使用できるという。DEEP LEARNING LAB 勉強会で説明された、その内容を紹介する。

2019年1月30日(水)
イベントから学ぶ最新技術情報
12. TensorFlow 2.0 α版で何が変わる? 新機能の概要 ― TensorFlow Dev Summit 2019

ついにTensorFlow 2.0 α版がリリースされた。TensorFlowにとって初めてのメジャーバージョンのアップデートになる。初期リリース~2.0正式リリースまでの歩みを示し、2.0の新機能の概要を紹介する。

2019年3月14日(木)
Deep Insider の SNS :