株式会社日立製作所のご利用事例

株式会社日立製作所のご利用事例
長年に渡りビッグデータやAI活用に向けた研究開発を行っている日立製作所。精度向上のために膨大な数の機械学習用データを用意する必要があります。数だけでなく、品質とスピードも同時に追及できたその理由に迫ります。

AIの研究開発にクラウドソーシングをどう役立てるか

創設100年以上の歴史を持つ国内最大の電気機器メーカー、株式会社日立製作所。研究拠点を設置し、あらゆる製品に役立てるための研究を行っています。

近年力を入れているのは、AI(人工知能)に関する研究。日立製作所の開発拠点のひとつである中央研究所では、2つの文章の類似度合いを判断するAIの研究開発を行っています。

この研究には、人間の判断基準をプログラムに学習させる必要があります。何万もの文章の類似度合いを人が評価し、学習用のデータを用意しなければなりません。

2016年度の研究では、アルバイトを雇うことで対処。翌年はランサーズを使ってデータを用意したそうです。

機械学習用のデータ生成にクラウドソーシングを活用するメリットは何なのでしょうか。株式会社日立製作所 研究開発グループ システムイノベーションセンタ メディア研究部 主任研究員 兼 博士(工学) 小林 義行さんと、メディア研究部 研究員 兼 博士(工学) Shao Yangさんにお話を伺いました。

研究用データ作成のコスパ改善を目的に、ランサーズを活用

ーーどのような経緯でランサーズをご利用いただいたのでしょうか?

Shao:我々は、将来的に自社の製品やサービス、ソリューションの一部として組み込んで使うためのAIの研究開発を行っています。

私は2016年から、2つの文章の意味がどれだけ類似しているか判断するプログラムを作っています。この研究を行なうためには、人間による判断の傾向や特徴を、プログラムに読み込ませる必要があります。機械学習と呼ばれる手法です。

機械学習には大きく2つのアプローチがあります。人の判断の特徴を我々研究者が見つけ出して入力する方法と、人が類似度合いを判断した結果を機械に大量に読み込ませて自動的に特徴を見つけ出させる方法です。

前者はA、B、Cという研究者が予測した解釈を読み込ませて対応。こちらはデータの数自体は少なく済みますが、研究者の経験や知識に依存します。

後者はa、b、c、d、e、f、g、h、i……という判断結果を読み込ませて対応します。こちらのほうが精度の高い判断プログラムを作れると言われています。

私も後者の開発方法のほうが将来有望だと思っています。ですが、この方法には膨大なデータ量が必要になります。研究によっては、弊社の業務の中で蓄積したデータが活用できる場合もあります。ただ、今回のような人の言葉に関するものは、仕事の中で生まれてくるデータだけでは不十分でした。研究に必要なデータを自ら用意する必要があったんです。

小林:機械に読み込ませるためのデータを作るには、ある程度の人手と時間を要します。つまりコストがかかります。技術投資をする側の視点で言うと、コストパフォーマンスがいい方法を選びたいんですね。ですので、前者の方法が選ばれがちです。

Shao:研究者の立場からすると、なんとかコストを抑えて精度が高いと言われている方法にチャレンジしたい。前年はアルバイトさんを3名雇って、類似度合いの採点の基準を教えて、データ生成を手伝ってもらいました。

ただ、採点基準を教えるなど、出来上がったデータの品質チェックは私が時間をかけて係わる必要がありました。結局私の稼働が発生してしまってコストパフォーマンスはあまりよくなかったんです。今年も研究を進めるにあたり、もっとうまくコストを圧縮できる方法はないかと思っていました。

いろいろな論文や学校での研究方法を調べていたところ、アメリカの学校でクラウドソーシングを使って類似の研究を行っている事例がありました。自分で雇用してデータを作るよりも、専門化した組織を外部に作るほうがコスト削減に有効だったようなんです。日本語のデータでもクラウドソーシングが使えそうだと思い、今年の研究で活用することにしました。

多くの人員で作業を分担することで、手間と時間を圧縮

ーー昨年度の研究では、どのようにデータ生成を行っていたのでしょうか?

Shao:私が行っている研究のためのデータ生成には4つの工程があります。工程1は台本となる文章の収集。工程2は集めた文章の要約文の作成。工程3は要約文のペアの作成。工程4は要約文のペアの類似度合いの評価です。

判断プログラムの精度を上げるためには、どれだけ工程4の評価結果があるかが重要になります。この研究では、少なくとも2万ペア分を3名で評価したデータが必要だと思っていました。工程4の評価のところだけ、アルバイトの方にお願いしていました。アルバイトさんが行うのは評価のみですので、私のほうで毎日対応していただいた結果を確認して、評価基準に不一致があれば揃えるといった調整を行っていました。

ーー今年度の研究でクラウドソーシングを使ったことで、昨年度と比べてShaoさんがかけていた手間や時間は削減されましたか?

Shao:工程1、2と4、更に評価結果の品質チェックまでお願いできたので、随分手間と時間削減ができました。私が稼働しなくていい分、社内コストを抑えることができています。

納品までの時間の早さもポイントでした。年度末に研究結果発表を行うため、データ収集後にプログラム開発を行う時間も十分に確保しておきたかったんです。大量の作業を大勢の方に分担いただくので、一気にデータ作成を進めることができるだろうと思っていました。

正直なところ、発注前は、コストも期間もここまで抑えられるとは知りませんでした。データを納品してもらって初めて、コストも期間も、アルバイト3名を雇用していた去年と比べて、クラウドソーシングのほうが優れているとわかったんです。

小林:作っていただいたデータの質もよかったですね。今回、クラウドソーシングを使って集めたデータを元に判断プログラムを作ってみたところ、人と遜色ないレベルで類似度合いの判断ができるようになりました。

Shao:この結果はとても嬉しかった。データの品質が高かったからこそ得られた結果です。

窓口をひとつにすることで担当者の稼働を最小限に

ーー実際にデータ作成を行うランサーとの間にディレクターが介在していましたが、これによって感じたメリットはありましたか?

Shao:コミュニケーションにかかるコストを最小限に抑えられたことですね。お打合せでディレクターの方にこういうことをやりたいとお伝えして、それ以降の進行もディレクターの方とだけやりとりすればよかったので。

小林:データを作る個々人とのコミュニケーションはディレクターさんが行って進めてくれて、出てきた成果物のクオリティチェックも行なってくれて、問題がないものをご納品くださいました。アルバイトを雇っていたときはShaoさん自身が指揮をとる必要があったんですが、それがほとんど要りませんので、昨年に比べてぐっと楽になったでしょうね。

Shao:最初は私自身がディレクションを行う方法も検討したんですが、アルバイトさんへ依頼していた時と同様に私が採点基準を教えたり品質チェックをしたりする社内コストも含めて考えると、ディレクターさんにお願いしたほうがコストパフォーマンスがいいと判断しました。結果として、コミュニケーションやデータチェックにかける時間をプログラムを作る時間に充てることができました。

ーー今後、クラウドソーシングをどのように使っていきたいか、お考えがあれば教えてください。

小林:研究データをクラウドソーシングで集めるというのは、弊社としては新たな試みになるんです。弊社は新しい手法を試すのは割と慎重なほうだと思うんですが、今回のようにうまくいった事例が社内で共有されると、興味を持つ人は多いと思います。

弊社で行なっている研究は装置に依存するものもありますので、データ生成を外部委託しにくいものもあります。ですが、自分たちの研究にこのアウトソーシングの仕組みが使えそうだと考える人がいたら、試してみたいという声は出てくるだろうと思いますよ。