事例 実践

難しいニュース記事も正確でスピーディに要約「タンテキ」その独自の開発手法に迫る

独自の自然言語処理AIを駆使して、ニュース記事に特化した文章要約サービス「タンテキ」をリリースした株式会社バズグラフ。文章要約サービスとはどのようなものなのか、また自然言語処理AIを通して実現したい社会などについて取締役の林晋嗣氏に話を聞いた。

【関連記事】
【DX事例】「歴史というビッグデータを活用」AIで世界史をデータベース化へ
【DX事例】創業110余年の餅店 AI&ロボット導入で経営課題解決

画期的な方法で要約AIの常識を覆す!文章要約AIサービス「タンテキ」とは

東京と福岡にオフィスを構える株式会社バズグラフは、2021年4月にニュース記事に特化した文章要約Webサービス「タンテキ」をリリースした。

株式会社パズグラフ取締役 林晋嗣氏

株式会社パズグラフ取締役 林晋嗣氏

林晋嗣氏:アパレルメーカーにデザイナーとして入社。その後6年間フリーランスでweb制作全般の経験を積んだ後に帰郷。帰郷後はWebコンサルティング企業でWebプロデューサーとして大手メーカーのECサイトを中心にマーケティング、プロモーション、UI/UX、CRMなど全方位でのコンサルティングに従事。その後、VCで投資先企業のデジタル戦略構築に携わり、現在は株式会社パズグラフ取締役を務める。

要約したい内容をWebページに直接入力するか、ニュース記事のURLを貼り付けるだけで最大1万字もの文章を瞬時に要約。表現のゆらぎや文法の乱れも正確に解析し、要約する際には文章の圧縮率を選べるため、希望する文字数に近づけることも可能だ。独自に開発した自然言語処理エンジンによる要約は、その精度の高さから「情報収集を効率化できる」としてリリース以来、多方面から注目を集めている。

現在公開されているβ版はユーザー登録も必要なく、誰でも無料で使用することができる。公開から1ヵ月ほどの間で約1,600ユーザーに使用されており、要約の精度に関するアンケートでは利用者の70~80%が高評価をつけているという。

人間が話したり書いたりする言葉を「自然言語」と呼び、自然言語をコンピューターが解析する処理技術を自然言語処理(Natural Language Processing)という。タンテキは自然言語処理をAIが行い、難解な文章を短く要約することでビジネスマンや学生の情報収集をサポートしたり、災害時など情報収集が必要な場面で弱者をサポートしたりすることもできる。

圧倒的に正確で速い文章要約AIを開発!その独自の手法とは

なぜこれほど正確かつスピーディに要約することができるのか。その秘密はコンピューターに文章をどのように理解させるか、という独自の仕組みの部分にあると林氏はいう。

terovesalainen- stock.adobe.com

「タンテキは語句と語句のつながりに着目して要約しています。たとえば、『山田が怒られた』と『山田に怒られた』という2つの文章は、全く意味が異なりますよね。しかし従来の解析方法では「山田」と「怒る」の部分を抽出して要約するため、山田が怒ったのか怒られたのかという意味の理解が難しく、正確性に欠けていました。しかし、「が」や「に」といったこれまで切り捨てられてきた助詞の部分にこそ、文章を理解するための重要なファクターが隠されている。語句と語句のつながりに着目することで文章を正確に要約できるようになりました」。

語句と語句のつながりの重要性に気づいたきっかけは、20年前に代表取締役の西本光治氏が行っていたチャットボットのシステム開発にある。

チャットボットに使われている自然言語処理エンジンでは、最小の語で分解する「形態素解析」という手法が一般的であった。

「形態素解析を行うには最低でも数十万語、多いものだと一千万語の辞書データが必要となります。当時はパソコンの性能がそれほど高くなく、膨大な辞書データを構築し解析するのは大変でした。膨大な語数の辞書を必要としない文章の解析法はないものかと模索するうちに、本来切り捨てられる部分の言葉にこそ、文章を理解するための重要な語句があることに気がついたのです」と林氏。

その結果、名詞、動詞、形容詞…こういった語句をすべて辞書化するのではなく、助詞のような語句と語句のつながりの部分、その言葉が文章の中でどういう役割を持っているかという共通の表現に着目して、その部分だけを辞書化。それによってすべての言葉の辞書データを作らなくても、これまでと同等かそれ以上の解析結果が出せるようになったという。

「我々はこのやり方を『機能素解析』と呼んでいます。なかなかこの手法をとっているところは少なく、改良を重ねて約4,000語と非常に少ない辞書データで単語を分解するシステムを作りあげました」。

他社にも文章要約AIサービスはあるが、それらと比較してタンテキは大量の辞書データがなくても要約できることが最大の強みであると林氏はいう。

難航する開発。なぜコンピューターに文章を理解させることは難しいのか

もともと同社は自然言語処理AIに特化した開発を行っており、タンテキはその中のサービスの1つだという。なぜニュースに特化した要約サービスを開発したのか、その理由について林氏はこう語る。

「要約元の文章の種類が変わると要約の仕組みも変わるため、ある程度は文章の種類を固定する必要がありました。まずは幅広い層に利用される文章を対象にすることにしました。学生からビジネスマンまでどんな人でも情報収集をすること、その1番のソースはニュースではないか…ということでニュース記事の要約に特化しました」。

タンテキは代表取締役の西本氏を中心に5〜6名のスタッフで1年半〜2年ほどかけて開発したが、基礎となる自然言語処理エンジンは西本氏が20年ほどかけて開発したものであり、非常に長い時間がかかっているという。

「現在も要約精度を向上するために膨大な開発を続けていますが、苦労の連続です。人間が言葉を理解する仕組みに近づけたいというのが開発の方針ですが、コンピューターに文章を理解させることは非常に難しい」と林氏は苦労を語る。

「人間が文章を読むときには、過去の経験や知識を無意識にひっぱり出して思考を巡らせています。文章理解の背景にある人間の知識をコンピューターに自動で習得させ、構築された知識の中からどの知識が重要かを認知するシステムの実現にはとても苦労しています」。

今後は社内文書や論文などニュース以外の文章も要約できるようにサービスを展開していきたいと林氏。「日報や報告資料など会社内には大量の文書が埋もれています。ゆくゆくは会議の議事録からTODOや未決事項だけをピックアップしたり、テキスト化されたオンライン会議の音声データを要約したりといったことも実現していきたいです」。

さらにタンテキのAPIシステム連携や外国語の対応も検討しているという。

林氏は「今後の調査次第ですが、多言語への対応も検討しています。とはいえ、まずは言語体系が最も難しいといわれる日本語への対応が第一です。日本語は『表現のゆらぎ』が多く、たとえば、日本語の『大丈夫』という単語は、英語にすると『OK』や『No,Thank you』などさまざまな意味を持っています。人間は無意識で理解できますが、コンピューターにはただの文字列でしかないため、同じ単語でも前後の文章で意味が変わると判断が難しいのです」と話す。

【関連記事】
【DX事例】「歴史というビッグデータを活用」AIで世界史をデータベース化へ
【DX事例】創業110余年の餅店 AI&ロボット導入で経営課題解決

言語処理AIで弱者に優しい社会を目指す

バスグラフが言語処理AIを活用したWebサービスを提供する背景には「弱者に優しい究極のコミュニケーション社会を目指す」という会社としての姿勢がある。

文章要約ソフト「タンテキ」の活用イメージ

文章要約ソフト「タンテキ」の活用イメージ

「文章要約サービスによって、ゆくゆくは論文や特許文など、文章量が多く内容も難しい文章も劇的に短縮できるようになります。たとえば視覚障害のある方が長い文章を音声だけで理解するのは難しいですが、短い文章に要約して音声で提供することで情報収集をサポートできるのではないでしょうか。また、災害時や人命救助といった、必要な情報を素早く的確に手短に伝える場面でも役立てることができます。AIによる文章要約サービスが障害を持つ方などさまざまな方をサポートする存在になることを目指しています」と林氏は語る。

また、現時点でAIは文章の要約はできても、文章を理解することはできていない。AIが文章を理解できるようになれば、どのようなことが可能になるのだろうか。

「人間と同程度に文章を理解するAIができれば、そのAIは文章を生成することも可能でしょう。チャットボットを例に挙げると、現時点では質問内のキーワードに対して決まった文章を自動返答していますが、定型文で回答するのではなく質問を理解して回答することもできるようになります。文章の理解や生成ができれば、AI同士でコミュニケーションができるようになる。映画のような話ですが、AIが人間の代わりに情報収集をしたり仕事をしたり、AI同士でニュースについて議論する…というような風景をみられるようになるかもしれませんね」。

コンピューターが文章を理解することで人間をサポートする、そんな社会の実現を目指し、バズグラフの開発は続く。

ライター:平川朋子

平川朋子

IT系の出版社を経て、フリーランスのライターに。主な領域はITやBtoB関連。企業のWebサイトやプレスリリース、パンフレットの制作などにも携わっている。