AI研究所 - AI(人工知能)に脅かされないために、AI(人工知能)を作る側の人間になる -

HOME  >  ヒトの読解能力を超えたAIの最新言語モデル「XLNet」、日本語版初公開!

公開日:2019.11.01 

ヒトの読解能力を超えたAIの最新言語モデル「XLNet」、日本語版初公開!

カテゴリー: AI(人工知能)のニュース

こんにちは!AI研究所の見習い研究員Chisatoです。
本日のtopicsは、ストックマーク株式会社のXLNet事前学習済モデルをご紹介します。

日本語の文章を解析するAI(=自然言語処理技術)の研究開発をするストックマーク株式会社は、2019年10月25日、ディープラーニングを用いたアルゴリズムであるXLNet(エックスエルネット)の日本語事前学習済モデルを初公開しました。

■モデルのダウンロードリンク及び詳細はこちらから
https://qiita.com/mkt3/items/4d0ae36f3f212aee8002

自然言語処理技術の開発について

自然言語処理とは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術であり、人工知能と言語学の一分野です。

様々なタスクを高精度で解くという意味でこれまで最も良いとされていたのは「BERT」と呼ばれるモデルで、日本語のBERT事前学習済モデルとそれ以前にはELMo学習モデルにおいても公開してきました。
この度は、20を超える評価タスクでBERTの精度を超えたXLNetについて、大規模日本語ビジネスニュースコーパスを学習したXLNet(MeCab+Sentencepiece利用)モデルを初公開します。
XLNetを適用することにより、特にエンティティ抽出の精度がさらに向上し、これまで人が文章を読まないと判断できなかったビジネスおける新しい製品名やサービス名、新興企業などを事前の辞書(コーパス)なしに自動抽出することが可能となり、大量のビジネス文章から精度のよい洞察を導くことが可能となります。

XLNet 詳細

ディープラーニングを用いた自然言語処理は翻訳、QAタスク、文書分類など多岐にわたるが、それらのタスクを解く際は、タスクにまたがって有用な表現を教師なしで取得する「事前学習」と、事前学習の結果をもとにタスク用に再学習させる「微調整(fine-tuing)」という2段階にわけるという手法が近年とメジャーとなっています。
事前学習においては、BERTという手法と、Seq2Seqという自己回帰を用いた言語モデルの2つが頻繁に使われています。
BERTは、順方向・逆方向の情報をうまく扱えますが、予測対象の単語同士の依存関係を学習しにくいという特徴があります。一方、Seq2Seqのような自己回帰言語モデルは順々に単語を読み込ませるため、予測対象の単語同士の依存関係を学習できますが、順方向・逆方向の情報を同時に扱えないという問題がありました。
XLNetは、予測対象の単語同士の依存関係を学習できる自己回帰言語モデルでありながら、自己回帰言語モデルの弱点でありBERTの良いところである「順方向・逆方向の情報を同時に扱える」性質を持っています。

ストックマーク社のビジネス文章データを学習したXLNet事前学習済モデル「XLNet」に注目です!

タグ:


参考になったら「いいね!」と「シェア」をお願いします!!

このエントリーをはてなブックマークに追加
AI(人工知能)セミナー開催中
AI(人工知能)入門セミナー AI(人工知能)入門セミナー

AI入門ブログの中の人

AI研究所 研究スタッフ

【マサミ】

アメリカ・サンフランシスコにある情報メディアの専門学校を卒業。大手金融会社での事務経験を経て、2016年9月よりAI研究所に入所。見習い研究員として、AI技術を日々勉強中。


【三谷】

AIセミナー責任者、講師。AIについての幅広い知識を持ち、人に分かりやすく伝える技術を持つ。特にAIを事業や仕事に取り入れる方法について日々講義しています。

AI研究所Twitter

Facebookページ