BERTによる自然言語処理入門: Transformersを使った実践プログラミング

www.amazon.co.jp

 

1〜4章はBertに至るWord2Vec, ELMOの開設、Google ColaboratoryでHuggingface Transformersを使う準備、

5および10章は、事前学習モデルを使った例、

6〜9章は事前学習モデルをファインチューニングする。

 

2章

[3] CommonCrawl データセット http://commoncrawl.org/

[4] Tomas Mikolov, et. al, "Efficient Estimation of Word Representations in Vector Space", ICLR, 2013.

[7] Matthew E. Peters, et. al, "Deep contextualized word representations", NAACL, 2018.

 

3章

[1] Jacob Devlin, Ming-Wei Chang, Keton Lee, & Krstina Toutanava, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", NACACL-HLT, 2019.

[2] Ashish Vawani, et al. "Attention is All ou Need", NeurIPS 2017.

 

4章

https://colab.research.google.com

 

🤗 Transformers https://huggingface.co/docs/transformers/index

transformers · PyPI https://pypi.org/project/transformers/

 

GitHub - stockmarkteam/bert-book: 「BERTによる自然言語処理入門: Transformersを使った実践プログラミング」サポートページ https://github.com/stockmarkteam/bert-book/

 

6章 文章分類

livedoorニュースコーパス

出版物 - 株式会社ロンウイット https://www.rondhuit.com/publicity.html

 

7章 マルチラベル文章分類

GitHub - chakki-works/chABSA-dataset: chakki's Aspect-Based Sentiment Analysis dataset https://github.com/chakki-works/chABSA-dataset

 

8章 固有表現抽出

GitHub - stockmarkteam/ner-wikipedia-dataset: Wikipediaを用いた日本語の固有表現抽出データセット https://github.com/stockmarkteam/ner-wikipedia-dataset

 

9章 文章校正

日本語Wikipedia入力誤りデータセット - KUROHASHI-CHU-MURAWAKI LAB https://nlp.ist.i.kyoto-u.ac.jp/?%E6%97%A5%E6%9C%AC%E8%AA%9EWikipedia%E5%85%A5%E5%8A%9B%E8%AA%A4%E3%82%8A%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%83%E3%83%88