INOUE-KOBO.COM

LightGBMをOptunaでパラメータチューニングする TL;DR LightGBMのパラメータをOptunaのLightGBM Tunerでチューニングします。 OptunaのLightGBM TunerはOptunaに組み込まれているLightGBM用のパラメータチューナーです。

AWS DeepLens Tips TL;DR AWS DeepLensがやっと届いたので動かしてました。挙動を掴むまで結構ハマったので、注意点とか確認方法などのTipsを纏めてみました。

BERTおよびWord2Vecで文の類似性を確認する TL;DR 文の類似性を確認する方法としてBERTとWord2Vecを比較します。文全体の類似性ではなくトークン単位での比較です。 BERTとWord2Vecによるベクトル化にはtext-vectorianを使用します。

XGBoostをOptunaでパラメータチューニングする TL;DR XGBoostのパラメータをOptunaでチューニングします。ベンチマーク用データとしてはボストン住宅価格データセットを使用します。データ準備 scikit-learnのdatasetsを使ってデータをロードします。学習データとテストデータの分割は8:2です。

もっと簡単に Keras BERT でファインチューニングしてみる TL;DR text-vectorianをバージョンアップし、BERT のファインチューニングで役に立つ機能を追加しました。

SageMakerでKerasの独自モデルをトレーニングしてデプロイするまで(Python3対応) TL;DR AWS SageMakerにおいて、Kerasによる独自モデルをトレーニングし、SageMakerのエンドポイントとしてデプロイします。また、形態素解析やベクトル化のような前処理を、個別にDockerコンテナを作成することなしにエンドポイント内で行うようにします。このために、SageMaker TensorFlow Serving Containerを利用します。

OpenAI Gym API for Fighting ICEを動かしてみる TL;DR Qiitaの方でコメントを頂いたので、早速gym-fightingiceを試してみました。

Keras BERTでファインチューニングしてみる TL;DR SentencePiece + 日本語WikipediaのBERTモデルをKeras BERTで利用するにおいて、Keras BERTを利用して日本語データセットの分類問題を扱って見ましたが、今回はファインチューニングを行ってみました。

SentencePiece + 日本語WikipediaのBERTモデルをKeras BERTで利用する TL;DR Googleが公開しているBERTの学習済みモデルは、日本語Wikipediaもデータセットに含まれていますが、Tokenizeの方法が分かち書きを前提としているため、そのまま利用しても日本語の分類問題ではあまり高い精度を得ることができません。

sumyを使って青空文庫を要約してみる TL;DR テキスト要約モジュールであるsumyを使って青空文庫の書籍を要約してみました。 sumyを使う部分はけ日記 - Python: LexRankで日本語の記事を要約するを参考にさせていただきました。同記事ではTokenizerにJanomeを使用していますが、今回はginza(spacy)を使用しています。