機械学習の概要と基礎知識 AIと機械学習(ML)の違い AIと機械学習(ML)は同じような文脈で語られることが多いのですが、AIは専門家でも定義が曖昧なままとなっている概念であり、機械学習は具体的な手法となっています。AIを実現するために有効だと考えられている一つの手段として機械学習(ML)があり、さらに機械学習の中で深層学習(Deep Learning)という手法が存在しています。
AIとは? AIはAI(Artificial Intelligence)の略であり、日本語では人工知能と言います。AIの具体的な定義は研究者の間でも統一されていません。現時点ではAIの片鱗も見えておらず、人工的に知能を作り出すことが可能かどうかは実証されていないという状況です。
自然言語処理での応用 自然言語処理の概要 NLP(Natural Language Processing)とも言います。自然言語処理は、人の話す言葉をコンピュータに学習・理解させ、人の役に立つようにコンピュータに処理させることです。以下の様に様々な要素技術とその組み合わせにより構成されます。
Huggingface TransformersでBERTをFine Tuningしてみる TL;DR 様々な自然言語処理モデルをお手軽に使えるHuggingface Transformersを利用し、日本語の事前学習済みBERTモデルのFine Tuningを試してみました。
PyCaretで学ぶデータ分析におけるAutoMLの利用 TL;DR ボストン住宅価格データセットを利用して、データ分析におけるAutoMLの利用を解説します。 似たようなコンテンツは他にも色々有りますが、手動でのデータ分析からAutoMLの利用までの一連の流れを説明する機会があったので、その内容を纏めています。 以下のような流れでの解説です。
SageMakerで独自コンテナでトレーニングする方法 TL;DR AWS SageMakerで独自コンテナでトレーニングする方法です。 メトリクスの設定などを含めて必要最小限の設定でトレーニングするためのサンプルとなります。 ローカルモードとSageMaker上のトレーニングジョブとしての実行もフラグの切替で可能となっています。
自然言語処理で使われるAttentionのWeightを可視化する(spaCy版) TL;DR 自然言語処理で使われるAtentionのAttention Weight(Attention Weightを加味した入力シーケンス毎の出力)を可視化します。 基本的に自然言語処理で使われるAttentionのWeightを可視化すると同様ですが、spaCyを利用したバージョンです。
LightGBMをOptunaでパラメータチューニングする TL;DR LightGBMのパラメータをOptunaのLightGBM Tunerでチューニングします。 OptunaのLightGBM TunerはOptunaに組み込まれているLightGBM用のパラメータチューナーです。
BERTおよびWord2Vecで文の類似性を確認する TL;DR 文の類似性を確認する方法としてBERTとWord2Vecを比較します。 文全体の類似性ではなくトークン単位での比較です。
BERTとWord2Vecによるベクトル化にはtext-vectorianを使用します。
XGBoostをOptunaでパラメータチューニングする TL;DR XGBoostのパラメータをOptunaでチューニングします。 ベンチマーク用データとしてはボストン住宅価格データセットを使用します。
データ準備 scikit-learnのdatasetsを使ってデータをロードします。 学習データとテストデータの分割は8:2です。
もっと簡単に Keras BERT でファインチューニングしてみる TL;DR text-vectorianをバージョンアップし、BERT のファインチューニングで役に立つ機能を追加しました。