マガジン

  • エンジニアブログ

    • 12本

    AI分野の技術記事です。

最近の記事

自然言語処理に歩み寄る#3

前回の記事では、コンピュータに文章を理解させるためのベクトル化(=文字を数値化)する2つの方法のうち、カウントベースの手法を説明し、サンプルデータを使って、コードを動かしてみました。 カウントベースの手法では"計算量の増大"(=$${O(n^3)}$$)や、文書内における"単語の順序などの関連性を考慮できない"という課題があります。今回は、この課題を解決する「推論ベース」の手法について説明します。 推論ベースの手法推論ベースとは、周囲の単語が与えられたときに対象となる箇所

    • 便利なPythonライブラリ②~データ前処理編~

      前回の記事では、「探索的データ解析(EDA)」に関するライブラリを紹介しました。 今回は、EDAでデータの特徴を把握した後に行う、「データ前処理」機能のあるライブラリについて記事にします。 ※本記事で紹介しているライブラリのインストールについては、自己責任でお願いします。 データ準備を簡単にする「dataprep」(ライブラリ:github, 公式ドキュメント) 今回も、titanicのデータセットを利用します。 実行環境は、次の通りです。 Python 3.9.1(Go

      • 自然言語処理に歩み寄る#2

        前回の記事では、形態素解析とそれらを行うツールについて紹介しました。今回の記事では、形態素解析を行った後の話を記事にします。 文章を形態素解析した後、コンピュータに理解させるためには"数値化"する必要があります。(以降、ベクトル化と表現します) 自然言語をベクトル化する方法は、主に2通りあります。 ①カウントベース  文章中の単語の出現回数をカウントする ②推論ベース  周辺の単語から、適切な単語を推論する 今回は、「カウントベース」の方法について、いくつか例を交えて解説

        • 便利なPythonライブラリ①~可視化編~

          本記事は、Pythonライブラリを取り上げ、簡単な使用例と共に紹介する連載シリーズ(予定)です。 numpyやpandasなど、書籍やWeb上に情報が広がっている一般的なライブラリではなく、マイナーだけど意外と便利かも!というライブラリを発掘することが目的です。 ※本記事で紹介しているライブラリのインストールについては、自己責任でお願いします。 今回は、「探索的データ解析(EDA)」に関するライブラリを簡単な使用例と共に紹介します。 ① pandas-profiling

        マガジン

        • エンジニアブログ
          12本

        記事

          自然言語処理に歩み寄る#1

          はじめにTransformerやBERTの登場により、ビジネスの現場でも自然言語処理の活用が検討、実証されています。今回から複数回にわたって、"自然言語処理の基礎"となる内容から記事にしていきます。 自然言語処理とは?自然言語(日本語や英語など私たちが普段使っている言葉)をコンピュータに理解させるための処理です。 自然ではない言語というのは、JavaやPythonといったプログラミング言語などを指します。 身近なところで例を挙げると、文字変換や機械翻訳、検索エンジン(Go

          自然言語処理に歩み寄る#1