AIでデータベースの考え方がますます重要に

生成AIのChatGPTの進化のスピードが速いです。

先日は、「Code Interpreter」(テキストからグラフを作る、データを読み込んで分析する等の機能)

が登場して、早速試してみました。

 

 

ここで気づいたのが、

「綺麗なデータベース」

があることの重要性です。

「綺麗な」と書きましたが、

AI(厳密には後ろで動くPython)が理解できる、データセットという意味です。

 

※ChatGPTに家計を分析してもらう

 

Excelでデータを作成するときの注意点

整ってないデータが多すぎる

AIに読み込ませるデータ何かないかな〜

と探していたのですが、

為替レートや株価、海外の団体が出しているデータなどは比較的

綺麗なものがありますが統計情報などは良いものが見つかりませんでした。

 

例えば、国税庁が公表している以下のExcel。

セル結合、空白セル、1件1行原則×、〃表示、、、AIに読み込ませようとしても全然できません。

この表は、データベースではありません。

 

「いやいや、みやすくきちんと整っている表ではないか」

と思われる方がいるかもしれませんが、

この表は、いわゆるデータベースを集計した(紙を再現した)「結果」です。

この「元データ」が欲しいんですってばーという感じです。

 

このような表を作る際には、

性別、事業所規模、給与額、といった列に対してひとつひとつ設定された以下のようなデータがあるはず。

これが、「データベース」です。

先頭は項目名、1件1件入力できるデータ型は決まっていて、意味のあるデータになっています。

事業所規模、給与階級は関数で自動的に表示できます。

データベースなのかどうかは、

すぐに「ピボットテーブル」にできるか

わかります。

下記は上のデータベースをピボットテーブルにしたものです。

データがしっかりできていれば、数秒でできます。

 

こういった綺麗な(加工しやすい)データを作るにはどうしたらいいか、

まとめてみました。

 

1行目はタイトル(フィールド)名

1行目は、タイトル(フィールド)のみにします。

2行以上にするとデータとの境が曖昧になって分析できません。

 

1件は、1行

データベースは、1件1行です。複数行にまたがることはありません。

あと、「〃」や空白のような意味のないセルは作ってはいけません・・・。

 

セル結合ダメ、絶対ダメ

1件1行の原則から、セル結合は絶対にアウトです。

 

表記の統合

表記を揃えないとうまく集計できません。

例えば、全角と半角、カタカナとひらがな、漢字など。

これらはセルに入力できる値を制限することで可能です。

 

まとめ

AI(プログラミング)を学ぶ手前の「データベースの考え方」

の重要性を書きました。

見逃しがちなことかなーと思います。

私も学び続けます。

 

編集後記

週末は、大好きなハンドメイドを。

手芸屋さんで見つけたリネンでシンプルな

エプロンを作りました。こういう実用的なアイテム作るのが好きです。

(紐の向きを間違えて一旦全部縫い直しました・・・)

 

最近のあたらしいこと

北鎌倉ぬふ・いち

鎌工会館ビル

映画「今を生きる」

« »