AI(プログラミング)を学ぶ手前の「データベースの考え方」
7/102023
AIでデータベースの考え方がますます重要に
生成AIのChatGPTの進化のスピードが速いです。
先日は、「Code Interpreter」(テキストからグラフを作る、データを読み込んで分析する等の機能)
が登場して、早速試してみました。
【Code Interpreter】
ChatGPT Plusで使える
ようになりました。・テキストからグラフを自動生成
・csvなどをアップロードして解析も可能質問の形で
ぱっと図が出てくるのは感動。裏で動くPythonでできることを
知っていると強いですね。G20の所得税最高税率の棒グラフ
を作ってみました🙂 pic.twitter.com/hRkm6vh5WB— 戸村涼子@スモールビジネス応援デジタル税理士 (@RtomuraTaxacc) July 9, 2023
ここで気づいたのが、
「綺麗なデータベース」
があることの重要性です。
「綺麗な」と書きましたが、
AI(厳密には後ろで動くPython)が理解できる、データセットという意味です。
※ChatGPTに家計を分析してもらう
Excelでデータを作成するときの注意点
整ってないデータが多すぎる
AIに読み込ませるデータ何かないかな〜
と探していたのですが、
為替レートや株価、海外の団体が出しているデータなどは比較的
綺麗なものがありますが統計情報などは良いものが見つかりませんでした。
例えば、国税庁が公表している以下のExcel。
セル結合、空白セル、1件1行原則×、〃表示、、、AIに読み込ませようとしても全然できません。
この表は、データベースではありません。
「いやいや、みやすくきちんと整っている表ではないか」
と思われる方がいるかもしれませんが、
この表は、いわゆるデータベースを集計した(紙を再現した)「結果」です。
この「元データ」が欲しいんですってばーという感じです。
このような表を作る際には、
性別、事業所規模、給与額、といった列に対してひとつひとつ設定された以下のようなデータがあるはず。
これが、「データベース」です。
先頭は項目名、1件1件入力できるデータ型は決まっていて、意味のあるデータになっています。
事業所規模、給与階級は関数で自動的に表示できます。
データベースなのかどうかは、
すぐに「ピボットテーブル」にできるかで
わかります。
下記は上のデータベースをピボットテーブルにしたものです。
データがしっかりできていれば、数秒でできます。
こういった綺麗な(加工しやすい)データを作るにはどうしたらいいか、
まとめてみました。
1行目はタイトル(フィールド)名
1行目は、タイトル(フィールド)のみにします。
2行以上にするとデータとの境が曖昧になって分析できません。
1件は、1行
データベースは、1件1行です。複数行にまたがることはありません。
あと、「〃」や空白のような意味のないセルは作ってはいけません・・・。
セル結合ダメ、絶対ダメ
1件1行の原則から、セル結合は絶対にアウトです。
表記の統合
表記を揃えないとうまく集計できません。
例えば、全角と半角、カタカナとひらがな、漢字など。
これらはセルに入力できる値を制限することで可能です。
まとめ
AI(プログラミング)を学ぶ手前の「データベースの考え方」
の重要性を書きました。
見逃しがちなことかなーと思います。
私も学び続けます。
編集後記
週末は、大好きなハンドメイドを。
手芸屋さんで見つけたリネンでシンプルな
エプロンを作りました。こういう実用的なアイテム作るのが好きです。
(紐の向きを間違えて一旦全部縫い直しました・・・)
最近のあたらしいこと
北鎌倉ぬふ・いち
鎌工会館ビル
映画「今を生きる」