いちろう’s blog

すーぱーえんじにあ

AI

AIコーディングとエンジニアの生産性に対する所感

LLMを利用してアプリを開発するAIコーディング、めちゃくちゃ流行ってますね Xを見たら「Claude Code使ったら非エンジニアでもアプリが作れた!」や「Cursorでこんなことができた!」のような投稿が溢れかえり、世間がAIコーディングに非常に注目しているの…

FastAPIでレシート画像をOCRするAPIサーバを構築する

はじめに 過去の記事で、レシートから合計金額を抽出するOCR処理を作成した。本記事では、過去作成したOCR処理をFastAPIに組み込み、レシート画像から合計金額を抽出するAPIサーバを構築する。 sey323log.hatenablog.com

GoogleVisionAPIでレシートから合計金額を抽出する

はじめに お店でもらったレシートから自動で合計金額を抽出し、自宅のDBに保存できるといいなとふと思い、N番煎じではあるがレシートのOCRに挑戦してみた。同様の試みを行っている方は多数いたが、レシートを撮影する環境や頻繁に利用する店舗のレシートのフ…

TensorflowHubの骨格検出AIでジェスチャー検出し家電を操作する

概要 家にスマートリモコンのNatureRemoを導入し、Alexaと連携して音声で家電を操作している。連携により「アレクサ!電気消して」というだけで電気を消してくれるので、電気を付けようとたらリモコンがなくて部屋を探し回る、みたいな手間がなくなり非常に…

【論文】Attribute2Font: Creating Fonts You Want From Attributes

AI

基本情報 論文へのリンクは以下の通り。 arxiv.org ユーザが指定した、任意の属性を持つフォントを生成できるようにしたもの。今まで不確定要素が多かったGANの生成を、属性情報(Attribute)をコントロールしながら任意の画像を生成できるようになるのは、今…

Gradio+ESRGANを利用した画像を高解像度にするWeb画面の作成

AI

概要 作成したAIのモデルを簡単にデモできるGradioと言うライブラリを見つけたので、それを利用して画像を高解像度にするWebページを作成した。 利用するモデルは、Tensorhubに公開されている、画像の解像度を4倍に拡大するGANの手法であるESRGANを利用する…