Pytorch で量子化してみた¶
Pytorch Lightning で作った CNN モデルを動的に量子化して推論してみた。 量子化する前と後で推論時間を比較すると量子化したほうが若干遅くなっていた。 量子化すると推論早くなると思っていたので以外な結果だった。量子化手順を間違えていたかもしれないので、いつか追試したい。
Pytorch で CUDA を使った量子推論しようとしたができなかった。Pytorch で作ったモデルを ONNX や TensorRT に変換したら CUDA を使った量子推論できそう。