Model Deployment¶

Overview¶

Deploy FRAMEWORM models to production with export, serving, and containerization.

from frameworm.deployment import ModelExporter

exporter = ModelExporter(model, example_input)
exporter.to_torchscript('model.pt', method='trace')

exporter.to_onnx('model.onnx', opset_version=14)

quantized = exporter.quantize('model_quant.pt', method='dynamic')

from frameworm.deployment import ModelServer

server = ModelServer('model.pt')
server.run(host='0.0.0.0', port=8000)

Or via CLI:

python -m frameworm.deployment.server --model model.pt --port 8000

curl -X POST http://localhost:8000/predict \
  -H "Content-Type: application/json" \
  -d '{"data": [[1.0, 2.0, 3.0, 4.0, 5.0]]}'

docker build -t model-server .

docker run -p 8000:8000 -v $(pwd)/models:/app/models model-server

docker-compose up -d

kubectl apply -f k8s/deployment.yaml

kubectl get pods
kubectl get services

kubectl scale deployment model-server --replicas=5

Process multiple samples together:

# Better: batch of 32
output = model(batch_of_32)

# Slower: one at a time
for sample in samples:
    output = model(sample)

2-5x faster inference:

from frameworm.deployment import ONNXInferenceSession

session = ONNXInferenceSession('model.onnx')
output = session.run(input_data)

Enable CUDA for faster serving:

server = ModelServer('model.pt', device='cuda')