talk-fast

Optimizing LLM inference for real-time customer support using compiler and runtime techniques. This project profiles inference bottlenecks in open-source LLMs (Phi-2, Mistral), applies torch.compile and quantization strategies, and demonstrates latency and memory improvements for conversational AI Co-Pilots.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
inference		inference
prompts		prompts
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
RESULTS.md		RESULTS.md
requirements.txt		requirements.txt
run_baseline.py		run_baseline.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

talk-fast

About

Uh oh!

Releases

Packages

Languages

License

maitribg/talk-fast

Folders and files

Latest commit

History

Repository files navigation

talk-fast

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages