More details

Could you explain better the idea behind this projected? As far I am concerned, it looks like you : 
1. Trained YOLO to recognize (Letters/Numbers + License Plate)
2. Parse video, detect each frame 
3. Filter only detections inside 'License Plate detection bbox'
4. Read detections labels from left to right