Multimodal Data Entry
- Sathit Jittanupat
- 29 มี.ค.
- ยาว 1 นาที

ตั้งคำถามถึงความก้าวหน้าของ AI หากมีความสามารถรับรู้และเข้าใจในระดับใกล้เคียงมนุษย์ วิธีคิดของการออกแบบ Data Entry จะเปลี่ยนแปลงไปอย่างไร ผมลองคิดในแง่มุมโปรแกรมบัญชี ทุกวันนี้เราใช้คอมพิวเตอร์ช่วยเพราะความสามารถประมวลผลได้รวดเร็ว แต่มนุษย์เองก็ยังเป็นกลไกสำคัญทำหน้าที่อินพุตที่ขาดไม่ได้
ซอฟต์แวร์แยกออกจากฮาร์ดแวร์ ในยุคสมัยที่คอมพิวเตอร์มีหน่วยเก็บข้อมูลถาวร เมื่อผนวกกับความสามารถคำนวณได้รวดเร็ว ยังสามารถคำนวณซ้ำ (recalculation) ได้โดยไม่ต้องป้อนข้อมูลเดิม เกิดวิวัฒนาการของการออกแบบโปรแกรมที่ใช้ซ้ำได้ โดยแยกระหว่างส่วนที่เป็นตรรกะเงื่อนไขคำนวณ (logic) กับส่วนใช้เป็นค่าคำนวณ (data)
คอมพิวเตอร์ถูกออกแบบมาให้ย่อยกินอักขระข้อความ (text) เป็นอาหาร มนุษย์จึงต้องช่วยแปลงอะไรที่ยังดิบ เช่น กระดาษ ภาพและเสียง ให้กลายเป็นข้อความเสียก่อน อาจเป็นเพราะนี่คือสารที่ลงตัวที่สุด สำหรับเครื่องจักรที่ใช้คิดคำนวณ ขณะที่มนุษย์ก็สามารถตรวจทานอินพุตที่คอมพิวเตอร์รับเก็บไว้ได้ โดยไม่กินแรงและทรัพยากรมากเกินไป
ไม่เพียงแค่ทำหน้าที่อ่านแทนคอมพิวเตอร์ แบบที่ OCR พยายามทำ ผมอยากใช้คำว่าสังเคราะห์เพราะไม่ใช่การนำเข้าตรงๆ โดยไม่ผ่านการกลั่นกรองเพื่อสะกัดเอาเฉพาะ "สิ่งที่สนใจ" บางครั้งก็ต้องจัดรูปแบบใหม่ จัดลำดับ ปรับแก้ไข (รวมถึงตีความ) ก่อนที่จะกลายเป็นข้อมูลที่ป้อนให้คอมพิวเตอร์
ยกตัวอย่าง อินพุตทางบัญชีของเราทุกวันนี้คือ "บิล" อาจเป็นกระดาษจริง หรือภาพที่ดูบนจอ
"วันที่"่ เราอ่านค่านี้ในบิลที่แตกต่างกันได้อย่างไร บางครั้งอาจเป็นชื่อเดือนไทยหรืออังกฤษ ย่อหรือเต็ม บางครั้งเป็นปีพ.ศ. หรือ ค.ศ. อาจเจอเลขปีย่อแค่ 2 หลักท้าย ต้องอาศัยประสบการณ์ เคยรู้จักว่าข้อความที่มีรูปแบบดูเหมือนจะเป็นวันที่ (date format) แตกต่างจากข้อความอื่นอย่างไร รู้ว่าควรอยู่บริเวณด้านบนของฟอร์มมากกว่าตำแหน่งอื่น
ข้อความที่คล้ายวันที่อาจเจอมากกว่า 1 แห่ง ดังนั้นจึงต้องสังเกตข้อความข้างเคียง เพื่อแยกแยะความหมาย ว่าเป็นวันที่ (ออกเอกสาร) หรือ วันที่กำหนดชำระ เพื่อจะได้เลือกค่าที่ต้องการป้อนเข้าคอมพิวเตอร์ รวมถึงการแปลงค่านั้นให้ตรงกับรูปแบบอินพุตของวันที่ตามที่โปรแกรมกำหนดด้วย เช่น แปลงชื่อเดือนเป็นเลขเดือน หรือแปลงปี พ.ศ. เป็น ค.ศ. กระบวนการนี้เกิดขึ้นเพียงเสี้ยววินาที
ร้านขายทอง
ปัญหาสำคัญของการอินพุตข้อมูลโดยมนุษย์ ทำให้ต้องจดจ่อสื่อสารกับคอมพิวเตอร์ ชั่วขณะนั้นจะสูญเสียความสามารถสื่อสารกับคนรอบข้าง
ร้านทองไม่ตั้งคอมพิวเตอร์ไว้หน้าร้าน หรือถ้ามีคอมพิวเตอร์ คนยืนหน้าตู้ทองต้องไม่เป็นผู้ป้อนข้อมูลเอง เพราะการจดจ่อให้ความสนใจ สังเกตพฤติกรรมลูกค้าที่อยู่ในร้านเป็นความสำคัญสูงสุด เป็นเคสที่ human touch สำคัญกว่า data
การออกแบบระบบให้ร้านทองเมื่อหลายปีก่อน ตอนนั้นยังไม่มี Gen AI ไม่รู้จัก Multimodal เกิดจากข้อจำกัดข้างต้น ไม่สามารถใช้คนหน้าร้านที่มีอยู่แล้ว ขณะเดียวกันการจ้างพนักงานป้อนข้อมูลประจำร้านเพิ่มก็ติดขัดเรื่องความไว้ใจ และปริมาณงานที่น้อยเกินไป
เราใช้วิธีให้คนที่อยู่หน้าร้านจดรายละเอียดสั้นๆ แล้วถ่ายรูปเข้ากลุ่มแชท หลังจากนั้นทีมข้อมูล ก็เอารูปดังกล่าวมาป้อนเข้าโปรแกรมอีกทีหนึ่ง เงื่อนไขสำคัญอยู่ตรงที่ต้องเป็นคลาวด์ เพื่อให้ทีมข้อมูลสามารถทำงานจากระยะไกล ไม่ต้องประจำอยู่ร้านใดร้านหนึ่ง

โรงพยาบาล
การเก็บประวัติการวินิจฉัยคนไข้มีความสำคัญในกระบวนการรักษา ขณะเดียวกันการบันทึกข้อมูลดังกล่าวไม่สามารถทำโดยผู้อื่นที่ไม่ใช่ผู้วินิจฉัย การตรวจรักษาของหมอทุกวันนี้จึงโดนคอมพิวเตอร์แย่งความสนใจไป สูญเสียปฏิสัมพันธ์ระหว่างมนุษย์จนกลายเป็นประสบการณ์ที่ไม่ค่อยดีของคนไข้ ขณะเดียวกันการวินิจฉัยก็สูญเสียความเข้าใจพฤติกรรมเฉพาะตัวคนไข้ที่ได้จากการซักถามพูดคุย
มีทีมสตาร์ทอัพทางการแพทย์ของไทย พัฒนา Preceptor AI เป็นไอเดียที่น่าทึ่ง เปลี่ยนวิธีบันทึกข้อมูลเข้าคอมพิวเตอร์ของคุณหมอ จากป้อนข้อมูลด้วยตัวเอง เป็นสรุปข้อวินิจฉัยอัตโนมัติจากเสียงที่หมอสนทนากับคนไข้ พูดง่ายๆ คือ พูดให้คนไข้ฟังไปพร้อมๆ กับ AI ช่วยจด ที่สำคัญคือผู้ช่วยนี้เข้าใจภาษาทางการแพทย์ จนสามารถสรุปใจความสำคัญได้
สำนักบัญชี
ไอเดียของ Preceptor AI เป็นจุดเริ่มต้นของการตั้งคำถามกับกระบวนการป้อนข้อมูลในแวดวงอื่น หาก AI สามารถเข้าใจ เสียงหรือภาพ เรายังจำเป็นต้องใช้วิธีการอินพุตแบบเดียวอีกหรือไม่
ข้อจำกัดของงานบัญชีอยู่ตรงที่มักเป็น small data ไม่มีใครมีข้อมูลตัวอย่างฟอร์มบิลที่หลากหลายมากพอที่จะพัฒนา AI ให้ใช้ได้ทั่วไป สำนักบัญชีที่เป็นศูนย์รวมงานบัญชีอาจเป็นจุดเริ่มต้นที่คุ้มค่า
งานอินพุตของบัญชีด้านซื้อและจ่ายมักยุ่งยากกว่าด้านขาย เพราะไม่สามารถควบคุมรูปแบบของเอกสารที่เป็นต้นทางของข้อมูลก่อนนำเข้าคอมพิวเตอร์ ความท้าทายจึงอยู่ที่การหาวิธีการที่คุ้มค่ากับขนาดของข้อมูล (เมื่อเทียบกับใช้คนเหมือนเดิม)

อินพุตด้วยเสียง
ปกติการป้อนข้อมูล ผู้ป้อนข้อมูลจะต้องดูบิลของจริง (หรือภาพบนจอ) พร้อมกับคีย์ข้อมูลเข้าคอมพิวเตอร์ เราอาจแบ่งงานเป็น 3 ขั้น
ใช้คนอ่านบิล ใช้เสียงแทนจิ้มคีย์บอร์ดป้อนข้อมูลโดยตรง
Speech to text แปลงเสียงอ่านเป็นข้อมูล อาจทำเป็น CSV ก่อน ยังไม่ต้องผูกติดกับโปรแกรมใดโปรแกรมหนึ่ง
หาทางเอาข้อมูลดังกล่าว ป้อนเข้าโปรแกรมอัตโนมัติ เช่น ใช้ บางโปรแกรมอาจมีผู้เคยพัฒนา RPA ใช้ป้อนข้อมูลอ้ตโนมัติได้อยู่แล้ว หรือ บางโปรแกรมอาจรองรับการนำเข้าข้อมูลจากไฟล์ spreadsheet โดยตรง
อินพุตด้วยภาพ
สมมติว่า อินพุตด้วยเสียงพอใช้งานได้ เราอาจต่อยอดโดยใช้ AI อ่านบิลแทนคน โดยอาศัยตัวอย่างที่มีอยู่แล้วเรียนรู้ว่า บิลแต่แบบต้องอ่านข้อมูลส่วนไหนมาใช้บ้าง
Image to text อ่านจากภาพบิลเลียนแบบคน แล้วทำตามขั้นตอนเหมือนอินพุตด้วยเสียง
ยุบขั้นตอน อ่านภาพบิลออกมาเป็น CSV เลย หรือทะลุไปฟีดข้อมูลเข้าโปรแกรม เช่น ผ่าน API
ความซับซ้อนของการอ่านบิล ขึ้นอยู่กับรายละเอียดของข้อมูลที่ต้องการ เช่น ตั้งเป้าว่าอ่านเพื่อยื่นภาษีมูลค่าเพิ่ม ยังไม่ต้องสนใจรายการย่อยในบิล ขณะที่การอ่านเพื่อบันทึกแยกประเภท หรือทำสต็อค ต้องการรายละเอียดมากกว่า
เอกสารออกเป็นชุด มักลงวันที่ตั้งแต่ซื้อสินค้า มีลักษณะ 2 in 1 หมายความว่า บิลรูปแบบเดียวกันมีโหมดอ่านเพื่อใช้ตั้งหนี้ตอนซื้อ และโหมดอ่านเพื่อตัดหนี้ตอนจ่าย ซึ่งวันที่จ่ายต้องดูจากรายละเอียดการรับชำระด้านล่าง และที่ยากกว่านั้นมักเป็นลายมือเขียน
เอกสารที่มีรายการจำนวนมากจนเกินกระดาษแผ่นเดียว หากเป็นรูปภาพหลายภาพก็จะต้องเข้าใจว่าต้องรวมเป็นภาพของบิลชุดเดียวกัน มีความซับซ้อนในการอ่าน เพราะต้องอ่านข้อมูลจากส่วนหัวบิลแผ่นแรก มารวมกับอ่านยอดเงินสุทธิจากแผ่นสุดท้ายมารวมกัน
บิลที่เขียนมือ เป็นความท้าทายขั้นสูงสุด ที่อาจไม่คุ้มค่าที่จะพยายามทำให้ AI อ่านจากภาพถ่าย
Fake Slip
เช้าวันนี้เอง มีหลายท่านแชร์ขีดความสามารถของ AI ว่าสามารถสร้างรูปภาพและข้อความในนั้นได้เหมือนจริง จนยากสำหรับคนทั่วไปที่จะแยกแยะ ซึ่งสิ่งนั้นเคยถูกยึดถือในโลกออฟไลน์มานาน ว่าเป็นหลักฐานความจริงที่แน่นหนา

นั่นหมายความว่า สิ่งที่เคยเป็นสารตั้งต้นสำหรับข้อมูลที่ป้อนให้คอมพิวเตอร์ กำลังท้าทายขีดความสามารถตรวจสอบความจริง เช่นเดียวกับกรณีของ Deep Fake ที่เสกวิดีโอหรือภาพถ่ายขึ้นมา
บางทีอาจถึงเวลาที่เราควรเริ่มทบทวนถึงกระบวนการอินพุต การได้มาของข้อมูล รวมไปถึงนิยามของคำว่าข้อมูล โดยเฉพาะในโลกของ small data เช่น ระบบบัญชี ที่เคยใช้ประโยชน์จากข้อได้เปรียบที่เป็น well-structured data ในระบบปิด แต่ยากต่อการพิสูจน์ความเป็นของจริง หากไม่เชื่อมต่อหรือสื่อสารเพื่อยืนยันข้อมูลกับภายนอก
Comments