top of page
ค้นหา

Multimodal Data Entry

  • รูปภาพนักเขียน: Sathit Jittanupat
    Sathit Jittanupat
  • 29 มี.ค.
  • ยาว 1 นาที

ตั้งคำถามถึงความก้าวหน้าของ AI หากมีความสามารถรับรู้และเข้าใจในระดับใกล้เคียงมนุษย์ วิธีคิดของการออกแบบ Data Entry จะเปลี่ยนแปลงไปอย่างไร ผมลองคิดในแง่มุมโปรแกรมบัญชี ทุกวันนี้เราใช้คอมพิวเตอร์ช่วยเพราะความสามารถประมวลผลได้รวดเร็ว แต่มนุษย์เองก็ยังเป็นกลไกสำคัญทำหน้าที่อินพุตที่ขาดไม่ได้ 


ซอฟต์แวร์แยกออกจากฮาร์ดแวร์ ในยุคสมัยที่คอมพิวเตอร์มีหน่วยเก็บข้อมูลถาวร เมื่อผนวกกับความสามารถคำนวณได้รวดเร็ว ยังสามารถคำนวณซ้ำ (recalculation) ได้โดยไม่ต้องป้อนข้อมูลเดิม เกิดวิวัฒนาการของการออกแบบโปรแกรมที่ใช้ซ้ำได้ โดยแยกระหว่างส่วนที่เป็นตรรกะเงื่อนไขคำนวณ (logic) กับส่วนใช้เป็นค่าคำนวณ (data)


คอมพิวเตอร์ถูกออกแบบมาให้ย่อยกินอักขระข้อความ (text) เป็นอาหาร มนุษย์จึงต้องช่วยแปลงอะไรที่ยังดิบ เช่น กระดาษ ภาพและเสียง ให้กลายเป็นข้อความเสียก่อน อาจเป็นเพราะนี่คือสารที่ลงตัวที่สุด สำหรับเครื่องจักรที่ใช้คิดคำนวณ ขณะที่มนุษย์ก็สามารถตรวจทานอินพุตที่คอมพิวเตอร์รับเก็บไว้ได้ โดยไม่กินแรงและทรัพยากรมากเกินไป


ไม่เพียงแค่ทำหน้าที่อ่านแทนคอมพิวเตอร์ แบบที่ OCR พยายามทำ ผมอยากใช้คำว่าสังเคราะห์เพราะไม่ใช่การนำเข้าตรงๆ โดยไม่ผ่านการกลั่นกรองเพื่อสะกัดเอาเฉพาะ "สิ่งที่สนใจ" บางครั้งก็ต้องจัดรูปแบบใหม่ จัดลำดับ ปรับแก้ไข (รวมถึงตีความ) ก่อนที่จะกลายเป็นข้อมูลที่ป้อนให้คอมพิวเตอร์


ยกตัวอย่าง อินพุตทางบัญชีของเราทุกวันนี้คือ "บิล" อาจเป็นกระดาษจริง หรือภาพที่ดูบนจอ


"วันที่"่ เราอ่านค่านี้ในบิลที่แตกต่างกันได้อย่างไร บางครั้งอาจเป็นชื่อเดือนไทยหรืออังกฤษ ย่อหรือเต็ม บางครั้งเป็นปีพ.ศ. หรือ ค.ศ. อาจเจอเลขปีย่อแค่ 2 หลักท้าย ต้องอาศัยประสบการณ์ เคยรู้จักว่าข้อความที่มีรูปแบบดูเหมือนจะเป็นวันที่ (date format) แตกต่างจากข้อความอื่นอย่างไร รู้ว่าควรอยู่บริเวณด้านบนของฟอร์มมากกว่าตำแหน่งอื่น


ข้อความที่คล้ายวันที่อาจเจอมากกว่า 1 แห่ง ดังนั้นจึงต้องสังเกตข้อความข้างเคียง เพื่อแยกแยะความหมาย ว่าเป็นวันที่ (ออกเอกสาร) หรือ วันที่กำหนดชำระ เพื่อจะได้เลือกค่าที่ต้องการป้อนเข้าคอมพิวเตอร์ รวมถึงการแปลงค่านั้นให้ตรงกับรูปแบบอินพุตของวันที่ตามที่โปรแกรมกำหนดด้วย เช่น แปลงชื่อเดือนเป็นเลขเดือน หรือแปลงปี พ.ศ. เป็น ค.ศ. กระบวนการนี้เกิดขึ้นเพียงเสี้ยววินาที


ร้านขายทอง


ปัญหาสำคัญของการอินพุตข้อมูลโดยมนุษย์​ ทำให้ต้องจดจ่อสื่อสารกับคอมพิวเตอร์ ชั่วขณะนั้นจะสูญเสียความสามารถสื่อสารกับคนรอบข้าง


ร้านทองไม่ตั้งคอมพิวเตอร์ไว้หน้าร้าน หรือถ้ามีคอมพิวเตอร์ คนยืนหน้าตู้ทองต้องไม่เป็นผู้ป้อนข้อมูลเอง เพราะการจดจ่อให้ความสนใจ สังเกตพฤติกรรมลูกค้าที่อยู่ในร้านเป็นความสำคัญสูงสุด เป็นเคสที่ human touch สำคัญกว่า data


การออกแบบระบบให้ร้านทองเมื่อหลายปีก่อน ตอนนั้นยังไม่มี Gen AI ไม่รู้จัก Multimodal เกิดจากข้อจำกัดข้างต้น ไม่สามารถใช้คนหน้าร้านที่มีอยู่แล้ว ขณะเดียวกันการจ้างพนักงานป้อนข้อมูลประจำร้านเพิ่มก็ติดขัดเรื่องความไว้ใจ และปริมาณงานที่น้อยเกินไป


เราใช้วิธีให้คนที่อยู่หน้าร้านจดรายละเอียดสั้นๆ แล้วถ่ายรูปเข้ากลุ่มแชท หลังจากนั้นทีมข้อมูล ก็เอารูปดังกล่าวมาป้อนเข้าโปรแกรมอีกทีหนึ่ง เงื่อนไขสำคัญอยู่ตรงที่ต้องเป็นคลาวด์ เพื่อให้ทีมข้อมูลสามารถทำงานจากระยะไกล ไม่ต้องประจำอยู่ร้านใดร้านหนึ่ง



โรงพยาบาล


การเก็บประวัติการวินิจฉัยคนไข้มีความสำคัญในกระบวนการรักษา ขณะเดียวกันการบันทึกข้อมูลดังกล่าวไม่สามารถทำโดยผู้อื่นที่ไม่ใช่ผู้วินิจฉัย การตรวจรักษาของหมอทุกวันนี้จึงโดนคอมพิวเตอร์แย่งความสนใจไป สูญเสียปฏิสัมพันธ์ระหว่างมนุษย์จนกลายเป็นประสบการณ์ที่ไม่ค่อยดีของคนไข้ ขณะเดียวกันการวินิจฉัยก็สูญเสียความเข้าใจพฤติกรรมเฉพาะตัวคนไข้ที่ได้จากการซักถามพูดคุย


มีทีมสตาร์ทอัพทางการแพทย์ของไทย พัฒนา Preceptor AI เป็นไอเดียที่น่าทึ่ง เปลี่ยนวิธีบันทึกข้อมูลเข้าคอมพิวเตอร์ของคุณหมอ จากป้อนข้อมูลด้วยตัวเอง เป็นสรุปข้อวินิจฉัยอัตโนมัติจากเสียงที่หมอสนทนากับคนไข้ พูดง่ายๆ คือ พูดให้คนไข้ฟังไปพร้อมๆ กับ AI ช่วยจด ที่สำคัญคือผู้ช่วยนี้เข้าใจภาษาทางการแพทย์ จนสามารถสรุปใจความสำคัญได้



สำนักบัญชี


ไอเดียของ Preceptor AI เป็นจุดเริ่มต้นของการตั้งคำถามกับกระบวนการป้อนข้อมูลในแวดวงอื่น หาก AI สามารถเข้าใจ เสียงหรือภาพ เรายังจำเป็นต้องใช้วิธีการอินพุตแบบเดียวอีกหรือไม่ 


ข้อจำกัดของงานบัญชีอยู่ตรงที่มักเป็น small data ไม่มีใครมีข้อมูลตัวอย่างฟอร์มบิลที่หลากหลายมากพอที่จะพัฒนา AI ให้ใช้ได้ทั่วไป สำนักบัญชีที่เป็นศูนย์รวมงานบัญชีอาจเป็นจุดเริ่มต้นที่คุ้มค่า


งานอินพุตของบัญชีด้านซื้อและจ่ายมักยุ่งยากกว่าด้านขาย เพราะไม่สามารถควบคุมรูปแบบของเอกสารที่เป็นต้นทางของข้อมูลก่อนนำเข้าคอมพิวเตอร์ ความท้าทายจึงอยู่ที่การหาวิธีการที่คุ้มค่ากับขนาดของข้อมูล (เมื่อเทียบกับใช้คนเหมือนเดิม)



อินพุตด้วยเสียง

ปกติการป้อนข้อมูล ผู้ป้อนข้อมูลจะต้องดูบิลของจริง (หรือภาพบนจอ) พร้อมกับคีย์ข้อมูลเข้าคอมพิวเตอร์ เราอาจแบ่งงานเป็น 3 ขั้น


  • ใช้คนอ่านบิล ใช้เสียงแทนจิ้มคีย์บอร์ดป้อนข้อมูลโดยตรง


  • Speech to text แปลงเสียงอ่านเป็นข้อมูล อาจทำเป็น CSV ก่อน ยังไม่ต้องผูกติดกับโปรแกรมใดโปรแกรมหนึ่ง 


  • หาทางเอาข้อมูลดังกล่าว ป้อนเข้าโปรแกรมอัตโนมัติ เช่น ใช้ บางโปรแกรมอาจมีผู้เคยพัฒนา RPA ใช้ป้อนข้อมูลอ้ตโนมัติได้อยู่แล้ว หรือ บางโปรแกรมอาจรองรับการนำเข้าข้อมูลจากไฟล์ spreadsheet โดยตรง


อินพุตด้วยภาพ

สมมติว่า อินพุตด้วยเสียงพอใช้งานได้ เราอาจต่อยอดโดยใช้ AI อ่านบิลแทนคน โดยอาศัยตัวอย่างที่มีอยู่แล้วเรียนรู้ว่า บิลแต่แบบต้องอ่านข้อมูลส่วนไหนมาใช้บ้าง


  • Image to text อ่านจากภาพบิลเลียนแบบคน แล้วทำตามขั้นตอนเหมือนอินพุตด้วยเสียง


  • ยุบขั้นตอน อ่านภาพบิลออกมาเป็น CSV เลย หรือทะลุไปฟีดข้อมูลเข้าโปรแกรม เช่น ผ่าน API


ความซับซ้อนของการอ่านบิล ขึ้นอยู่กับรายละเอียดของข้อมูลที่ต้องการ เช่น ตั้งเป้าว่าอ่านเพื่อยื่นภาษีมูลค่าเพิ่ม ยังไม่ต้องสนใจรายการย่อยในบิล ขณะที่การอ่านเพื่อบันทึกแยกประเภท หรือทำสต็อค ต้องการรายละเอียดมากกว่า


เอกสารออกเป็นชุด มักลงวันที่ตั้งแต่ซื้อสินค้า มีลักษณะ 2 in 1 หมายความว่า บิลรูปแบบเดียวกันมีโหมดอ่านเพื่อใช้ตั้งหนี้ตอนซื้อ และโหมดอ่านเพื่อตัดหนี้ตอนจ่าย ซึ่งวันที่จ่ายต้องดูจากรายละเอียดการรับชำระด้านล่าง และที่ยากกว่านั้นมักเป็นลายมือเขียน


เอกสารที่มีรายการจำนวนมากจนเกินกระดาษแผ่นเดียว หากเป็นรูปภาพหลายภาพก็จะต้องเข้าใจว่าต้องรวมเป็นภาพของบิลชุดเดียวกัน มีความซับซ้อนในการอ่าน เพราะต้องอ่านข้อมูลจากส่วนหัวบิลแผ่นแรก มารวมกับอ่านยอดเงินสุทธิจากแผ่นสุดท้ายมารวมกัน


บิลที่เขียนมือ เป็นความท้าทายขั้นสูงสุด ที่อาจไม่คุ้มค่าที่จะพยายามทำให้ AI อ่านจากภาพถ่าย


Fake Slip


เช้าวันนี้เอง มีหลายท่านแชร์ขีดความสามารถของ AI ว่าสามารถสร้างรูปภาพและข้อความในนั้นได้เหมือนจริง จนยากสำหรับคนทั่วไปที่จะแยกแยะ ซึ่งสิ่งนั้นเคยถูกยึดถือในโลกออฟไลน์มานาน ว่าเป็นหลักฐานความจริงที่แน่นหนา



นั่นหมายความว่า สิ่งที่เคยเป็นสารตั้งต้นสำหรับข้อมูลที่ป้อนให้คอมพิวเตอร์ กำลังท้าทายขีดความสามารถตรวจสอบความจริง เช่นเดียวกับกรณีของ Deep Fake ที่เสกวิดีโอหรือภาพถ่ายขึ้นมา


บางทีอาจถึงเวลาที่เราควรเริ่มทบทวนถึงกระบวนการอินพุต การได้มาของข้อมูล รวมไปถึงนิยามของคำว่าข้อมูล โดยเฉพาะในโลกของ small data เช่น ระบบบัญชี ที่เคยใช้ประโยชน์จากข้อได้เปรียบที่เป็น well-structured data ในระบบปิด แต่ยากต่อการพิสูจน์ความเป็นของจริง หากไม่เชื่อมต่อหรือสื่อสารเพื่อยืนยันข้อมูลกับภายนอก


 
 
 

Comments


Post: Blog2_Post
  • Facebook

©2020 by Scraft On Cloud. Proudly created with Wix.com

bottom of page